OpenAI обучает свои модели самостоятельно анализировать безопасность

· 0 минут чтения

article picture

OpenAI представила новый подход к обеспечению безопасности своих языковых моделей, получивший название "deliberative alignment" (осознанное выравнивание). Компания обучила свои модели o1 и o3 анализировать собственную политику безопасности во время работы.

Новый метод позволяет моделям "размышлять" над безопасностью ответов после получения запроса от пользователя. После нажатия Enter модели тратят от 5 секунд до нескольких минут на внутренний анализ запроса, разбивая его на более мелкие части и сопоставляя с правилами безопасности компании.

По данным исследований OpenAI, такой подход значительно улучшил способность моделей различать безопасные и потенциально опасные запросы. Модели стали чаще отклонять неприемлемые запросы, сохраняя при этом способность отвечать на допустимые вопросы.

В тестах на устойчивость к попыткам обхода ограничений модель o1-preview превзошла GPT-4o, Gemini 1.5 Flash и Claude 3.5 Sonnet. При этом разработчики отмечают, что обучение проводилось без использования примеров, написанных людьми - вместо этого применялись синтетические данные, созданные другой ИИ-моделью.

Новый подход к безопасности будет использоваться в модели o3, выход которой запланирован на 2025 год. OpenAI утверждает, что o3 превосходит все ранее выпущенные модели компании, включая o1.

В условиях растущей мощности языковых моделей вопросы их безопасного использования становятся все более актуальными. Метод "deliberative alignment" может стать важным шагом в обеспечении соответствия ИИ-систем человеческим ценностям и этическим нормам.