OpenAI обучает свои модели самостоятельно анализировать безопасность

article picture

OpenAI представила новый подход к обеспечению безопасности своих языковых моделей, получивший название "deliberative alignment" (осознанное выравнивание). Компания обучила свои модели o1 и o3 анализировать собственную политику безопасности во время работы.

Новый метод позволяет моделям "размышлять" над безопасностью ответов после получения запроса от пользователя. После нажатия Enter модели тратят от 5 секунд до нескольких минут на внутренний анализ запроса, разбивая его на более мелкие части и сопоставляя с правилами безопасности компании.

По данным исследований OpenAI, такой подход значительно улучшил способность моделей различать безопасные и потенциально опасные запросы. Модели стали чаще отклонять неприемлемые запросы, сохраняя при этом способность отвечать на допустимые вопросы.

В тестах на устойчивость к попыткам обхода ограничений модель o1-preview превзошла GPT-4o, Gemini 1.5 Flash и Claude 3.5 Sonnet. При этом разработчики отмечают, что обучение проводилось без использования примеров, написанных людьми - вместо этого применялись синтетические данные, созданные другой ИИ-моделью.

Новый подход к безопасности будет использоваться в модели o3, выход которой запланирован на 2025 год. OpenAI утверждает, что o3 превосходит все ранее выпущенные модели компании, включая o1.

В условиях растущей мощности языковых моделей вопросы их безопасного использования становятся все более актуальными. Метод "deliberative alignment" может стать важным шагом в обеспечении соответствия ИИ-систем человеческим ценностям и этическим нормам.

OpenAI обучает свои модели самостоятельно анализировать безопасность

Google приобретает Wiz за $32 млрд: крупнейшая сделка в истории израильского хайтека

OpenAI инвестирует в ИИ-стартап для защиты от дипфейков и фишинга

КНДР изучает ChatGPT: Как Северная Корея осваивает технологии искусственного интеллекта

Революционная ИИ-модель Evo-2: Новый прорыв в расшифровке и синтезе ДНК

X повышает цены на Premium+ вдвое после запуска Grok 3