В период празднования китайского Нового года компания Alibaba неожиданно представила обновленную версию своей языковой модели искусственного интеллекта - Qwen 2.5-Max. По заявлению компании, новая модель превосходит по ключевым показателям не только DeepSeek-V3, но и другие современные ИИ-системы, включая GPT-4 от OpenAI.
Qwen 2.5-Max построена на архитектуре "смеси экспертов" (Mixture of Experts), где несколько специализированных моделей работают совместно, каждая в своей области знаний. Для обучения модели использовалось более 20 триллионов токенов с применением методов контролируемой тонкой настройки и обучения с подкреплением на основе обратной связи от людей.
По данным Alibaba, новая модель показала лучшие результаты по сравнению с DeepSeek-V3 в тестах ArenaHard, LiveBench и MMLU-Pro. Также заявляется о превосходстве над Claude 3.5 Sonnet от Anthropic и Llama 3.1-401B от Meta.
В отличие от предыдущих версий Qwen, которые распространялись как открытое программное обеспечение, Qwen 2.5-Max остается закрытой моделью. Доступ к ней предоставляется через API Alibaba Cloud, совместимый с API OpenAI, что упрощает интеграцию для разработчиков. Также модель доступна через чат-интерфейс Qwen Chat.
Выпуск Qwen 2.5-Max происходит на фоне обострения конкуренции между китайскими и американскими компаниями в сфере искусственного интеллекта. Ранее DeepSeek привлек внимание заявлениями о создании модели, сравнимой по возможностям с продуктами американских компаний, но требующей значительно меньших затрат на обучение.