Alibaba представила Qwen3.5-Omni — полностью мультимодальную языковую модель нового поколения.
Она одновременно понимает текст, изображения, аудио и видео со звуком. Модель обучалась на более чем 100 млн часов аудиовизуальных данных и поддерживает контекстное окно в 256 000 токенов.
Серия выходит в трех размерах: Plus, Flash и Light.
Что умеет
Модель способна обрабатывать больше 10 часов аудио или свыше 400 секунд видео в 720p за один запрос.
Главная новинка — Audio-Visual Vibe Coding. В рамках этого режима модель пишет код напрямую по аудиовизуальным инструкциям, без текстового запроса. Достаточно показать видео или объяснить голосом, и модель сгенерирует код.
По словам разработчиков, это принципиально новая способность, которая проявилась благодаря масштабированию нативной мультимодальности.
Результаты на бенчмарках
Qwen3.5-Omni-Plus показал лучшие результаты на 215 задачах по пониманию и обработке аудио и видео.
Модель обошла Gemini 2.1 Pro в задачах на понимание, распознавание, перевод и диалог.
Поддерживается распознавание речи на 113 языках и диалектах, генерация речи — на 36. При этом текстовые и визуальные способности модели соответствуют уровню Qwen3.5 аналогичного размера.
Интерактивные возможности
Модель умеет не прерывать разговор из-за фонового шума или коротких реплик — система сама распознает, когда человек действительно хочет перебить.
Поддерживается голосовое управление параметрами речи: громкость, скорость, эмоциональная окраска. Дополнительно доступны клонирование голоса, встроенный веб-поиск и вызов внешних функций — модель сама решает, когда нужно обратиться к интернету.
