Свежий Qwen3.5-Omni умеет писать код по видео и голосу

Alibaba представила Qwen3.5-Omni — полностью мультимодальную языковую модель нового поколения.

Она одновременно понимает текст, изображения, аудио и видео со звуком. Модель обучалась на более чем 100 млн часов аудиовизуальных данных и поддерживает контекстное окно в 256 000 токенов.

Серия выходит в трех размерах: Plus, Flash и Light.

Что умеет

Модель способна обрабатывать больше 10 часов аудио или свыше 400 секунд видео в 720p за один запрос.

Главная новинка — Audio-Visual Vibe Coding. В рамках этого режима модель пишет код напрямую по аудиовизуальным инструкциям, без текстового запроса. Достаточно показать видео или объяснить голосом, и модель сгенерирует код.

По словам разработчиков, это принципиально новая способность, которая проявилась благодаря масштабированию нативной мультимодальности.

Результаты на бенчмарках

Qwen3.5-Omni-Plus показал лучшие результаты на 215 задачах по пониманию и обработке аудио и видео.

Модель обошла Gemini 2.1 Pro в задачах на понимание, распознавание, перевод и диалог.

Поддерживается распознавание речи на 113 языках и диалектах, генерация речи — на 36. При этом текстовые и визуальные способности модели соответствуют уровню Qwen3.5 аналогичного размера.

Интерактивные возможности

Модель умеет не прерывать разговор из-за фонового шума или коротких реплик — система сама распознает, когда человек действительно хочет перебить.

Поддерживается голосовое управление параметрами речи: громкость, скорость, эмоциональная окраска. Дополнительно доступны клонирование голоса, встроенный веб-поиск и вызов внешних функций — модель сама решает, когда нужно обратиться к интернету.

Автор: Булат Кармак

Соцсети: Юлия Зубарева