За короткое время рынок видеопродакшна перевернулся: профессиональный рекламный ролик, который раньше стоил 5-10-иногда 15 миллионов рублей и требовал съёмочной группы, сегодня во многом закрывается нейросетями. Около 60–80% современной наружной рекламы уже создаётся с применением генеративных технологий — просто вы этого не замечаете.
В этом материале собрали 16 инструментов для генерации видео, стиллшотов, музыки и озвучки — на основе опыта Александра Доброкотова, креативного директора и основателя нейро-продакшна, который работает с ИИ с 2022 года.
Посмотреть выпуск подкаста «Репортаж на диване» с Александром Доброкотовым можно здесь:
Ниже — список из 16 инструментов по всему пайплайну: от видеогенерации и стиллшотов до музыки и озвучки.
Как устроена генерация видео
Нейросети для генерации видео работают примерно так же, как ваш мозг, когда вы представляете кота с бензопилой в горах. Модель видела миллиарды видеокадров, запомнила паттерны — как движется вода, как человек встаёт, как падает свет — и воспроизводит их по запросу. Чем точнее промт и чем конкретнее стартовый кадр, тем предсказуемее результат.
Именно поэтому в профессиональном продакшне весь смысл не в тексте промпта, а в контроле над исходным кадром. Если писать текстовый запрос без референса — слишком многое остается на усмотрение системы. Загрузка стартового изображения позволяет жестко задать свет, композицию и атмосферу. Анимация в таком пайплайне — только финальный шаг.
«Большая часть работы на самом деле не с видео, а про выстраивание кадра».
Профессиональный подход строится поэтапно: сначала режиссура, создание стиллшота (раскадровки), определение движения камеры и только затем — генерация видео.
Как нейросети меняют рекламу
Главный фактор интеграции нейросетей в коммерцию — жесткая экономика. Рынок переживает радикальную перестройку: классические студии трансформируются в AI-продакшны, внутри креативных агентств появляются отдельные нейро-юниты.
«Идет прям супер активная трансформация продакшенов в AI-продакшены. В их рамках открываются новые подразделения или делаются отдельные юниты».
Эта трансформация совпала с повсеместным сокращением маркетинговых бюджетов, из-за чего бренды все чаще отказываются от традиционных съемок. Разница в цифрах и скорости колоссальная: производство одного рекламного видеоряда, которое раньше обходилось в 20–30 миллионов рублей и требовало огромной съемочной группы, теперь во многом закрывается генеративными инструментами на компьютерах. Около 60–80% современной наружной рекламы и билбордов создаётся с применением генеративных технологий. При этом качественные интеграции вы просто не замечаете — так же, как не замечаете хорошую компьютерную графику в фильмах Финчера.
Нейросети для генерации видео
Рынок видеогенерации делится на два лагеря — Америка и Китай:
«Тут на самом деле есть как бы два стула, два лагеря, два фандома самых главных — опять же не только про видео — это Америка и Китай. И на самом деле они прям очень сильно бодаются, это самое главное два игрока. И вот они постоянно то один круче сделает, то другой. И сейчас круче всего на мой взгляд — это китайские ребята».
Китайские модели быстрее обновляются, стабильнее держат физику в кадре и дают больше инструментов контроля над результатом. Американские — жёстче цензурируют и медленнее закрывают технические ограничения.
Kling 3.0 (Kuaishou)
Самая стабильная и качественная видеомодель в открытом доступе. Разработана китайской компанией Kuaishou.
Главная функция — Motion Control: берёте реальное видео с человеком, переносите его движение на сгенерированный аватар вплоть до мимики. Раньше по характеру движения можно было распознать генерацию. С Motion Control это уже практически невозможно.

В феврале 2026 года вышла версия Kling 3.0: длительность роликов выросла до 15 секунд, появилась генерация многокадровых сцен с согласованными переходами, модель научилась работать с референсными файлами — загружаете видео или картинку, она извлекает нужные элементы и встраивает в новый ролик. Промты лучше писать на английском, потому что модели по-разному обрабатывают языки, контекст и формулировки запроса. Из России доступна через агрегаторы без VPN.
Veo 3 / Veo 3.1 (Google DeepMind)
По качеству картинки Veo уступает Kling, но это единственная модель, которая нормально делает русскую озвучку прямо в процессе генерации. Для русскоязычного продакшна, где нужен аудиотрек без постпродакшна, это лучшее решение.

В выпуске подкаста есть живая демонстрация: стартовый кадр с картинкой, промт, озвучка — смотреть выпуск можно по ссылке.
Полезный блок со скидкой
Если хочется не просто поиграться с видеогенерацией, а разобраться, как собрать из нейросетей рабочий продакшн-пайплайн, — держите промокод Практикума на любой платный курс: KOD (можно просто нажать). Подойдёт и для «Нейросетей для работы», и для продвинутой версии — где уже про API, AI-агентов и автоматизацию.
Grok (xAI)
Вторая модель с нормальной русской озвучкой — от компании xAI. В задачах, где нужен русскоязычный аудиотрек прямо из модели, Grok — альтернатива Veo 3. Их стоит сравнивать под конкретную задачу: на одних сценариях лучше один, на других — другой.

Sora 2 (OpenAI)
Хорошая физика сцен, реалистичные ролики под камеру наблюдения — сцены, снятые будто бы на телефон, выглядят убедительно. Ограничение: нельзя загружать фотографии реальных людей, только аватары. Цензура жёстче, чем у китайских моделей. Из России доступна через агрегаторы.

Wan 2.1 (Alibaba)
Открытая модель, которую можно запустить локально — без облачной зависимости и без фильтров. Уступает по качеству закрытым аналогам, но бесплатна и не ограничена цензурой. Вариант для исследовательских задач и случаев, когда закрытые сервисы не подходят.

Seedance 2 (ByteDance)
Модель Seedance 2 от ByteDance в свое время показала новый уровень понимания сложной динамики. Сцены активного взаимодействия объектов и персонажей (например, драки), которые раньше превращались в кашу пикселей, здесь генерировались с кинематографичной физикой.

Но модель жёстко ограничили: пользователи начали генерировать драки знаменитостей — Уилл Смит против Брэда Питта, Терминатор против Робокопа. Disney и другие компании подали иски, ByteDance срезала возможности. Как рабочий инструмент сейчас не подходит.
Попробовать бесплатно — Шедеврум и Qwen
Самый доступный старт для тех, кто только знакомится с технологией — Шедеврум от Яндекса: работает на русском, бесплатные генерации, не нужен VPN. Самый наглядный сценарий для начала — оживление старых фотографий. Это сразу показывает, как работает генерация движения, и не требует знания промтинга.

Qwen от Alibaba — ещё одна точка входа с бесплатными дневными квотами. Подходит, чтобы понять логику работы с промтами и раскадровками, прежде чем переходить на платные модели.

Нейросети для стиллшотов — с чего начинается пайплайн
Это первый шаг в работе с любой видеомоделью. Пишете промт к видео без исходного изображения — получаете слабую степень контроля, всё остаётся на усмотрение модели. Загружаете конкретный кадр — задаёте свет, угол, персонажа, атмосферу. Анимировать уже куда проще. Качество стиллшота напрямую определяет качество видео.
Imagen 4 / Imagen 4 Ultra (Google DeepMind)
Доступна в Google Gemini напрямую, а также через агрегаторы — Krea, Freepik и другие платформы. Фотореализм, точная работа с деталями, понимает сложные сцены. Промты на русском через Gemini работают.

Как именно это выглядит в процессе — посмотрите в выпуске ИИ шоу с Доброкотовым:
Seedream 4.5 и Seedream 5 (ByteDance)
Модели от той же компании, что и Seedance 2, только для изображений. Сильны в текстурах и деталях — прямой конкурент Imagen по фотореализму. Если Imagen даёт чуть более «гугловский» результат, Seedream ближе к детальной фотографии с насыщенными текстурами.

Reve Image
Нишевый инструмент, который быстро набирает аудиторию среди контентмейкеров. Стоит попробовать рядом с основными моделями — иногда даёт результат, который другие не воспроизводят.

Flux 2
Популярна в профессиональном комьюнити, доступна через агрегаторы. Стабильная база для тех, кто работает с изображениями регулярно и хочет предсказуемый результат.

GPT-Image (ChatGPT)
Генерация изображений прямо в ChatGPT — без отдельного сервиса. Главное отличие: модель понимает контекст диалога и правки на русском языке. Сказал «убери фон» или «сделай свет теплее» — сделает. Для итерационной работы, когда нужно довести кадр до конкретного состояния, удобнее, чем перепромтить с нуля в отдельном сервисе.

Midjourney — когда нужна уникальная эстетика
Отдельная ниша. Если Imagen и Seedream работают на фотореализм — воспроизвести реальность как можно точнее, — то Midjourney создаёт визуальные стили, которых в природе не существует. Уникальная эстетика бренда, художественные концепции, образы, которые не перепутаешь ни с чем другим. Доступна из России через агрегаторы.

Нейросети для музыки и озвучки
Suno — музыка под видео
Suno.com — инструмент для генерации музыки под видеоконтент. Задаёте жанр, настроение, темп, наличие вокала — получаете трек. Работает с текстовыми описаниями на русском. Есть бесплатный тариф с ограниченным числом генераций в день. Для фоновой музыки, джинглов и саундтреков к роликам закрывает большинство задач без обращения к музыкантам.

ElevenLabs — озвучка и клонирование голоса
ElevenLabs появляется в разговоре в интересном контексте — про будущее актёрской профессии:
«Макконахи — один из инвесторов ElevenLabs. Это один из самых классных инструментов для звука, для саунд-клонинга».
Актёры в будущем будут не сниматься, а продавать права на свой образ и голос. Заходишь на маркетплейс, выбираешь нужного актёра, покупаешь лицензию, отправляешь в нейронку — готово. Макконахи как инвестор ElevenLabs — один из первых, кто движется в эту сторону публично.

По функциям: клонирование голоса, синтез речи на десятках языков включая русский, управление интонацией и темпом. Добавляет озвучку поверх готового видео или генерирует аудиодорожку отдельно.
Что нейросети для видео всё ещё делают плохо
Технология быстро развивается, но всё еще косячит, почему это происходит Александр Доброкотов рассказал и показал в подкасте, а здесь самое главное:
Персонаж «плывёт» на длинных видео. Моделям довольно сложно держать именно консистентного персонажа — это самая главная проблема, которую разработчики и архитекторы видеомоделей решают. Модель видит персонажа в начале, запоминает как он выглядит — но чем длиннее видео, тем сложнее удерживать образ стабильным. Форма носа, цвет волос, пропорции начинают постепенно плыть. В коротких роликах до 10–15 секунд это уже решено в современных моделях. В длинных — всё ещё нет.
Рабочее разрешение — 720p и 1080p, не 4K. До сих пор нет нормального 4K разрешения. Апскейлеры существуют, но тоже нейросетевые и работают нестабильно. Для большинства диджитал-задач 1080p хватает. Но для видеобилборда в центре города — это может быть проблемой.
Мелкие детали — «кипение». Есть такой термин — кипение — когда слишком маленькие объекты начинают как бы шуметь. Чем мельче объект в кадре, тем выше шанс, что он начнёт терять форму. Мелкая фурнитура, надписи, украшения — зона риска. Правило простое: чем меньше объект, тем больше шансов, что что-то пойдёт не так.
Толпа и массовка — лишние конечности, глюки фона. Если взять общий план с толпой, много людей массовки — шанс того, что какая-нибудь глючная дичь начнёт происходить в этой толпе, там очень велик, там лишние руки. Анатомия ломается именно на дальнем плане, когда модель не может уделить каждой фигуре достаточно внимания.
Физика — имитирует, а не симулирует. Более современные модели очень хорошо не симулируют, а скорее имитируют физику. Нейросеть не рассчитывает, как течёт вода или горит огонь — она воспроизводит паттерны из обучающих данных. Для огня, воды и дыма уже убедительно. Для сложных драк и акробатики — улучшается, но нестабильно.
Куда движется видеогенерация — два тренда
Мультимодальность: загружаешь всё сразу. Сейчас модель принимает текст и одно изображение. Следующий шаг — несколько источников одновременно:
«Ты можешь загрузить не только картинку — ты можешь загрузить ещё видео-пример и сказать: “возьми из этого видео вот этого персонажа и вот эти спецэффекты”. Ты можешь загрузить аудио: “вот отсюда голос возьми”. Ещё с десяток картин и референсов: “вот это на локацию”, “это вот должен быть вот здесь такой персонаж”. То есть это такие умные мультимодальные контекстные модели, которые дают совершенно другой уровень контроля».
Раньше — генерация всегда была лотереей: дал промт, получил очень далекое от ожиданий. Теперь — режиссура: персонаж из одного источника, локация из другого, стиль камеры из третьего, голос из четвёртого. Первые шаги в эту сторону — Kling 3.0 с поддержкой референсных файлов.
Мультишот: режиссёр внутри модели. Модель перестаёт быть аниматором одного кадра и становится монтажёром. Это уже было реализовано в Seedance 2 до его ограничения:
«Появляются мультишоты, и в модель встраивается тот самый режиссёр-постановщик. Если бы мы загрузили картинку в Seedance 2 и написали промт — у нас был бы вот этот план, потом монтаж, озвучка и все спецэффекты все в одном. Получился бы прям готовый ролик — с драматичным наездом, потом кадр с собакой, которая оживает, потом общий план где стены трясутся. Прям полноценный ролик».
Технология снимает барьер производства. Барьер режиссуры и концепта — остаётся.
Итого: нейросети для генерации видео — кому что
Идея, концепт, понимание кадра — всё это по-прежнему на человеке. Нейросети просто перестали быть причиной, почему классная идея не реализована в жизнь.
| Задача | Инструмент |
| Качественное видео, физика, контроль над кадром | Kling 3.0 |
| Русская озвучка прямо в генерации | Veo 3, Grok |
| Попробовать бесплатно, без VPN | Шедеврум, Qwen |
| Открытая модель без фильтров, локально | Wan 2.1 |
| Стиллшоты — фотореализм | Imagen 4, Seedream 5 |
| Стиллшоты — уникальная эстетика и стиль | Midjourney |
| Итерационная работа с изображением на русском | GPT-Image |
| Музыка под видео | Suno |
| Озвучка, клонирование голоса | ElevenLabs |
Посмотреть выпуск подкаста «Репортаж на диване» с Александром Доброкотовым можно здесь:
Советуем дополнительно почитать по теме:
Нейросети для создания презентаций 2026: топ-5 сервисов — сервисы, которые превращают текст, документы и промпты в готовые презентации: GensparkAI, SlidesAI и другие инструменты для визуальной работы без ручной сборки каждого слайда.
Нейронки-2026: обзор лучших для поиска, работы с текстом, документами и презентациями — подборка нейросетей для повседневной работы: поиск, тексты, документы, презентации и другие задачи, где ИИ уже стал рабочим инструментом, а не игрушкой.
20 AI GitHub-репозиториев для разработчика в 2026 году — свежая подборка репозиториев для локальных и облачных языковых моделей, RAG, инференса, агентов и разработки с ИИ.
12 AI GitHub-репозиториев 2026: Ollama, n8n, Claude Code и OpenHands — инструменты для локального запуска моделей, автоматизации без подписок и сборки AI-агентов: Ollama, Open WebUI, Dify, n8n, Claude Code, LangChain и другие.
Топ-ИИ для программистов в 2026: как нейросети упрощают создание кода — GitHub Copilot, ChatGPT, Claude и другие инструменты, которые помогают писать, объяснять, проверять и документировать код, но всё ещё требуют человеческой проверки.
Бонус для читателей
Если вам интересно погрузиться в мир ИИ и при этом немного сэкономить, держите наш промокод на курсы Практикума. Он даст вам скидку при оплате, поможет с льготной ипотекой и даст безлимит на маркетплейсах. Ладно, окей, это просто скидка, без остального, но хорошая.
