Нейросети развиваются очень быстро, и то, что казалось далёким будущим, наступает уже сейчас. Например, сегодня можно создать свою музыку, просто напев простую мелодию в микрофон, перевести видео на другой язык с теми же голосами или сделать видео по текстовому описанию.
Мы собрали самые интересные нейросети осени 2023 года — и рассказываем о каждой.
HeyGen
Это самая полезная нейросеть, если вам нужно перевести видео на другие языки, сохранив оригинальный голос того, кто выступает в кадре. Она не только переводит всё, но и подстраивает движения губ так, чтобы казалось, что ведущий действительно говорит на выбранном языке.
Официально русский не поддерживается, но на практике всё работает хорошо. Регистрация открыта для всех, но бесплатно можно сделать всего один ролик не более минуты, за остальное нужно платить кредитами. Один кредит = 1 минута видео, поэтому, если нужно перевести длинные ролики, нужно оформить подписку.
У сервиса есть свой API, поэтому можно подключить его к своим сервисам и выгружать туда видео автоматически. Из минусов — если в видео больше одного спикера, то они звучат очень похожими голосами: нейросеть пока не умеет разделять людей по голосам и подбирать каждому свою озвучку.
Нейросеть настолько преисполнилась в своём познании, что подстраивает тембр, скорость речи и интонации максимально близко к оригиналу. Смотрите сами:
Fusion Art AI
github.com/lllyasviel/ControlNet
Смысл этой нейросети — сгенерировать картинку, на которой из обычных предметов или животных составится слово, при этом всё не выглядит как что-то искусственное. Это отлично подойдёт всем, кому нужно создавать креативные картинки, в которых можно прочитать какой-то текст.
Единственный минус — это плагин к Stable Diffusion, поэтому для его работы нужна установленная SD и в идеале веб-интерфейс Automatic1111.
Вот пример картинки с котами, которую мы опубликовали в своём телеграм-канале. Если посмотреть на эту картинку издалека или расфокусировать зрение, можно увидеть слово Key:
Шедеврум
Нейросеть Яндекса, которая работает на основе каскадных diffusion-нейросетей — это похоже на то, как это делает Stable Diffusion, но с существенными доработками. Она создаёт картинки в любых стилях по текстовому описанию и делает это очень хорошо. У нейросети хорошо получается фотореализм, хотя это частая проблема генеративных сетей, когда картинка недотягивает до как будто настоящей фотографии:
С момента запуска «Шедеврум» сильно прокачали, поэтому в нём можно бесплатно создавать картинки, которые могут уже конкурировать с платным Midjorney.
У сервиса единственный минус — картинки можно создавать только в мобильном приложении, сайт этого не умеет. Но зато на сайте (как и в приложении) можно посмотреть картинки и сразу увидеть запрос, по которому сделано это изображение.
Runway Gen-2
Нейросети прокачались до такой степени, что они могут теперь создавать не картинки, а полноценное видео по текстовому описанию. Достаточно ввести ключевые слова, описать, что должно быть в кадре и в каком стиле всё оформлено, чтобы на выходе получить ролик длительностью от пары секунд до минуты.
Сервис бесплатный, но на старте есть всего 125 токенов. Этого хватит на 8 секунд видео, сгенерированного алгоритмом третьего поколения, или на 25 секунд — второго поколения. Если понравится, есть подписка — там токенов больше и пополняются они каждый месяц. Текстовый запрос нужно писать на английском.
Кроме создания видео по описанию, нейросеть умеет переносить стили из одного видео в другое, удалять фон, создавать 3D-рисунки и много других вещей.
Musicfy AI
Этот сервис — воплощение детской мечты всех музыкантов о том, что можно просто напеть какую-то мелодию или побарабанить пальцами по столу и превратить это в звучание конкретного инструмента.
Сервис платный, но часть возможностей доступна без оплаты (но с регистрацией). Можно загрузить свои уже готовые звуки или записать их прямо в интерфейсе сервиса. Там же можно перевести текст в голос, заменить голоса один на другой или сделать трек в стиле конкретного артиста.
А вот подробная инструкция, как это сделать и настроить. Тут не получится быстро, потому что нужно записывать звук, настраивать семплы и докручивать результат под себя, но оно того стоит:
Что дальше
В следующий раз разберём, как устроены некоторые из них: что внутри, как работают и как самому сделать такое же.