Изобрели метод предварительного видеообучения нейросетей

📹 Проблема: в интернете много видео от пользователей программ и сервисов: летсплеи, обучающие ролики и прочие. Но по таким данным не обучить нейросеть: входные комбинации неизвестны и их не промаркировать. Неясно, какие клавиши и кнопки были нажаты и как двигали мышью, чтобы выполнить то или иное действие.

😎 Решение: Video PreTraining или VPT — метод обучения по видеоданным, где события зависят от нажатий и движений клавиатуры и мыши.

🤔 А как? Собрали небольшой набор видеоданных и управляющих действий и обучили на нём IDM — модель обратной динамики, которая может предсказывать действия в видео. Затем обученная IDM-модель промаркировала гораздо больший набор данных онлайн-видео и научилась действовать с помощью поведенческого клонирования.

Для проверки научили нейросеть играть в Minecraft. В качестве основы взяли 2000 часов видео из игры, а на следующих 70 000 часов нейронка обучалась самостоятельно.

Нейронка научилась рубить деревья, охотиться на животных, искать алмазы и совершать другие действия. Позже она перешла к более сложным процессам, таким как создание алмазной кирки. Знатоки поймут, как это сложно.

🤨 И что? Обучение нейросетей становится всё проще, а значит доступнее. Новый метод выгодно отличается от Generative Pre-training и охватывает больше областей, чем язык.

👉 Посмотреть:

👥 Кто: компания OpenAI, США.

Источники: github.com и openai.com