📹 Проблема: в интернете много видео от пользователей программ и сервисов: летсплеи, обучающие ролики и прочие. Но по таким данным не обучить нейросеть: входные комбинации неизвестны и их не промаркировать. Неясно, какие клавиши и кнопки были нажаты и как двигали мышью, чтобы выполнить то или иное действие.
😎 Решение: Video PreTraining или VPT — метод обучения по видеоданным, где события зависят от нажатий и движений клавиатуры и мыши.
🤔 А как? Собрали небольшой набор видеоданных и управляющих действий и обучили на нём IDM — модель обратной динамики, которая может предсказывать действия в видео. Затем обученная IDM-модель промаркировала гораздо больший набор данных онлайн-видео и научилась действовать с помощью поведенческого клонирования.
Для проверки научили нейросеть играть в Minecraft. В качестве основы взяли 2000 часов видео из игры, а на следующих 70 000 часов нейронка обучалась самостоятельно.
Нейронка научилась рубить деревья, охотиться на животных, искать алмазы и совершать другие действия. Позже она перешла к более сложным процессам, таким как создание алмазной кирки. Знатоки поймут, как это сложно.
🤨 И что? Обучение нейросетей становится всё проще, а значит доступнее. Новый метод выгодно отличается от Generative Pre-training и охватывает больше областей, чем язык.
👉 Посмотреть:
👥 Кто: компания OpenAI, США.
Источники: github.com и openai.com