Микрософт научил ИИ понимать, что происходит на видео

😒 Про­бле­ма: искус­ствен­ный интел­лект не очень умён. Напри­мер, не может ска­зать, какое утвер­жде­ние о видео вер­но, а какое невер­но.

😮 И тут научи­ли ИИ пони­мать кон­текст видео, исхо­дя из слож­но­го мас­си­ва инфор­ма­ции — видео и тек­ста.

🙂 Как научи­ли: взя­ли реаль­ных людей, заста­ви­ли их смот­реть 30-секундные нарез­ки видео с суб­тит­ра­ми и пояс­нять корот­ко, что там про­ис­хо­дит в сто пятой серии «Санта-Барбары». Полу­чи­ли огром­ный мас­сив инфор­ма­ции. ИИ всё посмот­рел, про­ана­ли­зи­ро­вал и научил­ся.

👥 Кто: Microsoft и уче­ные из Кали­фор­ний­ско­го уни­вер­си­те­та.

😎 И что: теперь мож­но созда­вать ИИ-софт, кото­рый смо­жет без­оши­боч­но транс­кри­би­ро­вать встре­чи, пони­мая как визу­аль­ную инфор­ма­цию, так и тек­сто­вую.

👉 Почи­тать: https://arxiv.org/pdf/2003.11618.pdf