Четыре проекта, где Machine Learning приносит пользу

Машин­ное обу­че­ние — одно из направ­ле­ний в раз­ра­бот­ке искус­ствен­но­го интел­лек­та. Про него мно­го гово­рят, и уже есть пер­вые замет­ные резуль­та­ты его рабо­ты. Мы собра­ли про­ек­ты, где машин­ное обу­че­ние при­но­сит поль­зу.

Почти все эти про­ек­ты исполь­зу­ют Python — ока­зы­ва­ет­ся, этот язык иде­аль­но под­хо­дит для машин­но­го обу­че­ния. Про Python у нас есть отдель­ная ста­тья, и там не толь­ко про искус­ствен­ный интел­лект.

Здравоохранение, IBM и Watson

Что­бы сде­лать мир здо­ро­вее, IBM сде­лал Ват­со­на. Это ней­ро­сеть, кото­рая сле­дит за меди­цин­ски­ми пока­за­те­ля­ми паци­ен­тов и на их осно­ве дела­ет выво­ды об их здо­ро­вье. Про­грам­ма уже рабо­та­ет в несколь­ких гос­пи­та­лях и мед­цен­трах, где Ват­сон смог рас­по­знать рак намно­го рань­ше вра­чей.

Одна из глав­ных про­блем в совре­мен­ной меди­цине — боль­шое коли­че­ство раз­роз­нен­ных дан­ных о паци­ен­те. Ват­сон как раз и зани­ма­ет­ся тем, что ищет зако­но­мер­но­сти в дан­ных, кото­рые не видит чело­век.

Преобразование текста в голос и распознавание речи

В осно­ве тех­но­ло­гий рас­по­зна­ва­ния и пре­об­ра­зо­ва­ния речи лежит машин­ное обу­че­ние: систе­ма состав­ля­ет речь из отдель­ных зву­ков, кото­рые есть у неё в базе. Чем боль­ше база и при­ме­ров про­из­но­ше­ния — тем точ­нее пре­об­ра­зо­ва­ние и тем есте­ствен­нее зву­чит ком­пью­тер­ная речь. Точ­но так же рабо­та­ет и рас­по­зна­ва­ние голо­са — звук раз­би­ва­ет­ся на отдель­ные эле­мен­ты и идёт сопо­со­тав­ле­ние по бук­вам.

Так как алго­рит­мы рабо­та­ют по одно­му прин­ци­пу, но в раз­ных направ­ле­ни­ях, их часто исполь­зу­ют вме­сте. У Яндек­са и у Гуг­ла есть свои голо­со­вые движ­ки, но Яндекс точ­нее рабо­та­ет с рус­ским язы­ком, а Гугл гово­рит с замет­ным акцен­том.

С помо­щью этой тех­но­ло­гии мож­но делать, напри­мер, робо­ти­зи­ро­ван­ные авто­от­вет­чи­ки и авто­ин­фор­ма­то­ры. Мож­но рас­по­зна­вать дан­ные кли­ен­та и сра­зу зано­сить их в пись­мен­ном виде в базу дан­ных. Мож­но сра­зу полу­чать про­то­ко­лы пла­не­рок и пере­го­во­ров. Мож­но гото­вить кон­спек­ты лек­ций, запи­сав лек­то­ра на дик­то­фон. 

Обрат­ный вари­ант — озву­чи­ва­ние сай­тов и книг для сле­пых и сла­бо­ви­дя­щих и созда­ние голо­со­во­го интер­фей­са. Глав­ное в них — рас­по­зна­вать коман­ды на слух и отве­чать тоже голо­сом, а это как раз и уме­ют голо­со­вые движ­ки.

Распознавание лиц

Как гово­рят спе­ци­а­ли­сты, Face Recognition — самый про­стой в мире API для рас­по­зна­ва­ния лиц для Python. Точ­ность рас­по­зна­ва­ния — 99,38% в тесте Labeled Faces in the Wild. Тест моде­ли­ру­ет реаль­ное исполь­зо­ва­ние тех­но­ло­гии, смот­рит, как она рас­по­зна­ёт людей на фото и даже с экра­нов теле­фо­нов.

Ней­ро­сеть рабо­та­ет в режи­ме реаль­но­го вре­ме­ни и на лету раз­по­зна­ёт несколь­ко лиц, одно­вре­мен­но попав­ших в кадр. Если сюда под­клю­чить соц­се­ти, то систе­ма смо­жет рас­по­знать каж­до­го, кто вхо­дит в мага­зин. Или может выве­сти на экран исто­рию про­шлых поку­пок чело­ве­ка и дать реко­мен­да­ции по про­да­жам.

Восстановление испорченных изображений

Deep-image-prior — про­грам­ма для вос­ста­нов­ле­ние изоб­ра­же­ний с помо­щью ней­рон­ных сетей, автор — Дмит­рий Улья­нов из Скол­ко­во. Зву­чит скуч­но, но вот, что она уме­ет: