Нейронка распознаёт и классифицирует миллионы газет для Библиотеки Конгресса

🤔 Как обыч­но: бумаж­ные исто­ри­че­ские доку­мен­ты (в том чис­ле газе­ты) хра­нят­ся в архи­вах. Ино­гда их ска­ни­ру­ют и оциф­ро­вы­ва­ют, но толь­ко самые важ­ные из них. Да и потом: когда газе­ту ска­ни­ру­ют, полу­ча­ет­ся боль­шая кар­тин­ка, по кото­рой так про­сто не поищешь текст.

👍 И тут: С помо­щью про­ек­та Newspaper Navigator уда­лось начать оциф­ров­ку огром­но­го исто­ри­че­ско­го архи­ва Биб­лио­те­ки Кон­грес­са. Это газе­ты, иллю­стра­ции, листов­ки и про­чее. Навскид­ку архив насчи­ты­ва­ет 16 мил­ли­о­нов стра­ниц.

Оциф­ров­ка — это не про­сто ска­ни­ро­ва­ние. Это когда алго­ритм отли­ча­ет заго­ло­вок от основ­но­го тек­ста; свя­зы­ва­ет текст и иллю­стра­ции; рас­по­зна­ёт бук­вы и пре­вра­ща­ет их в сплош­ной циф­ро­вой текст. В общем, почти как веб — толь­ко газе­ты.

👉 Подроб­нее: news-navigator.labs.loc.gov/

👉 Про­ект на GitHub: https://github.com/LibraryOfCongress/newspaper-navigator

👉 Ска­чать иссле­до­ва­ние: https://arxiv.org/abs/2005.01583

Источ­ник: TechCrunch