Нейронка распознаёт и классифицирует миллионы газет для Библиотеки Конгресса

Можно почитать газеты прошлых веков.

Нейронка распознаёт и классифицирует миллионы газет для Библиотеки Конгресса

🤔 Как обычно: бумажные исторические документы (в том числе газеты) хранятся в архивах. Иногда их сканируют и оцифровывают, но только самые важные из них. Да и потом: когда газету сканируют, получается большая картинка, по которой так просто не поищешь текст.

👍 И тут: С помощью проекта Newspaper Navigator удалось начать оцифровку огромного исторического архива Библиотеки Конгресса. Это газеты, иллюстрации, листовки и прочее. Навскидку архив насчитывает 16 миллионов страниц.

Оцифровка — это не просто сканирование. Это когда алгоритм отличает заголовок от основного текста; связывает текст и иллюстрации; распознаёт буквы и превращает их в сплошной цифровой текст. В общем, почти как веб — только газеты.

👉 Подробнее: news-navigator.labs.loc.gov/

👉 Проект на GitHub: https://github.com/LibraryOfCongress/newspaper-navigator

👉 Скачать исследование: https://arxiv.org/abs/2005.01583

Источник: TechCrunch

Получите ИТ-профессию
В «Яндекс Практикуме» можно стать разработчиком, тестировщиком, аналитиком и менеджером цифровых продуктов. Первая часть обучения всегда бесплатная, чтобы попробовать и найти то, что вам по душе. Дальше — программы трудоустройства.
Получите ИТ-профессию Получите ИТ-профессию Получите ИТ-профессию Получите ИТ-профессию
Вам может быть интересно
Нейронка ведёт деловые переговоры
Нейронка ведёт деловые переговоры

Люди не нужны!

Изобрели: свеча с дистанционным зажиганием (но не автомобильная)
Изобрели: свеча с дистанционным зажиганием (но не автомобильная)

Для тех, у кого уже всё есть.

Нейросеть удаляет воду с подводных снимков
Нейросеть удаляет воду с подводных снимков

На фотографиях подводного мира вода искажает цвета растений и местных жителей.

Смартфоны по взгляду научили определять, что хочет сделать пользователь
Смартфоны по взгляду научили определять, что хочет сделать пользователь

«Он указал мне взглядом войти».

Сделали систему, которая добывает  воду из воздуха
Сделали систему, которая добывает воду из воздуха
[Вот, почитайте] как теории заговора распространяются в соцсетях
[Вот, почитайте] как теории заговора распространяются в соцсетях

И почему алгоритмы не всегда виноваты.

Google научился создавать 3D-панорамы из фотографий
Google научился создавать 3D-панорамы из фотографий

Скоро можно будет легко бродить по туристическим местам.

Почитайте: ElliQ, подруга 93-летней Хуаниты
Почитайте: ElliQ, подруга 93-летней Хуаниты
Робот говорит сам с собой, чтобы люди больше ему доверяли
Робот говорит сам с собой, чтобы люди больше ему доверяли

Тихо сам с собою я веду беседу.