Нейронка распознаёт и классифицирует миллионы газет для Библиотеки Конгресса

Можно почитать газеты прошлых веков.

Нейронка распознаёт и классифицирует миллионы газет для Библиотеки Конгресса

🤔 Как обычно: бумажные исторические документы (в том числе газеты) хранятся в архивах. Иногда их сканируют и оцифровывают, но только самые важные из них. Да и потом: когда газету сканируют, получается большая картинка, по которой так просто не поищешь текст.

👍 И тут: С помощью проекта Newspaper Navigator удалось начать оцифровку огромного исторического архива Библиотеки Конгресса. Это газеты, иллюстрации, листовки и прочее. Навскидку архив насчитывает 16 миллионов страниц.

Оцифровка — это не просто сканирование. Это когда алгоритм отличает заголовок от основного текста; связывает текст и иллюстрации; распознаёт буквы и превращает их в сплошной цифровой текст. В общем, почти как веб — только газеты.

👉 Подробнее: news-navigator.labs.loc.gov/

👉 Проект на GitHub: https://github.com/LibraryOfCongress/newspaper-navigator

👉 Скачать исследование: https://arxiv.org/abs/2005.01583

Источник: TechCrunch

Получите ИТ-профессию
В «Яндекс Практикуме» можно стать разработчиком, тестировщиком, аналитиком и менеджером цифровых продуктов. Первая часть обучения всегда бесплатная, чтобы попробовать и найти то, что вам по душе. Дальше — программы трудоустройства.
Получите ИТ-профессию Получите ИТ-профессию Получите ИТ-профессию Получите ИТ-профессию
Вам может быть интересно
Нейронка ведёт деловые переговоры
Нейронка ведёт деловые переговоры

Люди не нужны!

Изобрели: свеча с дистанционным зажиганием (но не автомобильная)
Изобрели: свеча с дистанционным зажиганием (но не автомобильная)

Для тех, у кого уже всё есть.

Нейросеть удаляет воду с подводных снимков
Нейросеть удаляет воду с подводных снимков

На фотографиях подводного мира вода искажает цвета растений и местных жителей.

Исследователи создали симулятор, в котором роботы собирают мебель из IKEA
Исследователи создали симулятор, в котором роботы собирают мебель из IKEA

Наконец-то кто-то научится собирать икеевские столики быстро и с первого раза. 

Сто лет назад: первая жёсткая складная крыша кабриолета
Сто лет назад: первая жёсткая складная крыша кабриолета
Разработали роботизированную таблетку для доставки лекарств, которые раньше вводили через иглу
Разработали роботизированную таблетку для доставки лекарств, которые раньше вводили через иглу
Больше не сливаем свои данные ИИ: в интернете собрали список нейронок, которые работают локально на вашем компьютере
Больше не сливаем свои данные ИИ: в интернете собрали список нейронок, которые работают локально на вашем компьютере

Работаем с ИИ локально

easy
В России придумали, как легко и дёшево печатать цветные голограммы
В России придумали, как легко и дёшево печатать цветные голограммы
Программисты создали ИИ для удалённого обнаружения наркотика фентанила
Программисты создали ИИ для удалённого обнаружения наркотика фентанила