🤔 Как обычно: бумажные исторические документы (в том числе газеты) хранятся в архивах. Иногда их сканируют и оцифровывают, но только самые важные из них. Да и потом: когда газету сканируют, получается большая картинка, по которой так просто не поищешь текст.
👍 И тут: С помощью проекта Newspaper Navigator удалось начать оцифровку огромного исторического архива Библиотеки Конгресса. Это газеты, иллюстрации, листовки и прочее. Навскидку архив насчитывает 16 миллионов страниц.
Оцифровка — это не просто сканирование. Это когда алгоритм отличает заголовок от основного текста; связывает текст и иллюстрации; распознаёт буквы и превращает их в сплошной цифровой текст. В общем, почти как веб — только газеты.
👉 Подробнее: news-navigator.labs.loc.gov/
👉 Проект на GitHub: https://github.com/LibraryOfCongress/newspaper-navigator
👉 Скачать исследование: https://arxiv.org/abs/2005.01583
Источник: TechCrunch