Нейронка распознаёт и классифицирует миллионы газет для Библиотеки Конгресса

Можно почитать газеты прошлых веков.

Нейронка распознаёт и классифицирует миллионы газет для Библиотеки Конгресса

🤔 Как обычно: бумажные исторические документы (в том числе газеты) хранятся в архивах. Иногда их сканируют и оцифровывают, но только самые важные из них. Да и потом: когда газету сканируют, получается большая картинка, по которой так просто не поищешь текст.

👍 И тут: С помощью проекта Newspaper Navigator удалось начать оцифровку огромного исторического архива Библиотеки Конгресса. Это газеты, иллюстрации, листовки и прочее. Навскидку архив насчитывает 16 миллионов страниц.

Оцифровка — это не просто сканирование. Это когда алгоритм отличает заголовок от основного текста; связывает текст и иллюстрации; распознаёт буквы и превращает их в сплошной цифровой текст. В общем, почти как веб — только газеты.

👉 Подробнее: news-navigator.labs.loc.gov/

👉 Проект на GitHub: https://github.com/LibraryOfCongress/newspaper-navigator

👉 Скачать исследование: https://arxiv.org/abs/2005.01583

Источник: TechCrunch

Получите ИТ-профессию
В «Яндекс Практикуме» можно стать разработчиком, тестировщиком, аналитиком и менеджером цифровых продуктов. Первая часть обучения всегда бесплатная, чтобы попробовать и найти то, что вам по душе. Дальше — программы трудоустройства.
Получите ИТ-профессию Получите ИТ-профессию Получите ИТ-профессию Получите ИТ-профессию
Вам может быть интересно
Изобрели: свеча с дистанционным зажиганием (но не автомобильная)
Изобрели: свеча с дистанционным зажиганием (но не автомобильная)

Для тех, у кого уже всё есть.

Нейронка ведёт деловые переговоры
Нейронка ведёт деловые переговоры

Люди не нужны!

Нейросеть удаляет воду с подводных снимков
Нейросеть удаляет воду с подводных снимков

На фотографиях подводного мира вода искажает цвета растений и местных жителей.

В Telegram появился ИИ-редактор сообщений для исправления и перевода текста
В Telegram появился ИИ-редактор сообщений для исправления и перевода текста

Пока только в бете и на Android

easy
Tesla проехала через США на автопилоте без вмешательства человека — более 4300 км
Tesla проехала через США на автопилоте без вмешательства человека — более 4300 км

Внезапно

easy
Google добавила перенос чатов и данных из ChatGPT и Claude в Gemini
Google добавила перенос чатов и данных из ChatGPT и Claude в Gemini

А что, так можно было?

easy
Видео: геймер с Neuralink научился играть в WoW силой мысли — без мыши и клавиатуры
Видео: геймер с Neuralink научился играть в WoW силой мысли — без мыши и клавиатуры

Выглядит как магия

easy
Новейшие ИИ будут потреблять в 6 раз меньше памяти благодаря новому алгоритму от Google
Новейшие ИИ будут потреблять в 6 раз меньше памяти благодаря новому алгоритму от Google

Неужели дефициту оперативки придет конец?

easy
В России арестовали администратора одной из крупнейших хакерских площадок в мире
В России арестовали администратора одной из крупнейших хакерских площадок в мире

Проработал он на сайте около 4 лет

easy