«Яндекс» научил нейросети расшифровывать архивные записи со сложной орфографией

Исторические рукописи, которые сложно разобрать человеку, искусственный интеллект почти мгновенно превращает в печатный текст.

«Яндекс» запустил новый сервис «Поиск по архивам», который при помощи нейросетей расшифровывает архивные записи со сложной дореволюционной орфографией.

⚡ Самое интересное и важное за день — в телеграм-канале «Лайфхакер. Новости».

Сервис открывает доступ к более чем 2,5 миллионам страниц исторических документов с текстовой расшифровкой. Его алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и понимает особую структуру архивных документов.

Специалисты компании обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров.

Изображение: «Яндекс»

Рукописи, которые неподготовленному человеку сложно разобрать, технология «Яндекса» почти мгновенно превращает в печатный текст. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населённого пункта или любых других слов.

«Поиск по архивам» повысит эффективность работы историков, социологов, демографов, генеалогов и поможет тем, кто ищет сведения о своей семье.

Первым представленным в сервисе фондом стал Главархив Москвы — именно на его материалах разработчики обучали нейросеть. Также в базе есть документы из архивов Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.

Искать можно по материалам XVIII – начала XX веков, которые больше всего пользуются популярностью у пользователей. Это метрические книги, исповедные ведомости и ревизские сказки с результатами переписи населения. Документы можно найти по каталогу или через строку поиска. Есть фильтры по годам, архивам, фондам и описям.

Изображение: «Яндекс»

Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями. Если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии.

Это упрощённая версия страницы.

Читать полную версию
Обложка: «Яндекс»
Если нашли ошибку, выделите текст и нажмите Ctrl + Enter
Oksana Fedorova
25.01.23 10:47
А где ссылка на сервис?