Лучшее
Рубрики
Время есть
Промокоды
Подкасты
Сервисы
Наши книги
Лучшее
Рубрики
Время есть
Промокоды
Подкасты
Сервисы
Наши книги
Новости
Здоровье
Спорт и фитнес
Покупки
Технологии
Образование
Отношения
Реклама

«Яндекс» научил нейросети расшифровывать архивные записи со сложной орфографией

25 января Новости Веб-сервисы
Исторические рукописи, которые сложно разобрать человеку, искусственный интеллект почти мгновенно превращает в печатный текст.
Фото автора Виктор Подволоцкий
Виктор Подволоцкий

Автор Лайфхакера

«Яндекс» научил нейросети расшифровывать архивные записи со сложной орфографией
Избранное

«Яндекс» запустил новый сервис «Поиск по архивам», который при помощи нейросетей расшифровывает архивные записи со сложной дореволюционной орфографией.

Сервис открывает доступ к более чем 2,5 миллионам страниц исторических документов с текстовой расшифровкой. Его алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и понимает особую структуру архивных документов.

Специалисты компании обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров.

Изображение: «Яндекс»

Рукописи, которые неподготовленному человеку сложно разобрать, технология «Яндекса» почти мгновенно превращает в печатный текст. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населённого пункта или любых других слов.

«Поиск по архивам» повысит эффективность работы историков, социологов, демографов, генеалогов и поможет тем, кто ищет сведения о своей семье.

Первым представленным в сервисе фондом стал Главархив Москвы — именно на его материалах разработчики обучали нейросеть. Также в базе есть документы из архивов Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.

Искать можно по материалам XVIII – начала XX веков, которые больше всего пользуются популярностью у пользователей. Это метрические книги, исповедные ведомости и ревизские сказки с результатами переписи населения. Документы можно найти по каталогу или через строку поиска. Есть фильтры по годам, архивам, фондам и описям.

Изображение: «Яндекс»

Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями. Если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии.

Обложка: «Яндекс»
Если нашли ошибку, выделите текст и нажмите Ctrl + Enter
Избранное
Информация
О проектеРубрикиРекламаРедакцияВакансии
Подписка
TelegramВКонтактеTwitterViberДзенОдноклассникиYouTubeРассылкиRSS
Правила
Пользовательское соглашениеПолитика обработки персональных данныхПравила сообщества
18+Копирование материалов запрещено. Издание может получать комиссию от покупки товаров, представленных в публикациях