Нейросети научили расшифровывать документы с дореволюционной орфографией

Нейросети научили расшифровывать документы с дореволюционной орфографией

Архив. Архивное фото

МОСКВА, 25 янв — РИА Новости. «Яндекс» обучил нейросети расшифровывать архивные документы с дореволюционной орфографией, доступ к соответствующему сервису уже открыт, с его помощью можно ознакомиться с историческими документами с текстовой расшифровкой, сообщили РИА Новости в пресс-службе компании.

«Яндекс» научил нейросети расшифровывать архивные записи со сложной дореволюционной орфографией. Попробовать технологию в действии можно уже сейчас в сервисе «Поиск по архивам»: он открывает всем желающим доступ к более чем 2,5 миллиона страниц исторических документов с текстовой расшифровкой», — говорится в сообщении.

Уточняется, что новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнает утратившие актуальность буквы и «понимает особую структуру архивных документов». Нейросеть обучили на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Так, разработанная технология может с легкостью разобрать текст, который неподготовленный человек вряд ли сможет понять.

«Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени, а наш сервис справляется с этим за несколько секунд. В перспективе технологию можно использовать и для решения других задач в продуктах «Яндекса», — отметила руководитель «Поиска» Елена Бубнова.

Кроме того, первым представленным в сервисе фондом стал главархив Москвы — именно на его материалах разработчики обучали нейросеть. Теперь база пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.

Нейросети научили расшифровывать документы с дореволюционной орфографией