Анастасия Ракова рассказала об использовании нейросетей для распознавания архивных документов
Больше 20 миллионов жителей Москвы воспользовались порталом «Поиск по архивам», который был запущен в столице год назад. Туда было загружено более 5,4 миллиона страниц исторических материалов из Главархива Москвы и других источников.
Заместитель мэра по социальному развитию Анастасия Ракова отметила, что благодаря этому сервису людям стало легче находить информацию о своих семьях. Кроме того, он помогает ученым и журналистам, а также использует искусственный интеллект для работы с устаревшими символами и рукописями.
Поиск по архивам - это сервис Яндекса, запущенный в начале 2023 года, который помогает быстро находить упоминания людей, населенных пунктов и событий в расшифрованных нейросетью рукописных документах XVIII-XX веков.
«На протяжении нескольких последних лет запросы, связанные с поиском предков и исследованием прошлого семьи, оказываются одними из самых популярных в Главархиве Москвы. Это особенно заметно в Год семьи, — отметила Ракова. — Мы стремимся помочь жителям в столь важном деле и ищем способы сделать доступ к документам проще. Так, несколько лет назад мы открыли онлайн-сервис «Моя семья» и разместили в нем оцифрованные метрические книги — документы, содержащие сведения о рождении, браке и смерти москвичей и жителей Московской губернии разных вероисповеданий. На основе ресурса «Моя семья» нейросеть «Поиска по архивам» училась читать рукописные тексты. За год работы сервиса к порталу обратились более 20 миллионов раз, что говорит о его популярности и необходимости. Сама же нейросеть проанализировала свыше 10 миллионов страниц исторических документов».
Этот сервис полезен историкам, социологам, демографам, журналистам и москвичам, помогая им находить информацию об исторических событиях и личностях. В «Поиске по архивам» уже есть документы из архивов 11 регионов, включая Москву, Московскую, Оренбургскую, Новгородскую, Иркутскую, Астраханскую области и другие. Всего нейросеть Яндекса распознала более 60 тысяч рукописных и печатных текстов середины XVIII - начала XX веков: в сумме это более 10 миллионов страниц или 492 миллиона строк. В «Поиске по архивам» хранятся расшифрованные архивные дела, содержащие информацию о людях, родившихся в России до 1917 года.
Кроме того, в этом сервисе собраны 3,6 миллиона цифровых страниц периодических изданий, таких как «Советский спорт», «Вечерняя Москва» и епархиальные ведомости.
Технология расшифровки в «Поиске по архивам» основана на оптическом распознавании символов. Нейросеть учитывает утратившие актуальность знаки и особенности почерка, преобразуя трудночитаемые записи в печатный текст за несколько секунд. Для работы с версткой газетных страниц нейросеть обучена распознавать текст на огромных полосах, напечатанных мелким шрифтом на низкоплотной бумаге.