Цифровой формат. Нейросеть читает исторические документы
В изучении письменных источников, общий фонд которых в России огромен, сегодня все активнее используют искусственный интеллект. О том, чем он может помочь сотрудникам архивов, отделов рукописей и обычным россиянам, с какими сложностями в распознавании текстов сталкивается нейросеть и существует ли противостояние между нею и человеком, говорили участники панельной сессии «Современные технологии в гуманитарных исследованиях и сохранение культурно-исторического наследия Российской Федерации», прошедшей в рамках IV Конгресса молодых ученых.
Отправной точкой в дискуссии стал недавно реализованный историками и специалистами Сбербанка удачный проект Digital Петр, приуроченный к 350-летию со дня рождения Петра I.
«Рукописное наследие первого российского императора, - рассказывает участник проекта, заведующий отделом рукописей Российской национальной библиотеки Иван Поляков, - представляет собой огромный массив документов. Расшифровывать их чрезвычайно сложно. Мы обучали нейросеть читать сделанные нами сканы с рукописей Петра. Теперь перед учеными стоит более широкая задача: как использовать наработанные нейросетью навыки прочтения конкретных текстов для других письменных источников».
Подобная работа была невозможна еще десять лет назад, о чем сказал один из вдохновителей проекта со стороны программистов, управляющий директор по исследованию данных ПАО Сбербанк Денис Димитров
«Это был вызов - сделать такую модель обучения искусственного интеллекта, чтобы он смог читать рукописные тексты, - признался Димитров. - В последние два-три года появились генеративные модели, которые легко обучать распознаванию новых почерков».
В качестве продолжения проекта его участники занимаются сейчас распознаванием скорописи первой половины XVIII века – петровского и более позднего времени. Причем исследователи и программисты принципиально выбрали документы, написанные разными почерками.
Использование возможностей искусственного интеллекта помогает не только делать рукописи доступными для прочтения, но и переводить их в цифровой формат. С его помощью идет оцифровка и так называемых поздних ревизий, то есть документов учета податного населения XVIII-XIX веков, и метрических книг. В этом направлении с сотрудниками архивов, и центральных, таких как Российский государственный архив древних актов, и региональных, активно сотрудничает Яндекс. Его специалисты создали сервис, на котором выкладывают прочитанные нейросетью и оцифрованные архивные документы.
Интересующиеся собственной генеалогией люди, а таких становится все больше, находят на сервисе данные, связанные с их предками. Директор по развитию технологий искусственного интеллекта Яндекса Александр Крайнов отметил, что на сегодня 19 российских регионов предоставили свои архивы для их проекта и выразил уверенность в том, что это количество будет расти. Также Крайнов напомнил, что и для самих архивов такое сотрудничество выгодно, поскольку они получают документы в электронном виде.
Оснащенность современными методами важна для сохранения документальных свидетельств и тем самым - сбережения историко-культурного наследия России. Работа с большим объемом рукописных текстов показывает, какую роль играют новые технологии в решении важных общественных задач и насколько преувеличена нередко вызываемая тем же искусственным интеллектом настороженность.
«Противостояние не выглядит как “нейросеть и человек”, - говорит Александр Крайнов, - потому что нейросеть – это все-таки инструмент. Противостояние выглядит как “человек без этого инструмента и человек с этим инструментом”. А человек с инструментом всегда будет впереди».
Ирина Кравченко