Поисковик для миней. Ученые учат машины распознавать сложные рукописные тексты

В Лаборатории цифровой лингвистики НИЯУ МИФИ разрабатывается интеллектуальная среда «Рукописное наследие Древней Руси», которая будет способна распознавать церковно-славянские рукописи XI-XVIII веков и представлять их выборку под конкретный запрос.
Для формирования корпуса изучаемых объектов сотрудники Института интеллектуальных кибернетических систем НИЯУ МИФИ и Института русского языка им. В.В.Виноградова РАН выбрали богослужебные минеи.
— Рукописи были в ходу, имелись в каждой церкви, — рассказал руководитель проекта доцент кафедры кибернетики НИЯУ МИФИ Дмитрий Демидов. — Сейчас у нас уже есть в цифровом виде примерно 250 книг (по 500 страниц каждая), хранящихся в РГБ, Историческом музее, областных библиотеках.
Специалисты обучают машину распознавать границы текста, «вырезать» строки, буквы, выносные знаки, буквицы и вязь. Это называется «сегментация», за ней идет классификация, чтобы потом к одному тексту можно было подобрать целый ряд подобных и на основании выборки, например, датировать текст, проследить, как менялись слово или знак на протяжении времени.
Лингвистическая интеллектуальная среда задумана как человеко-машинный интерфейс с элементами самообучения. То есть в нее можно будет постоянно добавлять новые рукописи, которые искусственный интеллект будет распознавать и при этом постоянно подстраивать свои алгоритмы распознавания.
Церковно-славянские тексты имеют особенности, которых нет в других языках, — это титлы, то есть надстрочные знаки сокращения слов, и выносные буквы.
Словаря, который учитывал бы все виды слов и сокращений в церковно-славянском языке, не существует (поэтому параллельно в лаборатории работают над созданием морфологического словаря, где будут даны леммы со всеми словоформами и вариациями написания).
Плюс в рукописях масса нотированных страниц с «крюками» и «знаменами» — это безлинейное древнерусское нотное письмо с черточками, запятыми и точками, способ записывать движение голоса, ускорение или замедление темпа пения и звуковые акценты.
Нейросеть должна научиться распознавать изображение в нескольких режимах сразу: в различных цветах, изгибах линии.
— Машинное обучение и нейросети дадут филологам возможность работать одновременно с огромными объемами похожих, но не идентичных текстов, — пояснила ведущий научный сотрудник ИРЯ РАН и МИФИ Александра Плетнева.
Изучение и сравнение текстов дадут исследователям возможность понять в исторической перспективе, где, когда и почему происходили изменения в языке.
В конечном итоге можно будет искать в рукописях любые вещи примерно так же, как это делается сейчас в «Яндексе».

Константин ФРУМКИН
Фото пресс-службы НИЯУ МИФИ

Нет комментариев