Цифра для букв

Искусственный интеллект ускорит работу с древними текстами

 К масштабному проекту по формированию уникальной базы древнеславянских рукописных текстов приступает коллаборация ученых из Института русского языка им. В.В.Виноградова РАН, НИТУ «МИСиС», НИУ ВШЭ при поддержке Комиссии по работе с вузами и научным сообществом при Епархиальном совете Москвы. Присутствие в этой группе представителей технического вуза объясняется тем, что в работе будут использованы технологии искусственного интеллекта и машинного обучения. Создание интерактивного корпуса древнеславянского языка даст исследователям-лингвистам и историкам мощный инструмент для изучения современных национальных славянских языков и культур.
Корпус — это структурированная база данных языка, информационно-справочная система, основанная на собрании текстов в электронной форме. Он представляет собой подобранную и особым образом обработанную (размеченную) совокупность текстов, которые используются в качестве основы для исследования лексики и грамматики языка.
— Основной объем древнеславянских — древнерусских, болгарских, сербских — текстов XI-XVII веков, которые дошли до нас — это несколько тысяч богослужебных рукописей, — рассказывает заместитель председателя Комиссии по работе с вузами и научным сообществом при Епархиальном совете Москвы иеромонах Родион (Ларионов). — Язык меняется от века к веку. Для ученых важно понять, во-первых, почему эти изменения происходят, чем они продиктованы, что влияет на их возникновение, а во-вторых, что эти изменения повлекли за собой. Если анализировать и систематизировать человеческими ресурсами тот объем данных, который представляют собой древнеславянские рукописи, это астрономическая работа, которая растянулась бы на века, особенно учитывая, что профессионалов, которые способны делать такую работу, в принципе очень мало. Технологии распознавания и оцифровки текстов, машинного перевода и ИИ позволят провести это важную работу в обозримое время. Искусственный интеллект даст возможность охватить весь гигантский массив данных, создать алгоритмы расстановки лингвистической разметки — главной характеристики корпуса.
Первым этапом проекта станут оцифровка и разметка комплекса древнеславянских миней XI-XVII веков на древнерусском, болгарском и сербском языках — служебных церковных книг, содержащих распорядок служб всех дней церковного года.

Пресс-служба НИТУ «МИСиС»

Нет комментариев