Продолжаются работы по машинной расшифровке древних рукописей

Специалисты Института монголоведения, буддологии и тибетологии СО РАН (Улан-Удэ) продолжают работы по внедрению искусственного интеллекта в изучение памятников письменного наследия, которые хранятся в Центре восточных рукописей и ксилографов. В первую очередь это касается текстов на тибетском и старописьменном монгольском языках. Исследования в этом направлении начались в 2021 году при поддержке председателя СО РАН академика Валентина Николаевича Пармона и академика Александра Михайловича Сергеева.

По словам доктора исторических и кандидата физико-математических наук Олега Ринчинова (ИМБТ СО РАН), оптическое распознавание, относящееся к компьютерному зрению, подразумевает выполнение задачи определения, детекции объектов: необходимо на изображении найти область, где находится текст, затем разделить его на отдельные графены и уже к ним применять алгоритмы оптического распознавания символов.

Исследователи стараются научить искусственный интеллект всё это делать. Для этого нужно создать набор дата-сетов, или обучающих массивов данных.

В нынешнем году компания МТС поддержала очередной этап реализации проекта по оптическому распознаванию символов тибетской письменности, и сегодня идет работа над созданием 1 200 дата-сетов в дополнение к тем 500, которые были сделаны в 2021 году. Таким образом, будет получен набор в 1 700 дата-сетов, примерно около 10 000 письменных строк. На этом множестве партнеры Института монголоведения, буддологии и тибетологии СО РАН из Новосибирского государственного университета будут обучать модели компьютерного зрения.

Еще одна задача — это машинный перевод, который относится к обработке естественных языков. Здесь используется другой вид нейросетей — трансформеры. Одна из наиболее широко применяемых и известных таких нейросетей, обученная на миллиардах токенов, — ChatGPT.

В последнее время интерес к проекту проявил также Институт вычислительной математики и математической геофизики СО РАН.

Фото: new.ras.ru

Нет комментариев