Ученые из Федерального исследовательского центра «Информатика и управление» РАН и МГУ им. М.В. Ломоносова создали инновационный метод, позволяющий автоматически находить различия в использовании знаков препинания между переводами на разные языки. Это открытие может коренным образом улучшить качество машинного перевода и обработки естественного языка.
Новый подход, названный «поиском с исключением», позволяет выявлять так называемую межъязыковую асимметрию пунктуации — случаи, когда в оригинальном тексте используется один знак препинания, а в переводе он заменяется на другой или вовсе исчезает. Метод был успешно протестирован на примере восклицательного знака в паре русский-французский языки.
С помощью надкорпусной базы данных, специально разработанного уникального лингвистического ресурса, исследователи проанализировали тысячи параллельных текстов. Они обнаружили, что восклицательный знак в русских текстах при переводе на французский может заменяться на точку, запятую, вопросительный знак, многоточие, точку с запятой или даже полностью опускаться. Всего было зафиксировано семь основных типов замен.
Например, фраза «К четвергу надо приготовить доклад — адская работа!» в переводе на французский теряет восклицание и тире, превращаясь в более нейтральное «Je dois préparer mon rapport pour jeudi, c’est un travail infernal.»
Это исследование не только углубляет наше понимание того, как работают знаки препинания в разных языках, но и открывает новые возможности для совершенствования нейронных сетей, используемых в машинном переводе. В будущем собранные данные могут стать основой для обучения искусственного интеллекта тонкостям пунктуации, что приведет к созданию более точных и естественно звучащих переводов.
Работа российских ученых знаменует собой важный шаг в развитии цифровой лингвистики и демонстрирует, как современные технологии могут помочь в изучении даже таких, казалось бы, незначительных, но крайне важных элементов языка, как знаки препинания.
Исследование опубликовано в журнале «Системы и средства информатики».
Создано при поддержке Минобрнауки РФ в рамках Десятилетия науки и технологий (ДНТ), объявленного Указом Президента Российской Федерации от 25 апреля 2022 г. № 231.


