Борьба за оригинальность. Разработка НИУ ВШЭ выявляет машинный текст
Российские ученые из НИУ ВШЭ представили две уникальные системы искусственного интеллекта, способные распознавать машинные вставки в научных текстах. Эти разработки помогут повысить прозрачность и оригинальность научных публикаций, где все чаще применяются сгенерированные нейросетями фрагменты.
Системы, созданные под руководством исследователя Александра Ширнина, включают две модели: AIpom и Papilusion. Первая использует сочетание энкодеров и декодеров, что позволяет с высокой точностью находить машинные вставки, в том числе скрытые под краткими пересказами или синонимами. Вторая модель, Papilusion, ориентирована на распознавание текстов с помощью одного типа нейросетей — энкодеров.
"Сочетание декодеров и энкодеров в системе AIpom значительно повышает её эффективность. Это позволило обойти большинство других систем,".
- Александр Ширнин, стажер-исследователь НИУ ВШЭ
На международном конкурсе SemEval-2024 обе разработки заняли лидирующие позиции: AIpom — второе место, Papilusion — шестое. Конкурс был направлен на создание алгоритмов, способных не только выявлять сгенерированный текст, но и определять его точные границы в работе.
Исследователи отмечают, что качество этих систем может быть ещё выше при расширении обучающих наборов данных, включающих более широкий спектр естественных и сгенерированных текстов. Это позволит анализировать не только научные статьи, но и работы студентов, где часто применяются нейросети для переформулировки, дополнения и решения сложных задач.
Разработки НИУ ВШЭ подчеркивают важность интеграции технологий ИИ в академическую сферу для борьбы с подделкой научных данных и повышения их достоверности.
Источник: НИУ ВШЭ