Ученые из МФТИ, AIRI и Лондонского института математических наук разработали бенчмарк BABILong для оценки способности языковых моделей работать с большими объемами данных. Этот инструмент проверяет, как хорошо нейросети справляются с длинными контекстами, включая задачи анализа и поиска разрозненных фактов.
BABILong состоит из 20 задач, которые требуют применения базовой логики, арифметики и работы с большими текстовыми массивами. В отличие от других тестов, он направлен на проверку двух ключевых параметров: качество ответа и влияние длины контекста на производительность модели. Задачи бенчмарка интегрированы в длинные тексты художественной литературы, что делает процесс анализа сложнее и требует не только нахождения нужных данных, но и их осмысленной обработки.
"Бенчмарк BABILong позволяет сравнивать корректность работы моделей на разной длине контекста, служа индикатором их качества."
- Юрий Куратов, руководитель группы «Модели с памятью» лаборатории «Когнитивные системы ИИ» Института AIRI
Исследование показало, что современные языковые модели обрабатывают лишь 10–20% контекста и часто игнорируют информацию из середины текстов. С ростом объема данных их производительность снижается: при превышении 25% от длины контекста эффективность существенно падает. Эти результаты подчеркивают необходимость совершенствования механизмов обработки длинных контекстов.
Кроме того, в сотрудничестве с командой R&D SberDevices ученые адаптировали бенчмарк для русского языка, создав версию Libra. Новый инструмент позволяет тестировать русскоязычные языковые модели по тем же параметрам, что и оригинальный BABILong.
Эта работа открывает перспективы для оптимизации языковых моделей, помогая разработчикам выявлять их слабые стороны и разрабатывать более эффективные алгоритмы. Результаты исследования подчеркивают значимость дальнейших улучшений в обработке больших данных для повышения точности и надежности нейросетей.
Источник: За науку