Российские ученые разработали инновационный метод, позволяющий искусственному интеллекту обрабатывать последовательности данных длиной до 2 миллионов токенов. Этот рекордный результат поможет ускорить разработку быстрых нейросетевых алгоритмов для обработки больших объемов данных.
Группа исследователей из Московского физико-технического института, Института искусственного интеллекта AIRI и Лондонского института математических наук предложила новый подход для работы с большими данными. Их метод позволяет искусственному интеллекту генерировать ответы на запросы объемом до 2 миллионов токенов, что является мировым рекордом. Исследование опубликовано в сборнике трудов конференции AAAI-24 в Ванкувере.
Основой метода является особый механизм использования языковых моделей, которые предсказывают слова и фразы на основе контекста. Эти модели применяются в диалоговых системах, поисковых сервисах и голосовых помощниках. Важной частью их программного обеспечения являются трансформеры — архитектуры, помогающие правильно обрабатывать запросы и генерировать ответы.
«Однако модели, которые используют стандартные трансформеры, не могут обрабатывать длинные тексты. Их скорость быстро падает, когда размер текста увеличивается. В результате нейросети приходят к пределам возможностей, выдают “галлюцинации” или ошибочные ответы»,
— Айдар Булатов, программист-разработчик лаборатории нейронных систем и глубокого обучения МФТИ.
Чтобы решить эту проблему, исследователи предложили добавить трансформерам «механизм памяти». Длинные входные последовательности разделяются на сегменты, которые снабжаются дополнительными алгоритмами для резервирования информации. Эти элементы служат «мостиками», перенося важные данные с одного сегмента на другой, что позволяет модели держать в «памяти» весь текст на всем его протяжении.
«Сначала мы проводили эксперименты на небольших последовательностях — от 7 до 15 сегментов, в каждом из которых по 500 токенов (базовых единиц информации в языковых моделях), но заметили, что качество обработки данных при увеличении длины не падает. Тогда мы продолжили тестирование модели и дошли до миллиона, а затем — и до двух миллионов токенов»
— Юрий Куратов, научный сотрудник AIRI.
Эксперименты показали, что модель может эффективно обрабатывать и запоминать большие объемы данных, а также демонстрировать «критическое мышление» и «писательское мастерство». В будущем этот метод будет востребован для разработки технологий обработки больших баз данных, таких как перевод книг, чтение программного кода, изучение геномных последовательностей и предсказание новых материалов.