Нейросеть научилась прогнозировать события на видео с точностью до 99%

Нейросеть научилась прогнозировать события на видео с точностью до 99%

Исследователи МФТИ совместно с коллегами из Института AIRI и Университета Иннополис разработали метод DyGEnc, который позволяет большим языковым моделям отвечать на сложные вопросы о происходящем на видео, отслеживая движения объектов и их взаимодействие. Технология прежде всего нужна для «умных» роботов, работающих в меняющейся среде — в логистике, на производстве или в бытовом сервисе. Исследование опубликовано в журнале Technologies.

Метод сжимает происходящее на видео в граф событий — структуру, где каждый объект-вершина связан с другими объектами и предметами с помощью рёбер-действий. Затем эта структура кодируется и подаётся в языковую модель, которая отвечает на вопросы. Как пояснил соавтор разработки Дмитрий Юдин, общая картина собирается из отдельных кусочков, что позволяет модели не «забывать» начало длинного видео и не додумывать детали.

На тестах с известной графовой разметкой STAR (9 тысяч видеороликов с бытовыми сценами) алгоритм правильно ответил на 99% вопросов о взаимодействии объектов и на 97% — при прогнозировании следующего действия. На более сложном бенчмарке AGQA с 2,27 млн вопросов после дообучения точность на открытых вопросах выросла с 54% до 93%. Исходный код опубликован в открытом доступе на GitHub.

Разработчики успешно протестировали алгоритм на реальном роботе с рукой-манипулятором: он получал задания на русском языке («подъехать к столу и взять предмет») и выполнял их, анализируя видео с камер в реальном времени. Система сохраняла точность выше 90% даже при добавлении шумов (удалении до трети связей или замене слов синонимами). Как отметил основной автор метода Сергей Линок, следующий шаг — создание единой архитектуры, которая принимает на вход сразу видео, без промежуточного этапа текстовой разметки.

Риск Альцгеймера могут выдать снимки сетчатки — задолго до диагноза
Крыло древнего птерозавра раскрыло биологические тайны, скрытые 100 миллионов лет