Российские исследователи создали универсальную систему машинного зрения, способную распознавать трехмерные объекты без оптимизации под конкретные задачи. Эта технология станет важным шагом в развитии робототехники, дополненной реальности и 3D-сканирования.
Основной проблемой современных систем трехмерного машинного зрения является необходимость разработки уникальных моделей для каждого набора данных и задачи. Это ограничивает их возможности и замедляет прогресс. Новая архитектура, разработанная учеными Института искусственного интеллекта AIRI, решает эту проблему благодаря применению чистого трансформера-кодировщика.
«Наша разработка позволяет системе одинаково эффективно работать с разнородными наборами данных, устраняя необходимость в оптимизации под каждую задачу»,
– Антон Конушин, руководитель научной группы "Пространственный интеллект" Института AIRI
Исследователи использовали новый подход к обработке данных, переразметив их и сократив число уникальных классов объектов. Это позволило нейросети учиться на небольших и разнородных наборах данных, таких как 3D-модели, полученные с помощью лазерных радаров и датчиков глубины. Эксперименты показали, что модель успешно распознает объекты в различных типах "облаков точек" и других формах трехмерных данных.
Эта разработка не только ускорит создание систем 3D-зрения, но и значительно улучшит их точность и универсальность. Российская система обещает стать основой для новых приложений в робототехнике, 3D-сканировании и дополненной реальности, делая технологии более доступными и эффективными.
Источник: пресс-служба Института искусственного интеллекта AIRI