Неопознанный объект. Как «сомневающаяся» нейросеть обрабатывает изображения точнее своих аналогов

Неопознанный объект. Как «сомневающаяся» нейросеть обрабатывает изображения точнее своих аналогов

В России разработана новейшая коллективная нейросеть SDDE (Ensembles with Diversified Saliency Maps), которая обеспечивает более точное распознавание объектов на изображениях, отсутствующих в существующих базах данных. В будущем эта технология может способствовать прогрессу в области автономного транспорта и медицинской диагностики, где важно различать неизвестные элементы и визуальный шум.

Создали нейросеть учащиеся Московского государственного технического университета и Московского физико-технического института в сотрудничестве с экспертами из некоммерческой исследовательской группы по искусственному интеллекту T-Bank AI Research. Свои результаты исследователи представили на международном симпозиуме по компьютерной обработке изображений ICIP 2024, который проходил в октябре в Абу-Даби (ОАЭ).

С ростом количества данных возрастает потребность в более устойчивых нейросетях, способных не только классифицировать неизвестные объекты, но и идентифицировать технологические искажения, которые неизбежно появляются при обработке изображений. Данные, выходящие за рамки стандартного распределения (ДВР), представляют собой совокупность всех таких неизвестных данных. Человеческий элемент в процессе обнаружения ДВР может стать причиной ошибок. Разработчики алгоритма решили эту проблему, создав ансамблевую модель с разнообразием, что уменьшило взаимосвязь между компонентами и повысило общую точность системы.

Нейросеть SDDE включает в себя несколько моделей, каждая из которых обучается на различных частях баз данных, позволяя им сосредоточиться на специфических признаках изображений. Это достигается за счет диверсификации карт внимания каждой модели — механизма, который позволяет понять, какие аспекты изображения привлекают внимание нейросети. В результате улучшается разнообразие ансамбля и повышается точность распознавания объектов на изображениях с уменьшением ошибок. Для тестирования эффективности нейросети были использованы различные базы данных: CIFAR10, CIFAR100 и ImageNet-1K. SDDE показала лучшие результаты по сравнению с аналогичными системами, такими как NCL (Negative Correlation Learning) и ADP (Adaptive Diversity Promoting).

Одной из важнейших задач при разработке моделей машинного обучения является соответствие реальной вероятности той, которую выдает нейросеть. То есть нейросеть уверена настолько, насколько ей легко предсказать таргет для данного образца. Обычно сети вообще не сомневаются в своих предсказаниях. В рамках данного исследования мы предложили новый метод диверсификации ансамблей, основанный на логитах — то есть, значениях, которые нейросеть выдает перед тем, как превратить их в вероятности. Это нововведение позволило повысить точность “мнения” нейросети при обнаружении данных вне распределения, что критично для применения моделей в реальных условиях. Например, в режиме автономного вождения необходимо безошибочно определять объекты на дороге, чтобы предотвращать аварии. В медицинской диагностике же требуется обширная база данных для правильной постановки диагноза. Неоткалиброванные модели могут быть чрезмерно уверены в своих неверных предположениях. У нашей нейросети излишняя уверенность отсутствует, что позволяет ей более адекватно оценивать свои расчеты.

  • Максим Жданов, студент 3 курса Института компьютерных наук НИТУ МИСИС

Для улучшения обнаружения искажений исследователи применили метод Outlier Exposure, который включает обучение модели на данных, содержащих примеры ДВР.

Изображение на обложке: МИСИС

Площади и храмовые пирамиды. С помощью лазера обнаружен 3000-летний затерянный город майя
Актуальность и перспективы применения робототехники в медицине. В ТАСС прошло заседание Научного совета РАН