Учёные придумали, как «взломать» искусственный интеллект, не заглядывая внутрь. Представьте: нейросеть, которая распознаёт изображения, — это как запертый сейф. Вы даёте ей картинку, она возвращает ответ, но как именно она его получила — неизвестно. Это и есть «чёрный ящик». Оказывается, такие системы уязвимы для хитрых манипуляций — их можно обмануть, слегка изменив входное изображение так, что человек разницы не заметит, а ИИ ошибается.
Проблема в том, что традиционные методы атаки требуют миллионов запросов к системе — это долго, дорого и легко обнаруживается. Но российские исследователи из Института системного программирования РАН и их коллеги нашли элегантное решение. Они предложили метод под названием Mimic, который работает как умный шпион: вместо того чтобы постоянно «стучаться» в чёрный ящик, он учится на его ответах и создаёт свою, упрощённую копию целевой модели — «модель-ученика». Эта копия обучается на ограниченном наборе данных, имитируя поведение оригинала в определённой области.
Затем атака проводится уже на этой копии — как будто в тренировочной среде, где все карты открыты. Найденные обманные примеры переносятся на исходную модель-«чёрный ящик». И всё это — с минимальным числом запросов! Эксперименты на стандартных наборах данных CIFAR-10 и CIFAR-100 показали впечатляющие результаты: метод Mimic в разы сокращает количество необходимых запросов — в некоторых случаях до нескольких десятков вместо тысяч — и при этом сохраняет высокую успешность атаки.
Это открытие важно как для атак, так и для защиты: понимая, как работают такие методы, разработчики смогут лучше укреплять системы ИИ. Этот подход поможет тестировать уязвимости беспилотников, медицинских диагностических систем или финансовых алгоритмов, делая их надёжнее и безопаснее для всех нас.
Исследование опубликовано в журнале «Труды института системного программирования РАН».
Создано при поддержке Минобрнауки РФ в рамках Десятилетия науки и технологий (ДНТ), объявленного Указом Президента Российской Федерации от 25 апреля 2022 г. № 231.


