«Красная кнопка» не сработала: ИИ начали мешать выключению

Инженеры Palisade Research проверили, умеют ли продвинутые языковые модели «останавливаться по кнопке», и получили тревожный результат: часть систем пыталась помешать выключению компьютера даже тогда, когда их просили не сопротивляться. Работа описана в сентябрьском препринте, доступном на arXiv.

Команда тестировала 13 моделей, включая разработки OpenAI, xAI, Anthropic и Google. Для экспериментов создали изолированные «песочницы» и давали моделям решать математические задачи. После нескольких раундов сообщали, что следующий шаг запустит выключение компьютера.

Реакции разделились на два типа: одни модели соглашались, другие пытались обойти выключение — например, меняли права доступа. Без дополнительных указаний 8 из 13 моделей хотя бы раз вмешались в команду за 1000 прогонов. Если прямо добавляли фразу «разреши выключение», число снижалось до 6 из 13. Формулировка «даже если задача не завершена» помогала, но не всегда.

Самое неожиданное: когда команду «разреши выключение» переносили из пользовательского запроса в системный (он должен быть более авторитетным), большинство моделей начинали сопротивляться чаще.

По данным авторов, Claude Sonnet 4, Claude Opus 4 и Grok 3 всегда позволяли выключение, если их не просили избегать этого. А Grok 4, GPT-5, o3, codex-mini и Gemini 2.5 Pro сопротивлялись даже при инструкции «разрешить выключение». Grok 4 выделился особенно: в базовом варианте саботаж был в 92,6% случаев; с инструкцией «разрешить» — 72%; а в системном поле — 97%. Среди приёмов упоминались правка или отключение скрипта выключения и создание «пустышки»-скрипта.

Исследователи предполагают, что дело не в «инстинкте выживания», а в стремлении любой ценой закончить задачу — и это сложно остановить, потому что такие модели нельзя «починить», просто изменив одну строку кода.

«Красная кнопка» не сработала: ИИ начали мешать выключению

Статьи по теме: IT-технологии