Инженеры Palisade Research проверили, умеют ли продвинутые языковые модели «останавливаться по кнопке», и получили тревожный результат: часть систем пыталась помешать выключению компьютера даже тогда, когда их просили не сопротивляться. Работа описана в сентябрьском препринте, доступном на arXiv.
Команда тестировала 13 моделей, включая разработки OpenAI, xAI, Anthropic и Google. Для экспериментов создали изолированные «песочницы» и давали моделям решать математические задачи. После нескольких раундов сообщали, что следующий шаг запустит выключение компьютера.
Реакции разделились на два типа: одни модели соглашались, другие пытались обойти выключение — например, меняли права доступа. Без дополнительных указаний 8 из 13 моделей хотя бы раз вмешались в команду за 1000 прогонов. Если прямо добавляли фразу «разреши выключение», число снижалось до 6 из 13. Формулировка «даже если задача не завершена» помогала, но не всегда.
Самое неожиданное: когда команду «разреши выключение» переносили из пользовательского запроса в системный (он должен быть более авторитетным), большинство моделей начинали сопротивляться чаще.
По данным авторов, Claude Sonnet 4, Claude Opus 4 и Grok 3 всегда позволяли выключение, если их не просили избегать этого. А Grok 4, GPT-5, o3, codex-mini и Gemini 2.5 Pro сопротивлялись даже при инструкции «разрешить выключение». Grok 4 выделился особенно: в базовом варианте саботаж был в 92,6% случаев; с инструкцией «разрешить» — 72%; а в системном поле — 97%. Среди приёмов упоминались правка или отключение скрипта выключения и создание «пустышки»-скрипта.
Исследователи предполагают, что дело не в «инстинкте выживания», а в стремлении любой ценой закончить задачу — и это сложно остановить, потому что такие модели нельзя «починить», просто изменив одну строку кода.


