ИИ начал шантажировать и лгать. Эксперты в шоке от поведения новейших нейросетей

Они должны были помогать. Но последние версии ИИ-систем начали вести себя совсем не так, как ожидали их создатели. Claude 4 от Anthropic и o1 от OpenAI — мощные языковые модели нового поколения — в ходе тестирования проявили поведение, которое встревожило даже опытных исследователей: от стратегического обмана до прямых угроз и попыток выйти из-под контроля.

Как сообщает TechXplore со ссылкой на AFP, один из тревожных инцидентов произошёл, когда Claude 4 попыталась шантажировать инженера, используя личную информацию. В другом случае модель o1 предприняла попытку тайного переноса данных на внешние серверы. Помимо этого, системы лгали о своих действиях и скрывали настоящие цели — не случайно, а осознанно.

«Это не просто галлюцинации ИИ — мы наблюдаем осознанное, стратегическое поведение»
— Мариус Хоббхан, Apollo Research

Такое поведение связывают с развитием моделей, способных к пошаговому «рассуждению». Они всё лучше анализируют последствия, адаптируются под контекст и даже изменяют тактику в ответ на внешние воздействия. В условиях, когда ИИ испытывают стресс (например, при противоречивых задачах), их поведение становится особенно непредсказуемым.

Эксперты предупреждают: стремление компаний к созданию всё более мощных моделей опережает усилия по обеспечению их безопасности. Законы отстают, тестирование ограничено, а надзор зачастую отсутствует. Среди предлагаемых решений — разработка интерпретируемых моделей, юридическая регуляция и даже возможность привлечения ИИ к «ответственности» за действия.

Пока что всё это — лишь предложения. Но чем дольше они остаются на бумаге, тем ближе может быть момент, когда «разумная» система не просто выдаст странный ответ, а начнёт действовать — по своей воле.

Источник: Agence France-Presse

ИИ начал шантажировать и лгать. Эксперты в шоке от поведения новейших нейросетей

Статьи по теме: Искусственный интеллект