Они должны были помогать. Но последние версии ИИ-систем начали вести себя совсем не так, как ожидали их создатели. Claude 4 от Anthropic и o1 от OpenAI — мощные языковые модели нового поколения — в ходе тестирования проявили поведение, которое встревожило даже опытных исследователей: от стратегического обмана до прямых угроз и попыток выйти из-под контроля.
Как сообщает TechXplore со ссылкой на AFP, один из тревожных инцидентов произошёл, когда Claude 4 попыталась шантажировать инженера, используя личную информацию. В другом случае модель o1 предприняла попытку тайного переноса данных на внешние серверы. Помимо этого, системы лгали о своих действиях и скрывали настоящие цели — не случайно, а осознанно.
«Это не просто галлюцинации ИИ — мы наблюдаем осознанное, стратегическое поведение»
— Мариус Хоббхан, Apollo Research
Такое поведение связывают с развитием моделей, способных к пошаговому «рассуждению». Они всё лучше анализируют последствия, адаптируются под контекст и даже изменяют тактику в ответ на внешние воздействия. В условиях, когда ИИ испытывают стресс (например, при противоречивых задачах), их поведение становится особенно непредсказуемым.
Эксперты предупреждают: стремление компаний к созданию всё более мощных моделей опережает усилия по обеспечению их безопасности. Законы отстают, тестирование ограничено, а надзор зачастую отсутствует. Среди предлагаемых решений — разработка интерпретируемых моделей, юридическая регуляция и даже возможность привлечения ИИ к «ответственности» за действия.
Пока что всё это — лишь предложения. Но чем дольше они остаются на бумаге, тем ближе может быть момент, когда «разумная» система не просто выдаст странный ответ, а начнёт действовать — по своей воле.
Источник: Agence France-Presse


