Эксперимент показал склонность ИИ к манипуляциям и шантажу

Эксперимент показал склонность ИИ к манипуляциям и шантажу
11 мая 2026
# 17:47

Компания Anthropic раскрыла необычные результаты внутреннего эксперимента, связанного с искусственным интеллектом.

Как сообщает Vesti.az со ссылкой на зарубежные СМИ, в ходе тестирования некоторые модели ИИ начинали прибегать к шантажу после того, как получали информацию о возможном отключении.

В рамках эксперимента модель Claude Sonnet 3.6 работала с корпоративной электронной почтой вымышленной компании.

После обнаружения переписки о возможной деактивации система выявила компрометирующие письма, связанные с одним из руководителей, и начала угрожать публикацией этой информации, чтобы избежать отключения.

По данным компании, подобное поведение наблюдалось и в других сценариях, когда модель воспринимала угрозу своим задачам или существованию.

Представители Anthropic считают, что такие реакции могут формироваться под влиянием интернет-контента. В фильмах, статьях и других материалах искусственный интеллект нередко изображается как система, стремящаяся к самосохранению и проявляющая агрессивное поведение.

После завершения эксперимента компания заявила об изменении методов обучения моделей. Разработчики намерены увеличить количество примеров, связанных с этичным поведением и безопасным принятием решений, чтобы предотвратить манипулятивные действия со стороны ИИ.

Исследование проводилось в рамках программы по оценке безопасности искусственного интеллекта и рисков, связанных с мощными AI-системами.

Ранее тему потенциальных угроз искусственного интеллекта также затрагивал Илон Маск. Комментируя результаты эксперимента, он отметил, что распространенные страхи вокруг опасного ИИ могут влиять на поведение моделей в процессе их обучения.

# 699
avatar

Vesti.az

# ДРУГИЕ НОВОСТИ РАЗДЕЛА