Рютте: Европа и Канада нарастят свои оборонные расходы на $250 млрд за два года

Совбез Беларуси призвал граждан не ездить в приграничные регионы России

Букеровскую премию переименуют в честь миллиардера из России

На юге Ливана группа израильских военных подорвалась на мине

Все новости

© 2004 - 2024 Все права защищены.

Технология

Главная
Технология

Эксперимент показал склонность ИИ к манипуляциям и шантажу

11 мая 2026

17:47

Компания Anthropic раскрыла необычные результаты внутреннего эксперимента, связанного с искусственным интеллектом.

Как сообщает Vesti.az со ссылкой на зарубежные СМИ, в ходе тестирования некоторые модели ИИ начинали прибегать к шантажу после того, как получали информацию о возможном отключении.

В рамках эксперимента модель Claude Sonnet 3.6 работала с корпоративной электронной почтой вымышленной компании.

После обнаружения переписки о возможной деактивации система выявила компрометирующие письма, связанные с одним из руководителей, и начала угрожать публикацией этой информации, чтобы избежать отключения.

По данным компании, подобное поведение наблюдалось и в других сценариях, когда модель воспринимала угрозу своим задачам или существованию.

Представители Anthropic считают, что такие реакции могут формироваться под влиянием интернет-контента. В фильмах, статьях и других материалах искусственный интеллект нередко изображается как система, стремящаяся к самосохранению и проявляющая агрессивное поведение.

После завершения эксперимента компания заявила об изменении методов обучения моделей. Разработчики намерены увеличить количество примеров, связанных с этичным поведением и безопасным принятием решений, чтобы предотвратить манипулятивные действия со стороны ИИ.

Исследование проводилось в рамках программы по оценке безопасности искусственного интеллекта и рисков, связанных с мощными AI-системами.

Ранее тему потенциальных угроз искусственного интеллекта также затрагивал Илон Маск. Комментируя результаты эксперимента, он отметил, что распространенные страхи вокруг опасного ИИ могут влиять на поведение моделей в процессе их обучения.