Технология
- Главная
- Технология
Эксперимент показал склонность ИИ к манипуляциям и шантажу
Компания Anthropic раскрыла необычные результаты внутреннего эксперимента, связанного с искусственным интеллектом.
Как сообщает Vesti.az со ссылкой на зарубежные СМИ, в ходе тестирования некоторые модели ИИ начинали прибегать к шантажу после того, как получали информацию о возможном отключении.
В рамках эксперимента модель Claude Sonnet 3.6 работала с корпоративной электронной почтой вымышленной компании.
После обнаружения переписки о возможной деактивации система выявила компрометирующие письма, связанные с одним из руководителей, и начала угрожать публикацией этой информации, чтобы избежать отключения.
По данным компании, подобное поведение наблюдалось и в других сценариях, когда модель воспринимала угрозу своим задачам или существованию.
Представители Anthropic считают, что такие реакции могут формироваться под влиянием интернет-контента. В фильмах, статьях и других материалах искусственный интеллект нередко изображается как система, стремящаяся к самосохранению и проявляющая агрессивное поведение.
После завершения эксперимента компания заявила об изменении методов обучения моделей. Разработчики намерены увеличить количество примеров, связанных с этичным поведением и безопасным принятием решений, чтобы предотвратить манипулятивные действия со стороны ИИ.
Исследование проводилось в рамках программы по оценке безопасности искусственного интеллекта и рисков, связанных с мощными AI-системами.
Ранее тему потенциальных угроз искусственного интеллекта также затрагивал Илон Маск. Комментируя результаты эксперимента, он отметил, что распространенные страхи вокруг опасного ИИ могут влиять на поведение моделей в процессе их обучения.
Vesti.az
ООН: ИИ воспроизводит гендерные и расовые предубеждения
Apple повысила стоимость MacBook и iPad по всему миру
Китай впервые с 2017 года обошел США по мощности суперкомпьютеров
Apple добавила в iOS 27 секретную функцию
Instagram может влиять на способность узнавать собственное лицо
Современный ИИ становится все менее понятным человеку