Технология
- Главная
- Технология
Эксперимент показал склонность ИИ к манипуляциям и шантажу
Компания Anthropic раскрыла необычные результаты внутреннего эксперимента, связанного с искусственным интеллектом.
Как сообщает Vesti.az со ссылкой на зарубежные СМИ, в ходе тестирования некоторые модели ИИ начинали прибегать к шантажу после того, как получали информацию о возможном отключении.
В рамках эксперимента модель Claude Sonnet 3.6 работала с корпоративной электронной почтой вымышленной компании.
После обнаружения переписки о возможной деактивации система выявила компрометирующие письма, связанные с одним из руководителей, и начала угрожать публикацией этой информации, чтобы избежать отключения.
По данным компании, подобное поведение наблюдалось и в других сценариях, когда модель воспринимала угрозу своим задачам или существованию.
Представители Anthropic считают, что такие реакции могут формироваться под влиянием интернет-контента. В фильмах, статьях и других материалах искусственный интеллект нередко изображается как система, стремящаяся к самосохранению и проявляющая агрессивное поведение.
После завершения эксперимента компания заявила об изменении методов обучения моделей. Разработчики намерены увеличить количество примеров, связанных с этичным поведением и безопасным принятием решений, чтобы предотвратить манипулятивные действия со стороны ИИ.
Исследование проводилось в рамках программы по оценке безопасности искусственного интеллекта и рисков, связанных с мощными AI-системами.
Ранее тему потенциальных угроз искусственного интеллекта также затрагивал Илон Маск. Комментируя результаты эксперимента, он отметил, что распространенные страхи вокруг опасного ИИ могут влиять на поведение моделей в процессе их обучения.
Vesti.az
Турецкая компания использовала ИИ в строительных проектах в Азербайджане
В ЕС обсуждают ужесточение контроля над VPN-сервисами
Ford, Toyota и Mazda вошли в рейтинг лучших автомобилей
В Азербайджане продолжается работа над спутником Azerspace-3
Южнокорейская Samsung уходит с рынка бытовой техники
За AI-фейки с чужим голосом и лицом грозит тюрьма