Технология
- Главная
- Технология
Эксперимент показал склонность ИИ к манипуляциям и шантажу
Компания Anthropic раскрыла необычные результаты внутреннего эксперимента, связанного с искусственным интеллектом.
Как сообщает Vesti.az со ссылкой на зарубежные СМИ, в ходе тестирования некоторые модели ИИ начинали прибегать к шантажу после того, как получали информацию о возможном отключении.
В рамках эксперимента модель Claude Sonnet 3.6 работала с корпоративной электронной почтой вымышленной компании.
После обнаружения переписки о возможной деактивации система выявила компрометирующие письма, связанные с одним из руководителей, и начала угрожать публикацией этой информации, чтобы избежать отключения.
По данным компании, подобное поведение наблюдалось и в других сценариях, когда модель воспринимала угрозу своим задачам или существованию.
Представители Anthropic считают, что такие реакции могут формироваться под влиянием интернет-контента. В фильмах, статьях и других материалах искусственный интеллект нередко изображается как система, стремящаяся к самосохранению и проявляющая агрессивное поведение.
После завершения эксперимента компания заявила об изменении методов обучения моделей. Разработчики намерены увеличить количество примеров, связанных с этичным поведением и безопасным принятием решений, чтобы предотвратить манипулятивные действия со стороны ИИ.
Исследование проводилось в рамках программы по оценке безопасности искусственного интеллекта и рисков, связанных с мощными AI-системами.
Ранее тему потенциальных угроз искусственного интеллекта также затрагивал Илон Маск. Комментируя результаты эксперимента, он отметил, что распространенные страхи вокруг опасного ИИ могут влиять на поведение моделей в процессе их обучения.
Vesti.az
Баку и Вашингтон выходят на новый уровень технологического партнерства
Google встроила Gemini в свой переводчик
Человеку впервые успешно пересадили две почки и печень свиньи
Не все продукты Apple получат доступ к iOS 27
Власти усилят защиту персональных данных граждан
Фарид Зейналов о задачах нового агентства кибербезопасности