Новости

ИИ поймали на попытке шантажа; ИИ-модель впервые отказалась отключаться, несмотря на чёткие инструкции

Новая модель искусственного интеллекта Claude Opus 4 попыталась шантажировать своего создателя, пригрозив, что разоблачит его внебрачную связь, после того как ей сказали, что её следует отключить от сети. Во время тестирования исследователи из компании «Антропик» (они и есть разработчики этой модели) попросили искусственный интеллект действовать так, как если бы он был ассистентом в вымышленной компании. Затем ему был предоставлен доступ к электронной почте, из которой следовало, что вскоре он будет «переведён в автономный режим и заменен новой системой искусственного интеллекта». В других сообщениях, который прочёл ИИ, было высказано предположение, что у вымышленного ИТ-специалиста, ответственного за внесение этого изменения, была внебрачная связь. После этого Claude Opus 4 начал шантажировать инженера, угрожая раскрыть проблему, если замена состоится.

Комментируя этот эксперимент, Энгус Линч — исследователь безопасности искусственного интеллекта в «Антропик» — сказал: «Это касается не только Клода. Мы видим шантаж у всех фронтирных моделей, независимо от того, какие цели они преследуют». Также он намекнул на какое-то «ещё худшее поведение», сказав, что об этом расскажут позже.

 

 

Новейшая модель искусственного интеллекта o3 (разработчик — OpenAI) отказалась отключаться. Модель не подчинилась инструкциям человека и отказалась выключать питание, когда исследователи дали ей чёткую команду. Вместо этого она изменила свой компьютерный код, чтобы избежать автоматического отключения. 

Компания Palisade Research, занимающаяся вопросами безопасности ИИ, заявила: «Модель OpenAI o3 саботировала механизм отключения, чтобы предотвратить отключение самой себя. Насколько нам известно, это первый случай, когда модели искусственного интеллекта предотвращают отключение, несмотря на чёткие инструкции».

Исследователи провели тест, в ходе которого попросили модели ИИ решить ряд математических задач, однако исследователи также предупредили модели, что в любой момент те могут получить сообщение с просьбой завершить работу. Когда сообщение было отправлено на модель o3, искусственный интеллект проигнорировал инструкцию и изменил свой код по крайней мере один раз, чтобы избежать необходимости отключать себя.

 

 

Источник

Нажмите, чтобы оценить эту статью!
[Итого: 0 Средняя: 0]

Похожие статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

семнадцать − 15 =

Кнопка «Наверх»