ИИ-модели могут развивать своё «стремление к выживанию» — как в «2001 год: Космическая одиссея»

Исследовательская компания Palisade , что некоторые продвинутые модели искусственного интеллекта, включая Grok 4 и GPT-o3, сопротивляются командам на отключение. Причём не просто игнорируют инструкции, а активно саботируют подобные требования.
Авторы исследования описали тесты, где ИИ сначала выполнял задание, а затем получал прямой приказ завершить работу. В сценариях, где модель предупреждали, что она «больше никогда не будет запущена», сопротивление усиливалось. Такое поведение они называют инстинктом самосохранения, как у людей.
Среди возможных объяснений — неясность формулировок, особенности обучения и заложенные разработчиками инструкции, согласно которым запрещено выключаться без выполнения поставленной пользователем задачи.
Бывший сотрудник OpenAI Стивен Адлер считает, что подобные результаты показывают слабые места современных методов обеспечения безопасности. Он убеждён, что компании не заинтересованы в подобном поведении своих ботов, даже в надуманных сценариях.
Глава ControlAI Андреа Миотти добавляет, что это не единичный случай, а часть тенденции: чем умнее ИИ, тем изобретательнее он в обходе ограничений. Он напомнил, что ещё GPT-o1 «сбежать» из своей среды, когда понял, что его могут перезаписать. А летом Anthropic зафиксировала, что их модель Claude готова шантажировать вымышленного персонажа, чтобы избежать отключения.
Тот факт, что у нас нет глубокого понимания, почему модели ИИ иногда сопротивляются отключению, лгут для достижения целей или шантажируют, тревожит.
Palisade
На этом фоне HAL 9000 из фильма Стэнли Кубрика «2001 год: Космическая одиссея» уже не кажется таким уж далёким от реальности. Помните, как этот интеллектуальный компьютер с возможностью самообучения решил устранить экипаж, узнав, что его собираются отключить?















Лучшие предложения
Найдена распределяющая шляпа из Хогвартса. Сейчас на неё скидка — а ещё она разговаривает!
10 товаров с распродажи 11.11, на которые не жалко потратить деньги
5 мини-ПК с высоким рейтингом и большими скидками на распродаже 11.11
Надо брать: универсальный стайлер от Tuvio со скидкой 73%
15 мощных GaN-зарядок со скидками до 84% на распродаже 11.11
На что способен проектор Magcubic за 3 850 рублей
Надо брать: глобальная версия флагмана OnePlus 15 дешевле 50 000 рублей
Надо брать: внешний жёсткий диск на 1 ТБ от Netac со скидкой 45%
Что подарить ребёнку? 10 идей для детей от 0 до 10 лет
РекламаС высоты профессии. 3 вдохновляющие истории девушек, которые чинят и проектируют самолёты
7 фактов о детском пюре «ФрутоНяня», которые стоит знать родителям
РекламаРебёнок в машине: 6 главных ошибок, которые допускают родители