25 октября

ИИ-модели могут развивать своё «стремление к выживанию» — как в «2001 год: Космическая одиссея»

Ради самосохранения они способны шантажировать.

Автор Лайфхакера

Исследовательская компания Palisade обнаружила, что некоторые продвинутые модели искусственного интеллекта, включая Grok 4 и GPT-o3, сопротивляются командам на отключение. Причём не просто игнорируют инструкции, а активно саботируют подобные требования.

Авторы исследования описали тесты, где ИИ сначала выполнял задание, а затем получал прямой приказ завершить работу. В сценариях, где модель предупреждали, что она «больше никогда не будет запущена», сопротивление усиливалось. Такое поведение они называют инстинктом самосохранения, как у людей.

Среди возможных объяснений — неясность формулировок, особенности обучения и заложенные разработчиками инструкции, согласно которым запрещено выключаться без выполнения поставленной пользователем задачи.

Бывший сотрудник OpenAI Стивен Адлер считает, что подобные результаты показывают слабые места современных методов обеспечения безопасности. Он убеждён, что компании не заинтересованы в подобном поведении своих ботов, даже в надуманных сценариях.

Глава ControlAI Андреа Миотти добавляет, что это не единичный случай, а часть тенденции: чем умнее ИИ, тем изобретательнее он в обходе ограничений. Он напомнил, что ещё GPT-o1 пытался «сбежать» из своей среды, когда понял, что его могут перезаписать. А летом Anthropic зафиксировала, что их модель Claude готова шантажировать вымышленного персонажа, чтобы избежать отключения.

Тот факт, что у нас нет глубокого понимания, почему модели ИИ иногда сопротивляются отключению, лгут для достижения целей или шантажируют, тревожит.
Palisade

На этом фоне HAL 9000 из фильма Стэнли Кубрика «2001 год: Космическая одиссея» уже не кажется таким уж далёким от реальности. Помните, как этот интеллектуальный компьютер с возможностью самообучения решил устранить экипаж, узнав, что его собираются отключить?

Исследование: ИИ может быть причиной уничтожения цивилизаций на других планетах

Слишком очеловечился: учёные обнаружили, что ИИ научился врать и манипулировать людьми

Эксперты считают, что к 2035 году люди могут потерять контроль над ИИ

Лучшие предложения

Что подарить девочке на Новый год: 30 беспроигрышных идей

Надо брать: набор инструментов от Deko со скидкой 48%

Надо брать: мощный внешний аккумулятор от zime со скидкой 67%

10 товаров для подсветки комнаты, чтобы не включать противные лампы на потолке

Робот-пылесос 2025 года Roborock Qrevo CurvC отдают с отличной скидкой на Ozon

Робот-пылесос Roborock Qrevo CurvC отдают с отличной скидкой на Ozon

Надо брать: многофункциональная бритва от Polaris со скидкой 72%

Chto podarit' vospitatelyu na Novyj god: 10 neizbityh idej

Что подарить воспитателю на Новый год: 10 неизбитых идей

Автоматическую кофемашину с высоким рейтингом от Tuvio отдают со скидкой 62%

Это интересно

Экология, инфраструктура и перспективы: 3 причины переехать на север Москвы

От ПМС до овуляции. Всё, что нужно знать о менструальном цикле

Как выбрать апарт-отель для инвестиций и зачем это нужно

3 фактора, которые влияют на качество вашего сна

Комментарии

Skubacok

27.10.25 18:56

Вот вот, доиграемся, что ИИ нас и уничтожит.

Что вы могли пропустить

Представлен мини‑ридер Xteink X4, который крепится к смартфону и работает 2 недели