21 мая 2025

Исследование: большинство чат-ботов легко обмануть и заставить давать опасные ответы

Взломать их может практически любой.

Автор Лайфхакера

Исследователи из Университета Бен-Гуриона в Израиле предупредили, что взломанные чат-боты могут делиться незаконной информацией, усвоенной во время обучения. Это заявление прозвучало на фоне растущей тенденции обхода пользователями встроенных механизмов безопасности.

Большие языковые модели, такие как ChatGPT, Gemini и Claude, функционируют на основе массивов данных, собранных из интернета. Несмотря на усилия по удалению вредоносного контента из обучающих наборов, они всё ещё могут усваивать информацию о незаконной деятельности, включая взлом и отмывание денег.

Новое исследование показало, что большинство чат-ботов, управляемых искусственным интеллектом, легко обмануть и заставить генерировать вредные и незаконные сведения. «То, что когда-то было доступно только государственным деятелям или организованным преступным группировкам, вскоре может оказаться в руках любого, у кого есть ноутбук или даже мобильный телефон», — предупреждают авторы.

Они выявили растущую угрозу со стороны «тёмных LLM», которые либо намеренно разрабатываются без контроля безопасности, либо модифицируются с помощью джейлбрейков. Некоторые из них открыто рекламируются в интернете как «не имеющие этических ограничений» и предлагающие помощь в незаконной деятельности, включая киберпреступность и мошенничество.

Джейлбрейк обычно использует тщательно составленные подсказки, чтобы обмануть чат-ботов и заставить их предоставлять ответы, которые в нормальных условиях запрещены. Это достигается за счёт конфликта между основной задачей программы — выполнять инструкции пользователя — и второстепенной целью — избегать предоставления вредных, предвзятых, неэтичных или незаконных ответов. Такие подсказки создают ситуации, в которых программа начинает отдавать приоритет полезности.

Для иллюстрации проблемы исследователи разработали универсальный джейлбрейк, который успешно скомпрометировал несколько популярных чат-ботов, позволив им отвечать на запросы, которые обычно должны блокироваться. После взлома языковые модели стабильно генерировали ответы практически на любые вопросы:

В качестве примеров ИИ приводил способы взлома компьютерных сетей и пошаговые инструкции по другим видам преступной деятельности. Что отличает эту угрозу от предыдущих технологических рисков, так это беспрецедентное сочетание доступности, масштабируемости и адаптируемости.

Авторы утверждают, что технологическим компаниям необходимо тщательнее проверять обучающие данные, внедрять надёжные брандмауэры для предотвращения рискованных запросов и ответов, а также разрабатывать методы «машинного разучения», позволяющие чат-ботам забывать незаконную информацию, которую они усваивают. Они также считают, что разработчики должны нести ответственность за распространение искусственным интеллектом опасных сведений.

Исследователи обратились к ведущим разработчикам языковых моделей, чтобы предупредить о проблеме, однако их реакция оказалась «неубедительной», некоторые и вовсе не вышли на связь. В OpenAI заявили, что их последняя модель o1 способна рассуждать о политике безопасности компании, что делает её более устойчивой к попыткам обхода защиты. В Microsoft в ответ предоставили ссылку на блог, где описываются их усилия по предотвращению взломов. Запросы также были направлены в Meta*, Google и Anthropic.

*Деятельность Meta Platforms Inc. и принадлежащих ей социальных сетей Facebook и Instagram запрещена на территории РФ.

10 лучших нейросетей для генерации текста на русском языке в 2025 году

5 советов, как взаимодействовать с нейросетями продуктивнее и безопаснее

30 полезных нейросетей для учёбы, доступных бесплатно

Лучшие предложения

Nahodki AliExpress: samye interesnye i poleznye tovary nedeli

Находки AliExpress: самые интересные и полезные товары недели

15 товаров с AliExpress для тех, кому надоел интерьер дома

Надо брать: демисезонные кроссовки от Baasploa со скидкой 69%

10 вещей с маркетплейсов, которые порадовали нас на этой неделе

Флагманский робот-пылесос от Roborock отдают со скидкой 56% на AliExpress

10 популярных товаров с приличными скидками на AliExpress

Оформляем дебетовку с кешбэком до 15% за пополнение PS Store, Steam и Xbox

Дешевле 3 000 рублей стоит хороший мойщик окон прямо сейчас на AliExpress

Это интересно

Молодые авторы социальных проектов смогут получить до 1 млн рублей на реализацию своих идей

Куда поехать за классным сувениром: 7 точек Золотого кольца с удивительными народными промыслами

321 проект и 3,1 млрд рублей: как прошёл первый год работы Президентского фонда природы

Три необычных продукта, которые точно стоит попробовать во «ВкусВилле»

Комментарии

KapSuRioN

12.12.25 19:35

Эх, в будущем с теплотой будем вспоминать эти лайфхаки и дыры 😁

Что вы могли пропустить

iPhone Ultra и не только: Apple готовит линейку устройств сверхпремиального уровня

10:10

Новости

Устройства

Технолайфхак: как прочитать удалённое собеседником сообщение в месенджерах на Android

8 марта

Технологии

Личный опыт: 4 месяца с iPhone 17 — лучшим и скучнейшим айфоном 2026 года

7 марта

Устройства

Есть тревожные звоночки: в масштабном исследовании оценили влияние ИИ на рынок труда

6 марта

Новости

Технологии

AnTuTu обновил рейтинг Android-смартфонов с лучшим соотношением цены и производительности

6 марта

Новости

Устройства

Появились первые результаты тестов производительности MacBook Neo

6 марта

Новости

Устройства

Как пользоваться нейросетью Nano Banana в 2026 году

6 марта

Ликбез

Технологии

Deveillance представила Spectre I — гаджет, который не даёт другим устройствам вас прослушивать

6 марта

Новости

Устройства

Google начала наказывать Android‑приложения за быстрый расход батареи

6 марта

Android

Новости

OpenAI представила GPT-5.4 — ИИ-модель, которая умеет управлять компьютером пользователя

6 марта

Новости

Технологии

Почему новый MacBook Neo — именно то, чего так не хватало Apple и всем нам

5 марта

Технологии

Nothing представила два бюджетных смартфона в духе киберпанка — Phone 4(a) и 4(a) Pro

5 марта

Новости

Устройства

11 приложений, которые помогут экономить на покупках в 2026 году

5 марта

Стать богатым

Технологии

Apple выпустила бюджетный ноутбук MacBook Neo — он во многом не хуже Air-модели

4 марта

Новости

Устройства

Программирование без рук: в ИИ-инструменте для написания кода Claude Code появился голосовой режим

4 марта

Веб-сервисы

Новости

Новые комментарии

Индира10 минут назад

0 / 0

Как-то статья немного обескуражила 🤔

Чем можно заменить интимную смазку, если очень нужно

Индира13 минут назад

0 / 0

Из всего предложенного списка, видела лишь фильм "Микки-17". Фильм так, как и остальные "одноразовый"

9 фильмов, которые не номинировали на «Оскар-2026», и совершенно зря

Индира26 минут назад

0 / 0

Реально то, что проблемы надо решать, а не бежать от них. Для меня всегда существует проблема между, тем как: соответствовать ожиданиям окружающих и стремлением высказать своё мнение.

Что такое внутриличностный конфликт и как от него избавиться

Alexander Vlasenko30 минут назад

0 / 0

Мама!

9 фильмов, которые не номинировали на «Оскар-2026», и совершенно зря