Лайфхакер
Лайфхакер
Лучшее
Рубрики
Рецепты
Подкасты
Сервисы
Колонки
Лучшее
Рубрики
Рецепты
Подкасты
Сервисы
Колонки
Новости
Здоровье
Спорт и фитнес
Покупки
Технологии
Отношения
Кино
Реклама
НовостиТехнологии
21 мая 2025

Исследование: большинство чат-ботов легко обмануть и заставить давать опасные ответы

Взломать их может практически любой.
Фото автора Макс Вильтовский
Макс Вильтовский

Автор Лайфхакера

взлом чат-бота

Исследователи из Университета Бен-Гуриона в Израиле предупредили, что взломанные чат-боты могут делиться незаконной информацией, усвоенной во время обучения. Это заявление прозвучало на фоне растущей тенденции обхода пользователями встроенных механизмов безопасности.

Большие языковые модели, такие как ChatGPT, Gemini и Claude, функционируют на основе массивов данных, собранных из интернета. Несмотря на усилия по удалению вредоносного контента из обучающих наборов, они всё ещё могут усваивать информацию о незаконной деятельности, включая взлом и отмывание денег.

Новое исследование показало, что большинство чат-ботов, управляемых искусственным интеллектом, легко обмануть и заставить генерировать вредные и незаконные сведения. «То, что когда-то было доступно только государственным деятелям или организованным преступным группировкам, вскоре может оказаться в руках любого, у кого есть ноутбук или даже мобильный телефон», — предупреждают авторы.

Они выявили растущую угрозу со стороны «тёмных LLM», которые либо намеренно разрабатываются без контроля безопасности, либо модифицируются с помощью джейлбрейков. Некоторые из них открыто рекламируются в интернете как «не имеющие этических ограничений» и предлагающие помощь в незаконной деятельности, включая киберпреступность и мошенничество.

Джейлбрейк обычно использует тщательно составленные подсказки, чтобы обмануть чат-ботов и заставить их предоставлять ответы, которые в нормальных условиях запрещены. Это достигается за счёт конфликта между основной задачей программы — выполнять инструкции пользователя — и второстепенной целью — избегать предоставления вредных, предвзятых, неэтичных или незаконных ответов. Такие подсказки создают ситуации, в которых программа начинает отдавать приоритет полезности.

Для иллюстрации проблемы исследователи разработали универсальный джейлбрейк, который успешно скомпрометировал несколько популярных чат-ботов, позволив им отвечать на запросы, которые обычно должны блокироваться. После взлома языковые модели стабильно генерировали ответы практически на любые вопросы:

В качестве примеров ИИ приводил способы взлома компьютерных сетей и пошаговые инструкции по другим видам преступной деятельности. Что отличает эту угрозу от предыдущих технологических рисков, так это беспрецедентное сочетание доступности, масштабируемости и адаптируемости.

Авторы утверждают, что технологическим компаниям необходимо тщательнее проверять обучающие данные, внедрять надёжные брандмауэры для предотвращения рискованных запросов и ответов, а также разрабатывать методы «машинного разучения», позволяющие чат-ботам забывать незаконную информацию, которую они усваивают. Они также считают, что разработчики должны нести ответственность за распространение искусственным интеллектом опасных сведений.

Исследователи обратились к ведущим разработчикам языковых моделей, чтобы предупредить о проблеме, однако их реакция оказалась «неубедительной», некоторые и вовсе не вышли на связь. В OpenAI заявили, что их последняя модель o1 способна рассуждать о политике безопасности компании, что делает её более устойчивой к попыткам обхода защиты. В Microsoft в ответ предоставили ссылку на блог, где описываются их усилия по предотвращению взломов. Запросы также были направлены в Meta*, Google и Anthropic.

*Деятельность Meta Platforms Inc. и принадлежащих ей социальных сетей Facebook и Instagram запрещена на территории РФ.

Про нейросети
🤖
10 лучших нейросетей для генерации текста на русском языке в 2025 году
5 советов, как взаимодействовать с нейросетями продуктивнее и безопаснее
30 полезных нейросетей для учёбы, доступных бесплатно
Обложка: кадр из фильма «Терминатор 2: Судный день»
Если нашли ошибку, выделите текст и нажмите Ctrl + Enter

Лучшие предложения

Nahodki AliExpress: samye interesnye i poleznye tovary nedeli

Находки AliExpress: самые интересные и полезные товары недели

15 товаров с AliExpress для тех, кому надоел интерьер дома

15 товаров с AliExpress для тех, кому надоел интерьер дома

Надо брать: демисезонные кроссовки от Baasploa со скидкой 69%

Надо брать: демисезонные кроссовки от Baasploa со скидкой 69%

Вещи для радости

10 вещей с маркетплейсов, которые порадовали нас на этой неделе

Робот-пылесос Roborock Qrevo C Pro

Флагманский робот-пылесос от Roborock отдают со скидкой 56% на AliExpress

10 популярных товаров с приличными скидками на AliExpress

10 популярных товаров с приличными скидками на AliExpress

Оформляем дебетовку с кешбэком до 15% за пополнение PS Store, Steam и Xbox

Оформляем дебетовку с кешбэком до 15% за пополнение PS Store, Steam и Xbox

Робот — мойщик окон от Divedeer

Дешевле 3 000 рублей стоит хороший мойщик окон прямо сейчас на AliExpress

Это интересно
Молодые авторы социальных проектов смогут получить до 1 млн рублей на реализацию своих идей

Молодые авторы социальных проектов смогут получить до 1 млн рублей на реализацию своих идей

Куда поехать за классным сувениром: 7 точек Золотого кольца с удивительными народными промыслами

Куда поехать за классным сувениром: 7 точек Золотого кольца с удивительными народными промыслами

321 проект и 3,1 млрд рублей: как прошёл первый год работы Президентского фонда природы

321 проект и 3,1 млрд рублей: как прошёл первый год работы Президентского фонда природы

Три необычных продукта, которые точно стоит попробовать во «ВкусВилле»

Три необычных продукта, которые точно стоит попробовать во «ВкусВилле»

Комментарии
KapSuRioN
12.12.25 19:35
Эх, в будущем с теплотой будем вспоминать эти лайфхаки и дыры 😁
Что вы могли пропустить
iPhone Ultra и не только: Apple готовит линейку устройств сверхпремиального уровня
iPhone Ultra и не только: Apple готовит линейку устройств сверхпремиального уровня
0
10:10
Новости
Устройства
Технолайфхак: как прочитать удалённое собеседником сообщение в месенджерах на Android 
Технолайфхак: как прочитать удалённое собеседником сообщение в месенджерах на Android 
0
8 марта
Технологии
Технологии
Личный опыт: 4 месяца с iPhone 17 — лучшим и скучнейшим айфоном 2026 года
Личный опыт: 4 месяца с iPhone 17 — лучшим и скучнейшим айфоном 2026 года
0
7 марта
Устройства
Устройства
Есть тревожные звоночки: в масштабном исследовании оценили влияние ИИ на рынок труда
Есть тревожные звоночки: в масштабном исследовании оценили влияние ИИ на рынок труда
0
6 марта
Новости
Технологии
AnTuTu обновил рейтинг Android-смартфонов с лучшим соотношением цены и производительности
AnTuTu обновил рейтинг Android-смартфонов с лучшим соотношением цены и производительности
0
6 марта
Новости
Устройства
Появились первые результаты тестов производительности MacBook Neo
Появились первые результаты тестов производительности MacBook Neo
0
6 марта
Новости
Устройства
Как пользоваться нейросетью Nano Banana в 2026 году
Как пользоваться нейросетью Nano Banana в 2026 году
0
6 марта
Ликбез
Технологии
Deveillance представила Spectre I — гаджет, который не даёт другим устройствам вас прослушивать
Deveillance представила Spectre I — гаджет, который не даёт другим устройствам вас прослушивать
0
6 марта
Новости
Устройства
Google начала наказывать Android‑приложения за быстрый расход батареи
Google начала наказывать Android‑приложения за быстрый расход батареи
0
6 марта
Android
Новости
OpenAI представила GPT-5.4 — ИИ-модель, которая умеет управлять компьютером пользователя
OpenAI представила GPT-5.4 — ИИ-модель, которая умеет управлять компьютером пользователя
0
6 марта
Новости
Технологии
Почему новый MacBook Neo — именно то, чего так не хватало Apple и всем нам
Почему новый MacBook Neo — именно то, чего так не хватало Apple и всем нам
0
5 марта
Технологии
Технологии
Nothing представила два бюджетных смартфона в духе киберпанка — Phone 4(a) и 4(a) Pro
Nothing представила два бюджетных смартфона в духе киберпанка — Phone 4(a) и 4(a) Pro
0
5 марта
Новости
Устройства
11 приложений, которые помогут экономить на покупках в 2026 году
11 приложений, которые помогут экономить на покупках в 2026 году
0
5 марта
Стать богатым
Технологии
Apple выпустила бюджетный ноутбук MacBook Neo — он во многом не хуже Air-модели
Apple выпустила бюджетный ноутбук MacBook Neo — он во многом не хуже Air-модели
0
4 марта
Новости
Устройства
Программирование без рук: в ИИ-инструменте для написания кода Claude Code появился голосовой режим
Программирование без рук: в ИИ-инструменте для написания кода Claude Code появился голосовой режим
0
4 марта
Веб-сервисы
Новости

Новые комментарии

Аватар автора комментария
Индира10 минут назад

0 / 0

Как-то статья немного обескуражила 🤔
Чем можно заменить интимную смазку, если очень нужно
Аватар автора комментария
Индира13 минут назад

0 / 0

Из всего предложенного списка, видела лишь фильм "Микки-17". Фильм так, как и остальные "одноразовый"
9 фильмов, которые не номинировали на «Оскар-2026», и совершенно зря
Аватар автора комментария
Индира26 минут назад

0 / 0

Реально то, что проблемы надо решать, а не бежать от них. Для меня всегда существует проблема между, тем как: соответствовать ожиданиям окружающих и стремлением высказать своё мнение.
Что такое внутриличностный конфликт и как от него избавиться
Аватар автора комментария
Alexander Vlasenko30 минут назад

0 / 0

Мама!
9 фильмов, которые не номинировали на «Оскар-2026», и совершенно зря
Как найти покупателей без помощи социальных сетей

Как найти покупателей без помощи социальных сетей

Лайфхакер
Информация
О проектеРубрикиРекламаРедакцияВакансииО компании
Подписка
TelegramВКонтактеTwitterViberYouTubeИнициалRSS
Правила
Пользовательское соглашениеПолитика обработки персональных данныхПравила применения рекомендательных технологийПравила сообществаСогласие на обработку персональных данныхСогласие для рекламных рассылокСогласие для информационной программы
18+Копирование материалов запрещено.
Издание может получать комиссию от покупки товаров, представленных в публикациях