Лайфхакер
Лайфхакер
Лучшее
Рубрики
Рецепты
Подкасты
Сервисы
Колонки
Лучшее
Рубрики
Рецепты
Подкасты
Сервисы
Колонки
Сколько дней до лета
Новости
Здоровье
Спорт и фитнес
Покупки
Технологии
Отношения
Кино
Реклама
НовостиТехнологии
21 мая 2025

Исследование: большинство чат-ботов легко обмануть и заставить давать опасные ответы

Взломать их может практически любой.
Фото автора Макс Вильтовский
Макс Вильтовский

Автор Лайфхакера

взлом чат-бота

Исследователи из Университета Бен-Гуриона в Израиле предупредили, что взломанные чат-боты могут делиться незаконной информацией, усвоенной во время обучения. Это заявление прозвучало на фоне растущей тенденции обхода пользователями встроенных механизмов безопасности.

Большие языковые модели, такие как ChatGPT, Gemini и Claude, функционируют на основе массивов данных, собранных из интернета. Несмотря на усилия по удалению вредоносного контента из обучающих наборов, они всё ещё могут усваивать информацию о незаконной деятельности, включая взлом и отмывание денег.

Новое исследование показало, что большинство чат-ботов, управляемых искусственным интеллектом, легко обмануть и заставить генерировать вредные и незаконные сведения. «То, что когда-то было доступно только государственным деятелям или организованным преступным группировкам, вскоре может оказаться в руках любого, у кого есть ноутбук или даже мобильный телефон», — предупреждают авторы.

Они выявили растущую угрозу со стороны «тёмных LLM», которые либо намеренно разрабатываются без контроля безопасности, либо модифицируются с помощью джейлбрейков. Некоторые из них открыто рекламируются в интернете как «не имеющие этических ограничений» и предлагающие помощь в незаконной деятельности, включая киберпреступность и мошенничество.

Джейлбрейк обычно использует тщательно составленные подсказки, чтобы обмануть чат-ботов и заставить их предоставлять ответы, которые в нормальных условиях запрещены. Это достигается за счёт конфликта между основной задачей программы — выполнять инструкции пользователя — и второстепенной целью — избегать предоставления вредных, предвзятых, неэтичных или незаконных ответов. Такие подсказки создают ситуации, в которых программа начинает отдавать приоритет полезности.

Для иллюстрации проблемы исследователи разработали универсальный джейлбрейк, который успешно скомпрометировал несколько популярных чат-ботов, позволив им отвечать на запросы, которые обычно должны блокироваться. После взлома языковые модели стабильно генерировали ответы практически на любые вопросы:

В качестве примеров ИИ приводил способы взлома компьютерных сетей и пошаговые инструкции по другим видам преступной деятельности. Что отличает эту угрозу от предыдущих технологических рисков, так это беспрецедентное сочетание доступности, масштабируемости и адаптируемости.

Авторы утверждают, что технологическим компаниям необходимо тщательнее проверять обучающие данные, внедрять надёжные брандмауэры для предотвращения рискованных запросов и ответов, а также разрабатывать методы «машинного разучения», позволяющие чат-ботам забывать незаконную информацию, которую они усваивают. Они также считают, что разработчики должны нести ответственность за распространение искусственным интеллектом опасных сведений.

Исследователи обратились к ведущим разработчикам языковых моделей, чтобы предупредить о проблеме, однако их реакция оказалась «неубедительной», некоторые и вовсе не вышли на связь. В OpenAI заявили, что их последняя модель o1 способна рассуждать о политике безопасности компании, что делает её более устойчивой к попыткам обхода защиты. В Microsoft в ответ предоставили ссылку на блог, где описываются их усилия по предотвращению взломов. Запросы также были направлены в Meta*, Google и Anthropic.

*Деятельность Meta Platforms Inc. и принадлежащих ей социальных сетей Facebook и Instagram запрещена на территории РФ.

Про нейросети
🤖
10 лучших нейросетей для генерации текста на русском языке в 2025 году
5 советов, как взаимодействовать с нейросетями продуктивнее и безопаснее
30 полезных нейросетей для учёбы, доступных бесплатно
Обложка: кадр из фильма «Терминатор 2: Судный день»
Если нашли ошибку, выделите текст и нажмите Ctrl + Enter

Лучшие предложения

15 товаров, чтобы с комфортом проводить время на даче

15 товаров, чтобы с комфортом проводить время на даче

Забираем очаровательные кеды из коллаборации SELA и «Союзмультфильма»

Забираем очаровательные кеды из коллаборации SELA и «Союзмультфильма»

Кроссовки Li-Ning Soft Go 3

Надо брать: кроссовки от Li-Ning для тех, кто проводит весь день на ногах

15 товаров с распродажи AliExpress для тех, кто хочет заскочить в последний вагон

15 товаров с распродажи AliExpress для тех, кто хочет заскочить в последний вагон

Автомобильный насос от Baseus

Многофункциональный насос от Baseus отдают за полцены на AliExpress

3D-принтеры на распродаже AliExpress: 10 вариантов с отличными отзывами

3D-принтеры на распродаже AliExpress: 10 вариантов с отличными отзывами

Видеорегистратор DDPAI Z60 Pro:

Забираем со скидкой 68% флагманский 4К-регистратор DDPAI Z60 Pro

Находки AliExpress: самые интересные и полезные товары недели

Находки AliExpress: самые интересные и полезные товары недели

Это интересно
«Горящая изба» и TRENDY BOX выпустили бьюти-бокс «Сияй!» — и это очень красивый набор косметики

«Горящая изба» и TRENDY BOX выпустили бьюти-бокс «Сияй!» — и это очень красивый набор косметики

Как сегодня в России создают новые лекарства и учатся «заживлять» трещины в металле

Как сегодня в России создают новые лекарства и учатся «заживлять» трещины в металле

Что за препарат «Семальтара» и почему его могут назначить при сахарном диабете 2‑го типа

Что за препарат «Семальтара» и почему его могут назначить при сахарном диабете 2‑го типа

Куда поехать за классным сувениром: 7 точек Золотого кольца с удивительными народными промыслами

Куда поехать за классным сувениром: 7 точек Золотого кольца с удивительными народными промыслами

Комментарии
KapSuRioN
12.12.25 19:35
Эх, в будущем с теплотой будем вспоминать эти лайфхаки и дыры 😁
Что вы могли пропустить
Назад к BlackBerry: анонсирован смартфон Unihertz Titan 2 Elite с клавиатурой и большим экраном
Назад к BlackBerry: анонсирован смартфон Unihertz Titan 2 Elite с клавиатурой и большим экраном
0
Вчера
Новости
Устройства
Как пользоваться KakaoTalk — корейским мессенджером из топа App Store и Google Play
Как пользоваться KakaoTalk — корейским мессенджером из топа App Store и Google Play
0
Вчера
Ликбез
Технологии
OpenAI отказалась от генератора видео Sora — миллиардной сделки с Disney не будет
OpenAI отказалась от генератора видео Sora — миллиардной сделки с Disney не будет
0
Вчера
Новости
Технологии
Всё в шести кнопках: представлена клавиатура MiraBox K1W с клавишами‑экранами
Всё в шести кнопках: представлена клавиатура MiraBox K1W с клавишами‑экранами
0
24 марта
Новости
Устройства
Анонсирован компактный флагман OnePlus 15T с батареей на 7 500 мА·ч и улучшенной защитой
Анонсирован компактный флагман OnePlus 15T с батареей на 7 500 мА·ч и улучшенной защитой
0
24 марта
Новости
Устройства
Обзор Honor Pad X8b — бюджетного планшета с отличной автономностью
Обзор Honor Pad X8b — бюджетного планшета с отличной автономностью
0
24 марта
Устройства
Устройства
В Bloomberg раскрыли, когда выйдет полностью безрамочный iPhone — уже скоро
В Bloomberg раскрыли, когда выйдет полностью безрамочный iPhone — уже скоро
0
24 марта
Новости
Устройства
Как написать хороший текст с помощью ИИ, чтобы он выглядел живым
Как написать хороший текст с помощью ИИ, чтобы он выглядел живым
0
24 марта
Технологии
Технологии
Apple объявила даты конференции WWDC 2026 — на ней покажут iOS 27
Apple объявила даты конференции WWDC 2026 — на ней покажут iOS 27
0
24 марта
Новости
Технологии
10 вещей, которые нужно сделать перед использованием нового ноутбука на Windows
10 вещей, которые нужно сделать перед использованием нового ноутбука на Windows
0
23 марта
Windows
Windows
AirDrop появился на смартфонах Samsung — но пока не на всех
AirDrop появился на смартфонах Samsung — но пока не на всех
0
23 марта
Android
Новости
11 крутых нейросетей для обработки фото
11 крутых нейросетей для обработки фото
0
22 марта
Ликбез
Технологии
Сэм Альтман хочет превратить ИИ в коммунальную услугу подобно электричеству и воде
Сэм Альтман хочет превратить ИИ в коммунальную услугу подобно электричеству и воде
0
21 марта
Новости
Технологии
18 лучших RPG-игр на Android в 2026 году, доступных бесплатно
18 лучших RPG-игр на Android в 2026 году, доступных бесплатно
0
21 марта
Android
Android
Меньше ИИ и больше кастомизации: Microsoft раскрыла план по улучшению Windows 11 в 2026 году
Меньше ИИ и больше кастомизации: Microsoft раскрыла план по улучшению Windows 11 в 2026 году
0
21 марта
Windows
Новости

Новые комментарии

Аватар автора комментария
Елена Исупова49 минут назад

0 / 0

Никогда об этом не задумывалась, было интересно узнать!
Знаете ли вы, почему привидения носят одежду?
Аватар автора комментария
Николай53 минуты назад

0 / 0

Новое слова в словарь, пищеприёмник 😂😂😂😂😂
«Финансовый фастфуд»: почему мы тратим деньги, когда устали или тревожимся
Аватар автора комментария
Ludmila Poleshuk54 минуты назад

0 / 0

22/23. Хороший тест. Школьная программа. То, что мне нужно
ТЕСТ: Хорошо ли вы знаете историю России?
Аватар автора комментария
Хадиятуло Муродов1 час назад

0 / 0

Замену сумму на 100р
В Telegram появился бот, который подделывает скриншоты из «Сбербанка Онлайн»
Как найти покупателей без помощи социальных сетей

Как найти покупателей без помощи социальных сетей

Лайфхакер
Информация
О проектеРубрикиРекламаРедакцияВакансииО компании
Подписка
TelegramВКонтактеTwitterViberYouTubeИнициалRSS
Правила
Пользовательское соглашениеПолитика обработки персональных данныхПравила применения рекомендательных технологийПравила сообществаСогласие на обработку персональных данныхСогласие для рекламных рассылокСогласие для информационной программы
18+Копирование материалов запрещено.
Издание может получать комиссию от покупки товаров, представленных в публикациях