Лайфхакер
Лайфхакер
Лучшее
Рубрики
Рецепты
Подкасты
Сервисы
Колонки
Лучшее
Рубрики
Рецепты
Подкасты
Сервисы
Колонки
«Авторизация»
Новости
Здоровье
Спорт и фитнес
Покупки
Технологии
Отношения
Кино
Реклама
НовостиТехнологии
21 мая 2025

Исследование: большинство чат-ботов легко обмануть и заставить давать опасные ответы

Взломать их может практически любой.
Фото автора Макс Вильтовский
Макс Вильтовский

Автор Лайфхакера

взлом чат-бота

Исследователи из Университета Бен-Гуриона в Израиле предупредили, что взломанные чат-боты могут делиться незаконной информацией, усвоенной во время обучения. Это заявление прозвучало на фоне растущей тенденции обхода пользователями встроенных механизмов безопасности.

Большие языковые модели, такие как ChatGPT, Gemini и Claude, функционируют на основе массивов данных, собранных из интернета. Несмотря на усилия по удалению вредоносного контента из обучающих наборов, они всё ещё могут усваивать информацию о незаконной деятельности, включая взлом и отмывание денег.

Новое исследование показало, что большинство чат-ботов, управляемых искусственным интеллектом, легко обмануть и заставить генерировать вредные и незаконные сведения. «То, что когда-то было доступно только государственным деятелям или организованным преступным группировкам, вскоре может оказаться в руках любого, у кого есть ноутбук или даже мобильный телефон», — предупреждают авторы.

Они выявили растущую угрозу со стороны «тёмных LLM», которые либо намеренно разрабатываются без контроля безопасности, либо модифицируются с помощью джейлбрейков. Некоторые из них открыто рекламируются в интернете как «не имеющие этических ограничений» и предлагающие помощь в незаконной деятельности, включая киберпреступность и мошенничество.

Джейлбрейк обычно использует тщательно составленные подсказки, чтобы обмануть чат-ботов и заставить их предоставлять ответы, которые в нормальных условиях запрещены. Это достигается за счёт конфликта между основной задачей программы — выполнять инструкции пользователя — и второстепенной целью — избегать предоставления вредных, предвзятых, неэтичных или незаконных ответов. Такие подсказки создают ситуации, в которых программа начинает отдавать приоритет полезности.

Для иллюстрации проблемы исследователи разработали универсальный джейлбрейк, который успешно скомпрометировал несколько популярных чат-ботов, позволив им отвечать на запросы, которые обычно должны блокироваться. После взлома языковые модели стабильно генерировали ответы практически на любые вопросы:

В качестве примеров ИИ приводил способы взлома компьютерных сетей и пошаговые инструкции по другим видам преступной деятельности. Что отличает эту угрозу от предыдущих технологических рисков, так это беспрецедентное сочетание доступности, масштабируемости и адаптируемости.

Авторы утверждают, что технологическим компаниям необходимо тщательнее проверять обучающие данные, внедрять надёжные брандмауэры для предотвращения рискованных запросов и ответов, а также разрабатывать методы «машинного разучения», позволяющие чат-ботам забывать незаконную информацию, которую они усваивают. Они также считают, что разработчики должны нести ответственность за распространение искусственным интеллектом опасных сведений.

Исследователи обратились к ведущим разработчикам языковых моделей, чтобы предупредить о проблеме, однако их реакция оказалась «неубедительной», некоторые и вовсе не вышли на связь. В OpenAI заявили, что их последняя модель o1 способна рассуждать о политике безопасности компании, что делает её более устойчивой к попыткам обхода защиты. В Microsoft в ответ предоставили ссылку на блог, где описываются их усилия по предотвращению взломов. Запросы также были направлены в Meta*, Google и Anthropic.

*Деятельность Meta Platforms Inc. и принадлежащих ей социальных сетей Facebook и Instagram запрещена на территории РФ.

Про нейросети
🤖
10 лучших нейросетей для генерации текста на русском языке в 2025 году
5 советов, как взаимодействовать с нейросетями продуктивнее и безопаснее
30 полезных нейросетей для учёбы, доступных бесплатно
Обложка: кадр из фильма «Терминатор 2: Судный день»
Если нашли ошибку, выделите текст и нажмите Ctrl + Enter

Лучшие предложения

Удачный момент для покупки кроссовок с вентиляцией на распродаже AliExpress

Удачный момент для покупки кроссовок с вентиляцией на распродаже AliExpress

Фильтр с осмосом

Компактный фильтр с осмосом: эффективный, но стоит дешевле аналогов

Наушники realme Buds Air 8 Pro

Забираем наушники realme Buds Air 8 Pro со скидкой 52% на AliExpress

10 товаров с AliExpress, за которые покупатели благодарят себя

10 покупок с AliExpress, за которые люди благодарят себя

3D-принтер Bambu Lab А1 Min

Надо брать: 3D-принтер Bambu Lab А1 Mini со скидкой 48%

«Дни выгоды» на AliExpress: экономим до 86% на важных покупках

«Дни выгоды» на AliExpress: экономим до 86% на важных покупках

массивные повседневные кроссовки от Xtep

Надо брать: массивные кроссовки от Xtep со скидкой 53%

10 товаров с маркетплейсов, на которые стоит обратить внимание на этой неделе

10 товаров с маркетплейсов, на которые стоит обратить внимание на этой неделе

Это интересно
Обзор Honor Pad X8b

Обзор Honor Pad X8b — бюджетного планшета с отличной автономностью

Это наша БигДанность: как большие данные работают в повседневной жизни

Это наша БигДанность: как большие данные работают в повседневной жизни

Реклама
Что нужно знать о кислородном пятновыводителе «Елизар»: 3 главных вопроса

Что нужно знать о кислородном пятновыводителе «Елизар»: 3 главных вопроса

Как поддержать подростка с избыточным весом? Чек-лист для родителей

Как поддержать подростка с избыточным весом? Чек-лист для родителей

Комментарии
KapSuRioN
12.12.25 19:35
Эх, в будущем с теплотой будем вспоминать эти лайфхаки и дыры 😁
Что вы могли пропустить
Скачайте три этих мессенджера — на случай полного отсутствия интернета
Скачайте три этих мессенджера — на случай полного отсутствия интернета
0
13:00
Ликбез
Технологии
Цветной E-Ink и дополнительный круглый экран: представлен смартфон HiBreak Dual
Цветной E-Ink и дополнительный круглый экран: представлен смартфон HiBreak Dual
0
12:15
Новости
Устройства
«С ним зайти не получится»: «Яндекс» начал блокировать свои приложения при включённом VPN
«С ним зайти не получится»: «Яндекс» начал блокировать свои приложения при включённом VPN
0
10:36
Новости
Технологии
В топ App Store ворвалось приложение Do it! — оно геймифицирует рутину для детей
В топ App Store ворвалось приложение Do it! — оно геймифицирует рутину для детей
0
Вчера
Новости
Технологии
В пару кликов: как убрать человека с фото на смартфоне
В пару кликов: как убрать человека с фото на смартфоне
0
Вчера
Технологии
Технологии
Что такое чат-бот Claude, как им пользоваться и почему он так популярен
Что такое чат-бот Claude, как им пользоваться и почему он так популярен
0
Вчера
Ликбез
Технологии
Apple готовит премиальные умные очки в 4 стилях и с овальными камерами
Apple готовит премиальные умные очки в 4 стилях и с овальными камерами
0
13 апреля
Новости
Технологии
Конкурент iPhone Ultra: раскладушку Huawei Pura X Max показали на видео
Конкурент iPhone Ultra: раскладушку Huawei Pura X Max показали на видео
0
13 апреля
Новости
Устройства
6 лучших бесплатных видеоредакторов для iPhone в 2026 году
6 лучших бесплатных видеоредакторов для iPhone в 2026 году
0
13 апреля
iOS
iOS
Мессенджер XChat от Илона Маска появился в App Store — со сквозным шифрованием и поддержкой Grok
Мессенджер XChat от Илона Маска появился в App Store — со сквозным шифрованием и поддержкой Grok
0
13 апреля
iOS
Новости
Что лучше — DisplayPort или HDMI
Что лучше — DisplayPort или HDMI
0
12 апреля
Технологии
Технологии
Новые китайские Ultra‑смартфоны могут не выйти на рынок
Новые китайские Ultra‑смартфоны могут не выйти на рынок
0
11 апреля
Новости
Устройства
Зачем я купил Sony PSP в 2026 году — и почему советую эту легенду всем
Зачем я купил Sony PSP в 2026 году — и почему советую эту легенду всем
0
11 апреля
Технологии
Технологии
Apple выпустит сразу три смартфона в начале 2027 года
Apple выпустит сразу три смартфона в начале 2027 года
0
10 апреля
Новости
Устройства
Звони коту: как из-за блокировок люди начали общаться через автокормушки, пылесосы, таблицы и заметки
Звони коту: как из-за блокировок люди начали общаться через автокормушки, пылесосы, таблицы и заметки
0
10 апреля
Технологии
Технологии

Новые комментарии

Аватар автора комментария
Прохор Яблоков11 минут назад

0 / 0

"...мне бы лучше вон ту , сисястую , она глупей ..."
«Твой IQ такой большой!»: кто такие сапиосексуалы и правда ли их возбуждают умные разговоры
Аватар автора комментария
Vinera Don1 час назад

0 / 0

Я часто обращаюсь за помощью к членам семьи, так как из-за здоровья некоторую работу по дому не могу делать сама. Еще обращаюсь за помощью к коллегам по работе, когда у меня что-то не получается.
Как просить о помощи, чтобы получить поддержку, а не конфликты и непонимание
Аватар автора комментария
Vinera Don1 час назад

0 / 0

Блин, даже не верится, что все актёры выросли. А мы стареем. Так хочется замедлить время.
Дэниэл Рэдклифф назвал свою любимую часть «Гарри Поттера»
Аватар автора комментария
Vinera Don1 час назад

+1 / 0

Интересная статья. Я еще встречала книгу русских матов и их происхождение. Но не приобрела её.
Чур, пошиб и панталык: откуда взялись странные слова и выражения в нашей речи
Как покупать всё, что хочется, не выходя за рамки бюджета: 7 правил разумного шопинга 

Как покупать всё, что хочется, не выходя за рамки бюджета: 7 правил разумного шопинга 

Лайфхакер
Информация
О проектеРубрикиРекламаРедакцияВакансииО компании«Авторизация»
Подписка
TelegramВКонтактеTwitterViberYouTubeИнициалRSS
Правила
Пользовательское соглашениеПолитика обработки персональных данныхПравила применения рекомендательных технологийПравила сообществаСогласие на обработку персональных данныхСогласие для рекламных рассылокСогласие для информационной программы
18+Копирование материалов запрещено.
Издание может получать комиссию от покупки товаров, представленных в публикациях