Лайфхакер
Лайфхакер
Лучшее
Рубрики
Рецепты
Подкасты
Сервисы
Колонки
Лучшее
Рубрики
Рецепты
Подкасты
Сервисы
Колонки
Рецепты на Масленицу
Новости
Здоровье
Спорт и фитнес
Покупки
Технологии
Отношения
Кино
Реклама
НовостиТехнологии
21 мая 2025

Исследование: большинство чат-ботов легко обмануть и заставить давать опасные ответы

Взломать их может практически любой.
Фото автора Макс Вильтовский
Макс Вильтовский

Автор Лайфхакера

взлом чат-бота

Исследователи из Университета Бен-Гуриона в Израиле предупредили, что взломанные чат-боты могут делиться незаконной информацией, усвоенной во время обучения. Это заявление прозвучало на фоне растущей тенденции обхода пользователями встроенных механизмов безопасности.

Большие языковые модели, такие как ChatGPT, Gemini и Claude, функционируют на основе массивов данных, собранных из интернета. Несмотря на усилия по удалению вредоносного контента из обучающих наборов, они всё ещё могут усваивать информацию о незаконной деятельности, включая взлом и отмывание денег.

Новое исследование показало, что большинство чат-ботов, управляемых искусственным интеллектом, легко обмануть и заставить генерировать вредные и незаконные сведения. «То, что когда-то было доступно только государственным деятелям или организованным преступным группировкам, вскоре может оказаться в руках любого, у кого есть ноутбук или даже мобильный телефон», — предупреждают авторы.

Они выявили растущую угрозу со стороны «тёмных LLM», которые либо намеренно разрабатываются без контроля безопасности, либо модифицируются с помощью джейлбрейков. Некоторые из них открыто рекламируются в интернете как «не имеющие этических ограничений» и предлагающие помощь в незаконной деятельности, включая киберпреступность и мошенничество.

Джейлбрейк обычно использует тщательно составленные подсказки, чтобы обмануть чат-ботов и заставить их предоставлять ответы, которые в нормальных условиях запрещены. Это достигается за счёт конфликта между основной задачей программы — выполнять инструкции пользователя — и второстепенной целью — избегать предоставления вредных, предвзятых, неэтичных или незаконных ответов. Такие подсказки создают ситуации, в которых программа начинает отдавать приоритет полезности.

Для иллюстрации проблемы исследователи разработали универсальный джейлбрейк, который успешно скомпрометировал несколько популярных чат-ботов, позволив им отвечать на запросы, которые обычно должны блокироваться. После взлома языковые модели стабильно генерировали ответы практически на любые вопросы:

В качестве примеров ИИ приводил способы взлома компьютерных сетей и пошаговые инструкции по другим видам преступной деятельности. Что отличает эту угрозу от предыдущих технологических рисков, так это беспрецедентное сочетание доступности, масштабируемости и адаптируемости.

Авторы утверждают, что технологическим компаниям необходимо тщательнее проверять обучающие данные, внедрять надёжные брандмауэры для предотвращения рискованных запросов и ответов, а также разрабатывать методы «машинного разучения», позволяющие чат-ботам забывать незаконную информацию, которую они усваивают. Они также считают, что разработчики должны нести ответственность за распространение искусственным интеллектом опасных сведений.

Исследователи обратились к ведущим разработчикам языковых моделей, чтобы предупредить о проблеме, однако их реакция оказалась «неубедительной», некоторые и вовсе не вышли на связь. В OpenAI заявили, что их последняя модель o1 способна рассуждать о политике безопасности компании, что делает её более устойчивой к попыткам обхода защиты. В Microsoft в ответ предоставили ссылку на блог, где описываются их усилия по предотвращению взломов. Запросы также были направлены в Meta*, Google и Anthropic.

*Деятельность Meta Platforms Inc. и принадлежащих ей социальных сетей Facebook и Instagram запрещена на территории РФ.

Про нейросети
🤖
10 лучших нейросетей для генерации текста на русском языке в 2025 году
5 советов, как взаимодействовать с нейросетями продуктивнее и безопаснее
30 полезных нейросетей для учёбы, доступных бесплатно
Обложка: кадр из фильма «Терминатор 2: Судный день»
Если нашли ошибку, выделите текст и нажмите Ctrl + Enter

Лучшие предложения

3D-принтер для большой печати Creality Ender-5 Max

Надо брать: 3D-принтер для большой печати Creality Ender-5 Max со скидкой 56%

Моющий пылесос Dreame G10 Pro

Популярный моющий пылесос Dreame G10 Pro отдают за полцены на AliExpress

Забираем дебетовку «Т-банка» с 2 000 баллов и повышенным кешбэком на автоуслуги

Забираем дебетовку «Т-банка» с 2 000 баллов и повышенным кешбэком за автоуслуги

Непромокаемые кроссовки от Li-Ning

Кроссовки от Li-Ning, которые не боятся слякоти, отдают со скидкой 37%

Три необычных продукта, которые точно стоит попробовать во «ВкусВилле»

Три необычных продукта, которые точно стоит попробовать во «ВкусВилле»

Находки AliExpress: самые интересные и полезные товары недели

Находки AliExpress: самые интересные и полезные товары недели

Нескользящий коврик для йоги

Нескользящий коврик для йоги, на который можно залипнуть после тренировки

7 надёжных камер для безопасности людей и питомцев

7 надёжных камер для безопасности людей и питомцев

Это интересно
5 подарков на День святого Валентина, которые приблизят к мечтам

5 подарков на День святого Валентина, которые приблизят к мечтам

Стоит ли использовать препараты «Велгия» и «Велгия Эко», чтобы быстрее похудеть   

Стоит ли использовать препараты «Велгия» и «Велгия Эко», чтобы быстрее похудеть   

Что такое «Редуксин Форте» и как он работает

Что такое «Редуксин Форте» и как он работает

3 настолки, которые можно подарить на любой праздник

3 настолки, которые можно подарить на любой праздник

Комментарии
KapSuRioN
12.12.25 19:35
Эх, в будущем с теплотой будем вспоминать эти лайфхаки и дыры 😁
Что вы могли пропустить
Apple анонсировала мартовскую презентацию — на ней могут представить недорогой MacBook и iPhone 17e
Apple анонсировала мартовскую презентацию — на ней могут представить недорогой MacBook и iPhone 17e
0
16 февраля
Новости
Устройства
8 способов подключить телефон к телевизору
8 способов подключить телефон к телевизору
0
16 февраля
Ликбез
Устройства
Названы устройства Xiaomi, Redmi и Poco, которые получат Android 17 — в списке более 70 моделей
Названы устройства Xiaomi, Redmi и Poco, которые получат Android 17 — в списке более 70 моделей
0
16 февраля
Android
Новости
Как полностью удалить файлы на iPhone
Как полностью удалить файлы на iPhone
0
15 февраля
iOS
Ликбез
В Microsoft назвали точные сроки, когда ИИ сможет заменить офисных сотрудников — скоро
В Microsoft назвали точные сроки, когда ИИ сможет заменить офисных сотрудников — скоро
0
14 февраля
Новости
Технологии
Samsung Galaxy S26 и S26+ показали на фото со всех сторон
Samsung Galaxy S26 и S26+ показали на фото со всех сторон
0
14 февраля
Новости
Устройства
Как скачать видео с любого сайта без дополнительных программ: 10 универсальных сервисов
Как скачать видео с любого сайта без дополнительных программ: 10 универсальных сервисов
0
14 февраля
Веб-сервисы
Ликбез
Бюджетный iPhone 17e показали на рендерах — его могут выпустить в феврале
Бюджетный iPhone 17e показали на рендерах — его могут выпустить в феврале
0
13 февраля
Новости
Устройства
Дублинский стартап создал «парктроник» с ИИ для велосипедистов
Дублинский стартап создал «парктроник» с ИИ для велосипедистов
0
13 февраля
Новости
Устройства
Sony впервые за три года выпустила флагманские TWS‑наушники
Sony впервые за три года выпустила флагманские TWS‑наушники
0
13 февраля
Новости
Устройства
Как сделать парное фото на 14 февраля с кем угодно: 20 промптов
Как сделать парное фото на 14 февраля с кем угодно: 20 промптов
0
13 февраля
Ликбез
Технологии
В Сети вирусится бой Тома Круза и Брэда Питта — это ролик нейросети Seedance 2.0, удивившей даже кинематографистов
В Сети вирусится бой Тома Круза и Брэда Питта — это ролик нейросети Seedance 2.0, удивившей даже кинематографистов
0
13 февраля
Новости
Технологии
В пару кликов: как удалить тяжёлые письма в Gmail и освободить место на «Google Диске»
В пару кликов: как удалить тяжёлые письма в Gmail и освободить место на «Google Диске»
0
12 февраля
Технологии
Технологии
Xiaomi выпустила бюджетный аналог AirTag, который работает с сетями Apple и Google
Xiaomi выпустила бюджетный аналог AirTag, который работает с сетями Apple и Google
0
12 февраля
Новости
Устройства
«Белый список» сайтов и приложений в России: что в него входит и как пользоваться
«Белый список» сайтов и приложений в России: что в него входит и как пользоваться
0
12 февраля
Ликбез
Технологии

Новые комментарии

Аватар автора комментария
Марина Новикова8 минут назад

0 / 0

Велгия эко помогает всем, кто поддерживает дефицит калорий и хотя бы минимально физической активностью. Это указано даже в инструкции. Плюс препарат в разы дешевле оземпика. Не понимаю, к чему тут вбросы конкурентов.
Что такое «Велгия» и «Велгия Эко» и как они работают
Аватар автора комментария
Horugvi1 час назад

0 / 0

это отсылка на гадкую заливную рыбу
«Грозовой перевал» с Марго Робби — пошлая смесь «Бриджертонов» и «50 оттенков серого»
Аватар автора комментария
Раис Сафиуллин4 часа назад

0 / 0

Если важна приватность, и не хочется возиться с таблицами в Microsoft Excel, то я бы рекомендовал onbalance.app - он больше заточен для предпринимателей и управления денежными потоками в бизнесе, но очень прост и удобен
10 лучших приложений для учёта личных финансов в 2025 году
Аватар автора комментария
Alex Hualex4 часа назад

0 / 0

Переоцененная блевотина с мувами из любого аниме, 3-4/10 не больше
10 из 10: пятая серия «Рыцаря Семи Королевств» получила идеальную оценку на IMDb, причём ещё до премьеры
Что такое «Велгия» и «Велгия Эко» и как они работают

Что такое «Велгия» и «Велгия Эко» и как они работают

Лайфхакер
Информация
О проектеРубрикиРекламаРедакцияВакансииДля начинающих авторовО компании
Подписка
TelegramВКонтактеTwitterViberYouTubeИнициалRSS
Правила
Пользовательское соглашениеПолитика обработки персональных данныхПравила применения рекомендательных технологийПравила сообществаСогласие на обработку персональных данныхСогласие для рекламных рассылокСогласие для информационной программы
18+Копирование материалов запрещено.
Издание может получать комиссию от покупки товаров, представленных в публикациях