Лайфхакер
Лайфхакер
Лучшее
Рубрики
Рецепты
Подкасты
Сервисы
Колонки
Лучшее
Рубрики
Рецепты
Подкасты
Сервисы
Колонки
Декабрь без стресса
🎄 Ёлка Лайфхакера
Новости
Здоровье
Спорт и фитнес
Покупки
Технологии
Отношения
Кино
Реклама
НовостиТехнологии
21 мая

Исследование: большинство чат-ботов легко обмануть и заставить давать опасные ответы

Взломать их может практически любой.
Фото автора Макс Вильтовский
Макс Вильтовский

Автор Лайфхакера

взлом чат-бота

Исследователи из Университета Бен-Гуриона в Израиле предупредили, что взломанные чат-боты могут делиться незаконной информацией, усвоенной во время обучения. Это заявление прозвучало на фоне растущей тенденции обхода пользователями встроенных механизмов безопасности.

Большие языковые модели, такие как ChatGPT, Gemini и Claude, функционируют на основе массивов данных, собранных из интернета. Несмотря на усилия по удалению вредоносного контента из обучающих наборов, они всё ещё могут усваивать информацию о незаконной деятельности, включая взлом и отмывание денег.

Новое исследование показало, что большинство чат-ботов, управляемых искусственным интеллектом, легко обмануть и заставить генерировать вредные и незаконные сведения. «То, что когда-то было доступно только государственным деятелям или организованным преступным группировкам, вскоре может оказаться в руках любого, у кого есть ноутбук или даже мобильный телефон», — предупреждают авторы.

Они выявили растущую угрозу со стороны «тёмных LLM», которые либо намеренно разрабатываются без контроля безопасности, либо модифицируются с помощью джейлбрейков. Некоторые из них открыто рекламируются в интернете как «не имеющие этических ограничений» и предлагающие помощь в незаконной деятельности, включая киберпреступность и мошенничество.

Джейлбрейк обычно использует тщательно составленные подсказки, чтобы обмануть чат-ботов и заставить их предоставлять ответы, которые в нормальных условиях запрещены. Это достигается за счёт конфликта между основной задачей программы — выполнять инструкции пользователя — и второстепенной целью — избегать предоставления вредных, предвзятых, неэтичных или незаконных ответов. Такие подсказки создают ситуации, в которых программа начинает отдавать приоритет полезности.

Для иллюстрации проблемы исследователи разработали универсальный джейлбрейк, который успешно скомпрометировал несколько популярных чат-ботов, позволив им отвечать на запросы, которые обычно должны блокироваться. После взлома языковые модели стабильно генерировали ответы практически на любые вопросы:

В качестве примеров ИИ приводил способы взлома компьютерных сетей и пошаговые инструкции по другим видам преступной деятельности. Что отличает эту угрозу от предыдущих технологических рисков, так это беспрецедентное сочетание доступности, масштабируемости и адаптируемости.

Авторы утверждают, что технологическим компаниям необходимо тщательнее проверять обучающие данные, внедрять надёжные брандмауэры для предотвращения рискованных запросов и ответов, а также разрабатывать методы «машинного разучения», позволяющие чат-ботам забывать незаконную информацию, которую они усваивают. Они также считают, что разработчики должны нести ответственность за распространение искусственным интеллектом опасных сведений.

Исследователи обратились к ведущим разработчикам языковых моделей, чтобы предупредить о проблеме, однако их реакция оказалась «неубедительной», некоторые и вовсе не вышли на связь. В OpenAI заявили, что их последняя модель o1 способна рассуждать о политике безопасности компании, что делает её более устойчивой к попыткам обхода защиты. В Microsoft в ответ предоставили ссылку на блог, где описываются их усилия по предотвращению взломов. Запросы также были направлены в Meta*, Google и Anthropic.

*Деятельность Meta Platforms Inc. и принадлежащих ей социальных сетей Facebook и Instagram запрещена на территории РФ.

Про нейросети
🤖
10 лучших нейросетей для генерации текста на русском языке в 2025 году
5 советов, как взаимодействовать с нейросетями продуктивнее и безопаснее
30 полезных нейросетей для учёбы, доступных бесплатно
Обложка: кадр из фильма «Терминатор 2: Судный день»
Если нашли ошибку, выделите текст и нажмите Ctrl + Enter

Лучшие предложения

HONOR MB X14

Ноутбук для работы и учёбы от Honor отдают со скидкой 43%

Увлажнитель воздуха со скидкой

Надо брать: умный увлажнитель воздуха от Smartmi со скидкой 60%

Находки AliExpress: самые интересные и полезные товары 2025 года

Находки AliExpress: самые интересные и полезные товары 2025 года

5 компактных беговых дорожек для дома с отличными отзывами

5 компактных беговых дорожек для дома с отличными отзывами

10 вещей, которые спасают от лютого холода

10 вещей, которые спасают от лютого холода

Это нам надо: аэрогриль от Kitfort с двумя секциями со скидкой 49%

Это нам надо: аэрогриль от Kitfort с двумя секциями со скидкой 49%

робот-пылесос Dreame L40 Ultra CE

Робот-пылесос от Dreame, который почти не беспокоит пользователя

13 подарочных наборов для тех, у кого нет времени на выбор

13 подарочных наборов для тех, у кого нет времени на выбор

Это интересно
Мой особенный друг: как взять из приюта питомца с особыми потребностями и не пожалеть

Мой особенный друг: как взять из приюта питомца с особыми потребностями и не пожалеть

Надо брать: «Имаджинариум» — культовая игра на ассоциации

Надо брать: «Имаджинариум» — культовая игра на ассоциации

проигрыватели на разный бюджет

Проигрыватель в подарок: 3 варианта на разный бюджет

Как работает распродажа на Ozon c точки зрения продавца и покупателя

Как работает распродажа на Ozon c точки зрения продавца и покупателя

Комментарии
KapSuRioN
12.12.25 19:35
Эх, в будущем с теплотой будем вспоминать эти лайфхаки и дыры 😁
Что вы могли пропустить
Лучшие бесплатные веб-сервисы декабря
Лучшие бесплатные веб-сервисы декабря
0
Вчера
Веб-сервисы
Веб-сервисы
YouTube показывает пугающее количество нейрослопа — особенно новым пользователям
YouTube показывает пугающее количество нейрослопа — особенно новым пользователям
0
Вчера
Новости
Технологии
10 новых приложений для Android: лучшее за декабрь
10 новых приложений для Android: лучшее за декабрь
0
28 декабря
Android
Android
На iPhone теперь можно посмотреть годовые итоги «Здоровья» в стиле Spotify Wrapped
На iPhone теперь можно посмотреть годовые итоги «Здоровья» в стиле Spotify Wrapped
0
27 декабря
iOS
Новости
23 расслабляющие игры для тех, кто задолбался
23 расслабляющие игры для тех, кто задолбался
0
27 декабря
Ликбез
Технологии
Французский стартап Smartlet показал ремешок, который позволяет носить двое часов одновременно
Французский стартап Smartlet показал ремешок, который позволяет носить двое часов одновременно
0
26 декабря
Новости
Устройства
Лучшие смартфоны декабря
Лучшие смартфоны декабря
0
26 декабря
Устройства
Устройства
«Яндекс» запустил бета‑версию сервиса «Яндекс Радио»
«Яндекс» запустил бета‑версию сервиса «Яндекс Радио»
0
26 декабря
Новости
Технологии
«Роспатент» показал самые необычные новогодние изобретения
«Роспатент» показал самые необычные новогодние изобретения
0
26 декабря
Новости
Технологии
Анонсированы Honor WIN и WIN RT — игровые флагманы с батареями на 10 000 мА·ч
Анонсированы Honor WIN и WIN RT — игровые флагманы с батареями на 10 000 мА·ч
0
26 декабря
Новости
Устройства
Через Telegram-бот @pic теперь можно генерировать картинки и отправлять их собеседнику
Через Telegram-бот @pic теперь можно генерировать картинки и отправлять их собеседнику
0
26 декабря
Новости
Технологии
12 новых игр для Android и iOS: лучшее за декабрь
12 новых игр для Android и iOS: лучшее за декабрь
0
26 декабря
Технологии
Технологии
Xiaomi анонсировала флагманские часы Watch 5 с eSIM и датчиком ЭМГ для мышц
Xiaomi анонсировала флагманские часы Watch 5 с eSIM и датчиком ЭМГ для мышц
0
25 декабря
Новости
Устройства
Надо брать: игровой ноутбук Asus TUF Gaming дешевле 70 000 рублей
Надо брать: игровой ноутбук Asus TUF Gaming дешевле 70 000 рублей
0
25 декабря
Покупки
Устройства
Представлен камерофон Xiaomi 17 Ultra с 1-дюймовым сенсором и специальной версией Leica Edition
Представлен камерофон Xiaomi 17 Ultra с 1-дюймовым сенсором и специальной версией Leica Edition
0
25 декабря
Новости
Устройства

Новые комментарии

Аватар автора комментария
Dmitry Sizonov1 час назад

0 / 0

Погуглите. Скорее всего, вам понравится. Можете такой купить для вашей решётки тоже.
15 вещей дешевле 1 000 рублей, которые наверняка пригодятся
Аватар автора комментария
Dmitry Sizonov1 час назад

0 / 0

Ознакомился. Он не умеет ничего такого особенного, что не умеют средние смарт-часы. Просто распиаренная хрень себестоимостью в 1к, продающаяся за 30к.
Что подарить девушке на Новый год
Аватар автора комментария
Sergey Valentinych4 часа назад

+2 / 0

Артем, спасибо за ваши статьи. В них жив дух Лайфхакера 10-летней давности
Лучшие бесплатные веб-сервисы декабря
Аватар автора комментария
Vika Alexandrova5 часов назад

0 / 0

Киану стал мне интересен после фильма Дом у озера, потом я увидела ещё несколько интересных ролей. Но поразил он меня своей игрой в Джонни Мнемоник, в сцене после падения авто с моста. Игра на грани состояния аффекта.
15 фильмов с Киану Ривзом, за которые все его так любят
Платежи с кешбэком и без комиссий. Как приложение Газпромбанка облегчит вам жизнь

Платежи с кешбэком и без комиссий. Как приложение Газпромбанка облегчит вам жизнь

Лайфхакер
Информация
О проектеРубрикиРекламаРедакцияВакансииДля начинающих авторовО компании
Подписка
TelegramВКонтактеTwitterViberYouTubeИнициалRSS
Правила
Пользовательское соглашениеПолитика обработки персональных данныхПравила применения рекомендательных технологийПравила сообществаСогласие на обработку персональных данныхСогласие для рекламных рассылокСогласие для информационной программы
18+Копирование материалов запрещено.
Издание может получать комиссию от покупки товаров, представленных в публикациях