Лайфхакер
Лайфхакер
Лучшее
Новости
Жизнь
Рецепты
Здоровье
Кино
Технологии
Покупки
Лучшее
Новости
Жизнь
Рецепты
Здоровье
Кино
Технологии
Покупки
Бежим с Лайфхакером
Добрые новости
Стыдные вопросы
Есть мнение
Норм или стрём
Личный опыт
Объясняем за минуту
Сервисы
НовостиТехнологии
21 мая 2025

Исследование: большинство чат-ботов легко обмануть и заставить давать опасные ответы

Взломать их может практически любой.
Фото автора Макс Вильтовский
Макс Вильтовский

Автор Лайфхакера

взлом чат-бота

Исследователи из Университета Бен-Гуриона в Израиле предупредили, что взломанные чат-боты могут делиться незаконной информацией, усвоенной во время обучения. Это заявление прозвучало на фоне растущей тенденции обхода пользователями встроенных механизмов безопасности.

Большие языковые модели, такие как ChatGPT, Gemini и Claude, функционируют на основе массивов данных, собранных из интернета. Несмотря на усилия по удалению вредоносного контента из обучающих наборов, они всё ещё могут усваивать информацию о незаконной деятельности, включая взлом и отмывание денег.

Новое исследование показало, что большинство чат-ботов, управляемых искусственным интеллектом, легко обмануть и заставить генерировать вредные и незаконные сведения. «То, что когда-то было доступно только государственным деятелям или организованным преступным группировкам, вскоре может оказаться в руках любого, у кого есть ноутбук или даже мобильный телефон», — предупреждают авторы.

Они выявили растущую угрозу со стороны «тёмных LLM», которые либо намеренно разрабатываются без контроля безопасности, либо модифицируются с помощью джейлбрейков. Некоторые из них открыто рекламируются в интернете как «не имеющие этических ограничений» и предлагающие помощь в незаконной деятельности, включая киберпреступность и мошенничество.

Джейлбрейк обычно использует тщательно составленные подсказки, чтобы обмануть чат-ботов и заставить их предоставлять ответы, которые в нормальных условиях запрещены. Это достигается за счёт конфликта между основной задачей программы — выполнять инструкции пользователя — и второстепенной целью — избегать предоставления вредных, предвзятых, неэтичных или незаконных ответов. Такие подсказки создают ситуации, в которых программа начинает отдавать приоритет полезности.

Для иллюстрации проблемы исследователи разработали универсальный джейлбрейк, который успешно скомпрометировал несколько популярных чат-ботов, позволив им отвечать на запросы, которые обычно должны блокироваться. После взлома языковые модели стабильно генерировали ответы практически на любые вопросы:

В качестве примеров ИИ приводил способы взлома компьютерных сетей и пошаговые инструкции по другим видам преступной деятельности. Что отличает эту угрозу от предыдущих технологических рисков, так это беспрецедентное сочетание доступности, масштабируемости и адаптируемости.

Авторы утверждают, что технологическим компаниям необходимо тщательнее проверять обучающие данные, внедрять надёжные брандмауэры для предотвращения рискованных запросов и ответов, а также разрабатывать методы «машинного разучения», позволяющие чат-ботам забывать незаконную информацию, которую они усваивают. Они также считают, что разработчики должны нести ответственность за распространение искусственным интеллектом опасных сведений.

Исследователи обратились к ведущим разработчикам языковых моделей, чтобы предупредить о проблеме, однако их реакция оказалась «неубедительной», некоторые и вовсе не вышли на связь. В OpenAI заявили, что их последняя модель o1 способна рассуждать о политике безопасности компании, что делает её более устойчивой к попыткам обхода защиты. В Microsoft в ответ предоставили ссылку на блог, где описываются их усилия по предотвращению взломов. Запросы также были направлены в Meta*, Google и Anthropic.

*Деятельность Meta Platforms Inc. и принадлежащих ей социальных сетей Facebook и Instagram запрещена на территории РФ.

Про нейросети
🤖
10 лучших нейросетей для генерации текста на русском языке в 2025 году
5 советов, как взаимодействовать с нейросетями продуктивнее и безопаснее
30 полезных нейросетей для учёбы, доступных бесплатно
Обложка: кадр из фильма «Терминатор 2: Судный день»
Если нашли ошибку, выделите текст и нажмите Ctrl + Enter
Это интересно
Новая глава вашей жизни: 7 причин, по которым выбирают квартиры в кварталах «Серии плюс» от ПИК

Новая глава вашей жизни: 7 причин, по которым выбирают квартиры в кварталах «Серии плюс» от ПИК

Как обновить квартиру: 6 простых шагов к свободному пространству и уютному дому

Как обновить квартиру: 6 простых шагов к свободному пространству и уютному дому

7 мифов об уколах для похудения

7 мифов об уколах для похудения

Безопасные покупки: как Ozon бережёт вас от мошенников

Безопасные покупки: как Ozon бережёт вас от мошенников

Реклама
Комментарии
KapSuRioN
12.12.25 19:35
Эх, в будущем с теплотой будем вспоминать эти лайфхаки и дыры 😁
Что вы могли пропустить
6 приложений для отслеживания автобусов и другого общественного транспорта в 2026 году
6 приложений для отслеживания автобусов и другого общественного транспорта в 2026 году
0
Вчера
Ликбез
Технологии
Карты, деньги, два шнура: как подготовить свой смартфон к отпуску
Карты, деньги, два шнура: как подготовить свой смартфон к отпуску
0
13 июня
Технологии
Технологии
Это вам не брызгалка: 10 лучших аккумуляторных опрыскивателей для обработки сада и огорода
Это вам не брызгалка: 10 лучших аккумуляторных опрыскивателей для обработки сада и огорода
0
12 июня
Технологии
Технологии
Huawei выпустила HarmonyOS 7 с пространственным дизайном и защитой от фишинга
Huawei выпустила HarmonyOS 7 с пространственным дизайном и защитой от фишинга
0
12 июня
Новости
Технологии
Telegram вышел на часах: представлено крупное обновление мессенджера
Telegram вышел на часах: представлено крупное обновление мессенджера
0
12 июня
Новости
Технологии
Экс-глава Fitbit представила подвеску The Gem для контроля ультрафиолета и состояния кожи
Экс-глава Fitbit представила подвеску The Gem для контроля ультрафиолета и состояния кожи
0
11 июня
Новости
Устройства
Xiaomi выпустила портативную кофеварку — до 400 чашек на одном заряде, но с оговоркой
Xiaomi выпустила портативную кофеварку — до 400 чашек на одном заряде, но с оговоркой
0
11 июня
Новости
Устройства
Объясняем за минуту: можно ли заряжать телефон зарядкой от ноутбука
Объясняем за минуту: можно ли заряжать телефон зарядкой от ноутбука
0
11 июня
Технологии
Технологии
MacBook Neo 2 станет самым дешёвым устройством Apple с расширенными ИИ‑функциями
MacBook Neo 2 станет самым дешёвым устройством Apple с расширенными ИИ‑функциями
0
11 июня
Новости
Устройства
Tecno показала смартфон Pova 8 в стиле Nothing — с батареей 8 000 мА⋅ч и матричным экраном
Tecno показала смартфон Pova 8 в стиле Nothing — с батареей 8 000 мА⋅ч и матричным экраном
0
11 июня
Новости
Устройства
Более 50 устройств Realme получат новейшую Android 17 — список
Более 50 устройств Realme получат новейшую Android 17 — список
0
11 июня
Новости
Технологии
Придётся переучиваться: новая Siri сломает 15 лет мышечной памяти владельцев iPhone и iPad
Придётся переучиваться: новая Siri сломает 15 лет мышечной памяти владельцев iPhone и iPad
0
11 июня
iOS
Новости
«2ГИС» научился подсказывать скорость для проезда светофоров без остановок
«2ГИС» научился подсказывать скорость для проезда светофоров без остановок
0
11 июня
Новости
Технологии
Минцифры разблокировало Roblox в России
Минцифры разблокировало Roblox в России
0
10 июня
Новости
Технологии
Polaroid показала компактную ретро-камеру мгновенной печати Go Gen 3 — её прокачали для селфи
Polaroid показала компактную ретро-камеру мгновенной печати Go Gen 3 — её прокачали для селфи
0
10 июня
Новости
Устройства

Новые комментарии

Аватар автора комментария
Анастасия Наумцева3 минуты назад

0 / 0

За 3,5 года моего стажа ни разу не возила животных. А тут речь всё же о типичном сценарии)
Норм или стрём: громко включать музыку в машине
Аватар автора комментария
Макс2 часа назад

0 / 0

про кэфы сейчас мимо - занижают во всю так как оферта позволяет им делать что хотят и шиш курьер что с этим сделает так как беря сумку и заступая на смену ты подписываешь эту оферту не читая
10 стыдных вопросов о доставке: отвечает курьер Алексей Ткаченко
Аватар автора комментария
Рафаэль Галиев2 часа назад

0 / 0

Архитектурный ансамбль Казанского кремля Свияжск
11 крепостей России, которые поражают воображение
Аватар автора комментария
Рафаэль Галиев2 часа назад

0 / 0

Приехавший в любую страну американец, занявшийся чем то традиционным, будет всегда в этом круче, чем любой местный. Даже при том, что местные этому всю жизнь посвятили. (Карате-пацан)
10 самых надоевших клише в фильмах и сериалах
Новая глава вашей жизни: 7 причин, по которым выбирают квартиры в кварталах «Серии плюс» от ПИК

Новая глава вашей жизни: 7 причин, по которым выбирают квартиры в кварталах «Серии плюс» от ПИК

Лайфхакер
Информация
О проектеРубрикиРекламаРедакцияВакансииО компании
Подписка
TelegramВКонтактеTwitterViberYouTubeИнициалRSS
Правила
Пользовательское соглашениеПолитика обработки персональных данныхПравила применения рекомендательных технологийПравила сообществаСогласие на обработку персональных данныхСогласие для рекламных рассылокСогласие для информационной программы
18+Копирование материалов запрещено.
Издание может получать комиссию от покупки товаров, представленных в публикациях