Лайфхакер
Лайфхакер
Лучшее
Новости
Жизнь
Рецепты
Здоровье
Кино
Технологии
Покупки
Лучшее
Новости
Жизнь
Рецепты
Здоровье
Кино
Технологии
Покупки
Реши за меня
Добрые новости
Стыдные вопросы
Есть мнение
Норм или стрём
Личный опыт
Объясняем за минуту
Сервисы
НовостиТехнологии
21 мая 2025

Исследование: большинство чат-ботов легко обмануть и заставить давать опасные ответы

Взломать их может практически любой.
Фото автора Макс Вильтовский
Макс Вильтовский

Автор Лайфхакера

взлом чат-бота

Исследователи из Университета Бен-Гуриона в Израиле предупредили, что взломанные чат-боты могут делиться незаконной информацией, усвоенной во время обучения. Это заявление прозвучало на фоне растущей тенденции обхода пользователями встроенных механизмов безопасности.

⭐ Отметьте Лайфхакер галочкой в избранных источниках Google: так вы чаще будете видеть проверенные статьи и поддержите нас.

Большие языковые модели, такие как ChatGPT, Gemini и Claude, функционируют на основе массивов данных, собранных из интернета. Несмотря на усилия по удалению вредоносного контента из обучающих наборов, они всё ещё могут усваивать информацию о незаконной деятельности, включая взлом и отмывание денег.

Новое исследование показало, что большинство чат-ботов, управляемых искусственным интеллектом, легко обмануть и заставить генерировать вредные и незаконные сведения. «То, что когда-то было доступно только государственным деятелям или организованным преступным группировкам, вскоре может оказаться в руках любого, у кого есть ноутбук или даже мобильный телефон», — предупреждают авторы.

Они выявили растущую угрозу со стороны «тёмных LLM», которые либо намеренно разрабатываются без контроля безопасности, либо модифицируются с помощью джейлбрейков. Некоторые из них открыто рекламируются в интернете как «не имеющие этических ограничений» и предлагающие помощь в незаконной деятельности, включая киберпреступность и мошенничество.

Джейлбрейк обычно использует тщательно составленные подсказки, чтобы обмануть чат-ботов и заставить их предоставлять ответы, которые в нормальных условиях запрещены. Это достигается за счёт конфликта между основной задачей программы — выполнять инструкции пользователя — и второстепенной целью — избегать предоставления вредных, предвзятых, неэтичных или незаконных ответов. Такие подсказки создают ситуации, в которых программа начинает отдавать приоритет полезности.

Для иллюстрации проблемы исследователи разработали универсальный джейлбрейк, который успешно скомпрометировал несколько популярных чат-ботов, позволив им отвечать на запросы, которые обычно должны блокироваться. После взлома языковые модели стабильно генерировали ответы практически на любые вопросы:

В качестве примеров ИИ приводил способы взлома компьютерных сетей и пошаговые инструкции по другим видам преступной деятельности. Что отличает эту угрозу от предыдущих технологических рисков, так это беспрецедентное сочетание доступности, масштабируемости и адаптируемости.

Авторы утверждают, что технологическим компаниям необходимо тщательнее проверять обучающие данные, внедрять надёжные брандмауэры для предотвращения рискованных запросов и ответов, а также разрабатывать методы «машинного разучения», позволяющие чат-ботам забывать незаконную информацию, которую они усваивают. Они также считают, что разработчики должны нести ответственность за распространение искусственным интеллектом опасных сведений.

Исследователи обратились к ведущим разработчикам языковых моделей, чтобы предупредить о проблеме, однако их реакция оказалась «неубедительной», некоторые и вовсе не вышли на связь. В OpenAI заявили, что их последняя модель o1 способна рассуждать о политике безопасности компании, что делает её более устойчивой к попыткам обхода защиты. В Microsoft в ответ предоставили ссылку на блог, где описываются их усилия по предотвращению взломов. Запросы также были направлены в Meta*, Google и Anthropic.

*Деятельность Meta Platforms Inc. и принадлежащих ей социальных сетей Facebook и Instagram запрещена на территории РФ.

Про нейросети
🤖
10 лучших нейросетей для генерации текста на русском языке в 2025 году
5 советов, как взаимодействовать с нейросетями продуктивнее и безопаснее
30 полезных нейросетей для учёбы, доступных бесплатно
Обложка: кадр из фильма «Терминатор 2: Судный день»
Если нашли ошибку, выделите текст и нажмите Ctrl + Enter
Это интересно
6 диких вещей из эпохи медленного интернета начала 2000-х, о которых вспомнят только олды

6 диких вещей из эпохи медленного интернета начала 2000-х, о которых вспомнят только олды

Реклама
Как совмещать родительство с учёбой в вузе: 6 важных советов для студенческих семей

Как совмещать родительство с учёбой в вузе: 6 важных советов для студенческих семей

От доставки продуктов до тушения пожаров: как дроны помогают решать повседневные задачи

От доставки продуктов до тушения пожаров: как дроны помогают решать повседневные задачи

Не ругайте себя за срывы: что мешает бросить курить и как с этим справиться

Не ругайте себя за срывы: что мешает бросить курить и как с этим справиться

Комментарии
KapSuRioN
12.12.25 19:35
Эх, в будущем с теплотой будем вспоминать эти лайфхаки и дыры 😁
Что вы могли пропустить
Инсайдер показал iPhone Air 2 с двумя камерами и в новом лавандовом цвете
Инсайдер показал iPhone Air 2 с двумя камерами и в новом лавандовом цвете
0
Вчера
Новости
Устройства
Жизнь без сюрпризов: что мы потеряли в эпоху алгоритмов и рекомендаций контента
Жизнь без сюрпризов: что мы потеряли в эпоху алгоритмов и рекомендаций контента
0
Вчера
Технологии
Технологии
Смартфоны OnePlus и Realme перейдут на ColorOS — фирменную систему Oppo
Смартфоны OnePlus и Realme перейдут на ColorOS — фирменную систему Oppo
0
Вчера
Новости
Технологии
В ремешок Apple Watch Series 12 могут встроить новый датчик здоровья
В ремешок Apple Watch Series 12 могут встроить новый датчик здоровья
0
Вчера
Новости
Устройства
Xiaomi прекратила поддержку 11 устройств, включая Xiaomi 12
Xiaomi прекратила поддержку 11 устройств, включая Xiaomi 12
0
Вчера
Новости
Устройства
В пару кликов: как посмотреть все сайты, сервисы и приложения, куда вы входили через аккаунты Google и Apple ID
В пару кликов: как посмотреть все сайты, сервисы и приложения, куда вы входили через аккаунты Google и Apple ID
0
3 июля
Технологии
Технологии
16 приложений и сервисов для создания вишлистов
16 приложений и сервисов для создания вишлистов
0
3 июля
Технологии
Технологии
19 попыток вместо 1 800: в Android 17 сильно усложнили подбор ПИН-кода
19 попыток вместо 1 800: в Android 17 сильно усложнили подбор ПИН-кода
0
3 июля
Android
Новости
Молви «друг» и войди: энтузиаст создал врата Дурина из «Властелина колец» у себя дома
Молви «друг» и войди: энтузиаст создал врата Дурина из «Властелина колец» у себя дома
0
2 июля
Новости
Технологии
Популярность запрещённых соцсетей в России выросла почти вдвое
Популярность запрещённых соцсетей в России выросла почти вдвое
0
2 июля
Новости
Технологии
Чтобы всё сияло: что купить у бренда Govee, выпускающего эффектные лампы и LED-подсветку
Чтобы всё сияло: что купить у бренда Govee, выпускающего эффектные лампы и LED-подсветку
0
2 июля
Устройства
Устройства
Студент показал монитор для дома, который одним движением превращается в картину на стене
Студент показал монитор для дома, который одним движением превращается в картину на стене
0
1 июля
Новости
Устройства
Картинка за 4 секунды: Google выпустила сверхбыстрый генератор изображений Nano Banana 2 Lite
Картинка за 4 секунды: Google выпустила сверхбыстрый генератор изображений Nano Banana 2 Lite
0
1 июля
Веб-сервисы
Новости
В ChatGPT появился генератор презентаций Gamma — вот как им воспользоваться
В ChatGPT появился генератор презентаций Gamma — вот как им воспользоваться
0
1 июля
Веб-сервисы
Новости
Лучшие смартфоны июня
Лучшие смартфоны июня
0
1 июля
Устройства
Устройства

Новые комментарии

Аватар автора комментария
Дмитрий1 час назад

0 / 0

приложения, представленные в статье ооооочень старые и допотопные.. банально по дневнивку тренировок вся РФ буквально использует Forma, который назывался Gym Tracker (1-2 место в апстор по запросу "дневник тренировок"), какой там Jefit... он был средне популярен лет 5 назад а трекер калорий, вы серьезно? уже целая новая эпоха и виток невероятно крутых приложений после появления Cal AI и его последующей покупки монстром MyFitnessPal (которого тут к слову вообще нет, а это самое известное приложение.. хотя бы Calz или CalZen добавили)
15 удобных приложений для похудения в 2026 году
Аватар автора комментария
Рукоблуд1 час назад

0 / 0

Тест не грузится
ТЕСТ: Какой вы волшебный предмет из русских сказок?
Аватар автора комментария
Рукоблуд1 час назад

0 / 0

Красавчик. Видно руки не из ж...ы растут.
Молви «друг» и войди: энтузиаст создал врата Дурина из «Властелина колец» у себя дома
Аватар автора комментария
Рукоблуд2 часа назад

0 / 0

Правильно было назвать статью "Какой бюджет нужен для покупки лазерного или струйного принтера"
Какой принтер лучше — струйный или лазерный
ИГРА: Каким покупателем вас видят магазины

ИГРА: Каким покупателем вас видят магазины

Лайфхакер
Информация
О проектеРубрикиРекламаРедакцияВакансииО компании
Подписка
TelegramВКонтактеTwitter (X)PinterestYouTubeИнициалRSS
Правила
Пользовательское соглашениеПолитика обработки персональных данныхПравила применения рекомендательных технологийПравила сообществаСогласие на обработку персональных данныхСогласие для рекламных рассылокСогласие для информационной программы
18+Копирование материалов запрещено.
Издание может получать комиссию от покупки товаров, представленных в публикациях