Лайфхакер
Лайфхакер
Лучшее
Рубрики
Рецепты
Подкасты
Сервисы
Колонки
Лучшее
Рубрики
Рецепты
Подкасты
Сервисы
Колонки
Новости
Здоровье
Спорт и фитнес
Покупки
Технологии
Отношения
Кино
Реклама
НовостиТехнологии
21 мая

Исследование: большинство чат-ботов легко обмануть и заставить давать опасные ответы

Взломать их может практически любой.
Фото автора Макс Вильтовский
Макс Вильтовский

Автор Лайфхакера

взлом чат-бота

Исследователи из Университета Бен-Гуриона в Израиле предупредили, что взломанные чат-боты могут делиться незаконной информацией, усвоенной во время обучения. Это заявление прозвучало на фоне растущей тенденции обхода пользователями встроенных механизмов безопасности.

⚡ Новости из мира гаджетов, обзоры, гайды и не только — в телеграм-канале «Технологии | Лайфхакер».

Большие языковые модели, такие как ChatGPT, Gemini и Claude, функционируют на основе массивов данных, собранных из интернета. Несмотря на усилия по удалению вредоносного контента из обучающих наборов, они всё ещё могут усваивать информацию о незаконной деятельности, включая взлом и отмывание денег.

Новое исследование показало, что большинство чат-ботов, управляемых искусственным интеллектом, легко обмануть и заставить генерировать вредные и незаконные сведения. «То, что когда-то было доступно только государственным деятелям или организованным преступным группировкам, вскоре может оказаться в руках любого, у кого есть ноутбук или даже мобильный телефон», — предупреждают авторы.

Они выявили растущую угрозу со стороны «тёмных LLM», которые либо намеренно разрабатываются без контроля безопасности, либо модифицируются с помощью джейлбрейков. Некоторые из них открыто рекламируются в интернете как «не имеющие этических ограничений» и предлагающие помощь в незаконной деятельности, включая киберпреступность и мошенничество.

Джейлбрейк обычно использует тщательно составленные подсказки, чтобы обмануть чат-ботов и заставить их предоставлять ответы, которые в нормальных условиях запрещены. Это достигается за счёт конфликта между основной задачей программы — выполнять инструкции пользователя — и второстепенной целью — избегать предоставления вредных, предвзятых, неэтичных или незаконных ответов. Такие подсказки создают ситуации, в которых программа начинает отдавать приоритет полезности.

Для иллюстрации проблемы исследователи разработали универсальный джейлбрейк, который успешно скомпрометировал несколько популярных чат-ботов, позволив им отвечать на запросы, которые обычно должны блокироваться. После взлома языковые модели стабильно генерировали ответы практически на любые вопросы:

В качестве примеров ИИ приводил способы взлома компьютерных сетей и пошаговые инструкции по другим видам преступной деятельности. Что отличает эту угрозу от предыдущих технологических рисков, так это беспрецедентное сочетание доступности, масштабируемости и адаптируемости.

Авторы утверждают, что технологическим компаниям необходимо тщательнее проверять обучающие данные, внедрять надёжные брандмауэры для предотвращения рискованных запросов и ответов, а также разрабатывать методы «машинного разучения», позволяющие чат-ботам забывать незаконную информацию, которую они усваивают. Они также считают, что разработчики должны нести ответственность за распространение искусственным интеллектом опасных сведений.

Исследователи обратились к ведущим разработчикам языковых моделей, чтобы предупредить о проблеме, однако их реакция оказалась «неубедительной», некоторые и вовсе не вышли на связь. В OpenAI заявили, что их последняя модель o1 способна рассуждать о политике безопасности компании, что делает её более устойчивой к попыткам обхода защиты. В Microsoft в ответ предоставили ссылку на блог, где описываются их усилия по предотвращению взломов. Запросы также были направлены в Meta*, Google и Anthropic.

*Деятельность Meta Platforms Inc. и принадлежащих ей социальных сетей Facebook и Instagram запрещена на территории РФ.

Про нейросети
🤖
10 лучших нейросетей для генерации текста на русском языке в 2025 году
5 советов, как взаимодействовать с нейросетями продуктивнее и безопаснее
30 полезных нейросетей для учёбы, доступных бесплатно
Обложка: кадр из фильма «Терминатор 2: Судный день»
Если нашли ошибку, выделите текст и нажмите Ctrl + Enter

Лучшие предложения

120 interesnyh i poleznyh podarkov zhene na Novyj god

120 интересных и полезных подарков жене на Новый год

Популярный 3D-принтер Bambu Lab A1 отдают со скидкой 40% на «чёрной пятнице»

Популярный 3D-принтер Bambu Lab A1 отдают со скидкой 40% на «чёрной пятнице»

Забираем красивую дрель-шуруповёрт от Xiaomi со скидкой 28%

Надо брать: дрель-шуруповёрт от Xiaomi со скидкой 28%

5 отличных планшетов со скидками на распродаже «чёрная пятница»

5 отличных планшетов со скидками на распродаже «чёрная пятница»

6 классных уходовых средств из коллаборации Geltek и «Союзмультфильма»

6 классных уходовых средств из коллаборации Geltek и «Союзмультфильма»

Надо брать: паровая швабра для уборки всего дома со скидкой 38%

Надо брать: паровая швабра для уборки всего дома

Кроссовки Li-Ning Red Hare 8 Pro отдают за полцены на распродаже

Кроссовки Li-Ning Red Hare 8 Pro отдают за полцены на распродаже

Всё самое нужное с распродажи «Чёрная пятница» на AliExpress

Всё самое нужное с распродажи «Чёрная пятница» на AliExpress

Это интересно
ИГРА: Полный бак бонусов

ИГРА: Полный бак бонусов

Профилактика диабета: как повысить свои шансы не заболеть

Профилактика диабета: как повысить свои шансы не заболеть

От ПМС до овуляции. Всё, что нужно знать о менструальном цикле

От ПМС до овуляции. Всё, что нужно знать о менструальном цикле

Как найти работу, где помогают расти и поддерживают на старте

Как найти работу, где помогают расти и поддерживают на старте

Комментарии

Станьте первым, кто оставит комментарий

Что вы могли пропустить
На Kickstarter представили умную клавиатуру с ультрашироким сенсорным экраном
На Kickstarter представили умную клавиатуру с ультрашироким сенсорным экраном
0
18:42
Новости
Устройства
Названы 5 самых популярных чат-ботов в России — трафик ИИ-сервисов увеличился в 6 раз
Названы 5 самых популярных чат-ботов в России — трафик ИИ-сервисов увеличился в 6 раз
0
16:40
Новости
Технологии
Представлен Orion — новый браузер для Mac с фокусом на скорость и приватность
Представлен Orion — новый браузер для Mac с фокусом на скорость и приватность
0
14:40
Браузеры
Новости
15 крутых бюджетных смартфонов, которые не разочаруют
15 крутых бюджетных смартфонов, которые не разочаруют
0
13:30
Ликбез
Технологии
Без скриншотов: в Gemini появилась возможность обвести часть экрана и сразу отправить её чат-боту
Без скриншотов: в Gemini появилась возможность обвести часть экрана и сразу отправить её чат-боту
0
12:10
Android
Новости
Honor представила Choice AI Air — недорогой проектор с ИИ, который позволяет рисовать на стенах
Honor представила Choice AI Air — недорогой проектор с ИИ, который позволяет рисовать на стенах
0
11:37
Новости
Устройства
Warwick Acoustics создала динамики, которые увеличивают звуковое пространство машины в 10 раз
Warwick Acoustics создала динамики, которые увеличивают звуковое пространство машины в 10 раз
0
10:14
Новости
Технологии
Android для ПК будет называться Aluminium — систему представят в 2026 году
Android для ПК будет называться Aluminium — систему представят в 2026 году
0
Вчера
Android
Новости
iPhone 17 вернёт Apple лидерство на рынке смартфонов — впервые за 14 лет
iPhone 17 вернёт Apple лидерство на рынке смартфонов — впервые за 14 лет
0
Вчера
Новости
Устройства
Huawei представила наушники FreeBuds Pro 5 с ИИ-шумодавом и записью голоса
Huawei представила наушники FreeBuds Pro 5 с ИИ-шумодавом и записью голоса
0
Вчера
Новости
Устройства
Xiaomi выпустила планшет Poco Pad X1 с экраном 144 Гц — мощный и доступный
Xiaomi выпустила планшет Poco Pad X1 с экраном 144 Гц — мощный и доступный
0
Вчера
Новости
Устройства
Представлены народные флагманы Poco F8 Pro и F8 Ultra — они уже доступны на AliExpress
Представлены народные флагманы Poco F8 Pro и F8 Ultra — они уже доступны на AliExpress
0
Вчера
Новости
Устройства
Adobe выпустила бесплатное расширение Photoshop для редактирования фото прямо в Chrome
Adobe выпустила бесплатное расширение Photoshop для редактирования фото прямо в Chrome
0
Вчера
Браузеры
Новости
6 приложений для просмотра ТВ-каналов на смартфоне бесплатно и без регистрации
6 приложений для просмотра ТВ-каналов на смартфоне бесплатно и без регистрации
0
Вчера
Android
iOS
Вместо Nano Banana: представлен FLUX.2 — новый фотореалистичный ИИ-генератор изображений
Вместо Nano Banana: представлен FLUX.2 — новый фотореалистичный ИИ-генератор изображений
0
Вчера
Новости
Технологии

Новые комментарии

Аватар автора комментария
D.V.1 час назад

0 / 0

Так надо плату повысить 😁
Названы 5 самых популярных чат-ботов в России — трафик ИИ-сервисов увеличился в 6 раз
Аватар автора комментария
D.V.1 час назад

0 / 0

А у нас ребенок пару раз ночью вставал и начинал в школу собираться, часа в 3 ночи, жуть...
Почему человек разговаривает во сне
Аватар автора комментария
Илья Петрашко1 час назад

0 / 0

Ходил в кино. Фильм сугубо по моему мнению стоит каждого потраченного на него доллара. Снято интересно персонажи живые и яркие картинка отличная и сюжет не плавный а прямо с самого начала затягивает (точно буду пересматривать через время).
«Планета смерти» стала самым кассовым фильмом в серии «Хищник»
Аватар автора комментария
Илья Петрашко2 часа назад

0 / 0

Мне интересно Тарантино добрался до этого вопроса только к 6ой картине? Да очевидно же что просто копия, переиначенная в другую вселенную. Вопрос скорее к автору: королевская битва это своего рода культовое кино, но при этом не артхаусное, а для массового зрителя и неужели она за 10 лет ни разу не встретилась с этой картиной хоть где то?
Квентин Тарантино раскритиковал «Голодные игры» за плагиат «Королевской битвы»
Как выбрать апарт-отель для инвестиций и зачем это нужно

Как выбрать апарт-отель для инвестиций и зачем это нужно

Лайфхакер
Информация
О проектеРубрикиРекламаРедакцияВакансииДля начинающих авторовО компании
Подписка
TelegramВКонтактеTwitterViberYouTubeИнициалRSS
Правила
Пользовательское соглашениеПолитика обработки персональных данныхПравила применения рекомендательных технологийПравила сообществаСогласие на обработку персональных данныхСогласие для рекламных рассылокСогласие для информационной программы
18+Копирование материалов запрещено.
Издание может получать комиссию от покупки товаров, представленных в публикациях