21 мая 2025

Исследование: большинство чат-ботов легко обмануть и заставить давать опасные ответы

Взломать их может практически любой.

Автор Лайфхакера

Исследователи из Университета Бен-Гуриона в Израиле предупредили, что взломанные чат-боты могут делиться незаконной информацией, усвоенной во время обучения. Это заявление прозвучало на фоне растущей тенденции обхода пользователями встроенных механизмов безопасности.

⚡ Новости из мира гаджетов, обзоры, гайды и не только — в телеграм-канале «Технологии | Лайфхакер».

Большие языковые модели, такие как ChatGPT, Gemini и Claude, функционируют на основе массивов данных, собранных из интернета. Несмотря на усилия по удалению вредоносного контента из обучающих наборов, они всё ещё могут усваивать информацию о незаконной деятельности, включая взлом и отмывание денег.

Новое исследование показало, что большинство чат-ботов, управляемых искусственным интеллектом, легко обмануть и заставить генерировать вредные и незаконные сведения. «То, что когда-то было доступно только государственным деятелям или организованным преступным группировкам, вскоре может оказаться в руках любого, у кого есть ноутбук или даже мобильный телефон», — предупреждают авторы.

Они выявили растущую угрозу со стороны «тёмных LLM», которые либо намеренно разрабатываются без контроля безопасности, либо модифицируются с помощью джейлбрейков. Некоторые из них открыто рекламируются в интернете как «не имеющие этических ограничений» и предлагающие помощь в незаконной деятельности, включая киберпреступность и мошенничество.

Джейлбрейк обычно использует тщательно составленные подсказки, чтобы обмануть чат-ботов и заставить их предоставлять ответы, которые в нормальных условиях запрещены. Это достигается за счёт конфликта между основной задачей программы — выполнять инструкции пользователя — и второстепенной целью — избегать предоставления вредных, предвзятых, неэтичных или незаконных ответов. Такие подсказки создают ситуации, в которых программа начинает отдавать приоритет полезности.

Для иллюстрации проблемы исследователи разработали универсальный джейлбрейк, который успешно скомпрометировал несколько популярных чат-ботов, позволив им отвечать на запросы, которые обычно должны блокироваться. После взлома языковые модели стабильно генерировали ответы практически на любые вопросы:

В качестве примеров ИИ приводил способы взлома компьютерных сетей и пошаговые инструкции по другим видам преступной деятельности. Что отличает эту угрозу от предыдущих технологических рисков, так это беспрецедентное сочетание доступности, масштабируемости и адаптируемости.

Авторы утверждают, что технологическим компаниям необходимо тщательнее проверять обучающие данные, внедрять надёжные брандмауэры для предотвращения рискованных запросов и ответов, а также разрабатывать методы «машинного разучения», позволяющие чат-ботам забывать незаконную информацию, которую они усваивают. Они также считают, что разработчики должны нести ответственность за распространение искусственным интеллектом опасных сведений.

Исследователи обратились к ведущим разработчикам языковых моделей, чтобы предупредить о проблеме, однако их реакция оказалась «неубедительной», некоторые и вовсе не вышли на связь. В OpenAI заявили, что их последняя модель o1 способна рассуждать о политике безопасности компании, что делает её более устойчивой к попыткам обхода защиты. В Microsoft в ответ предоставили ссылку на блог, где описываются их усилия по предотвращению взломов. Запросы также были направлены в Meta*, Google и Anthropic.

*Деятельность Meta Platforms Inc. и принадлежащих ей социальных сетей Facebook и Instagram запрещена на территории РФ.

10 лучших нейросетей для генерации текста на русском языке в 2025 году

5 советов, как взаимодействовать с нейросетями продуктивнее и безопаснее

30 полезных нейросетей для учёбы, доступных бесплатно

Это интересно

Не ругайте себя за срывы: что мешает бросить курить и как с этим справиться

Косметический ремонт за выходные: 6 вещей в квартире, которые можно обновить без грязи и пыли

Зачем ходить на квизы, если всё можно спросить у ИИ

От станка до зарплаты: 7 необычных экскурсий, которые помогут школьнику понять, какую выбрать профессию

Комментарии

KapSuRioN

12.12.25 19:35

Эх, в будущем с теплотой будем вспоминать эти лайфхаки и дыры 😁

Что вы могли пропустить

Автономность складного Samsung Galaxy Z Fold 8 Ultra сравнили с конкурентами

15:10

Новости

Устройства

Плита, лампа и обогреватель в одном: представлена стильная портативная горелка Pyronex

12:20

Новости

Устройства

Выбираем технику для съёмной квартиры: 10 недорогих, но качественных устройств

12:00

Устройства

Unitree показала робособаку на колёсиках — она бегает по скалам, крутит сальто и танцует

Вчера

Новости

Технологии

Круто, необычно и недорого: 30 отличных инди-игр, которые запустятся даже на картошке

Вчера

Ликбез

Технологии

Oppo выпустила потенциальный бестселлер K15 — с активным охлаждением и батареей на 8 000 мА·ч

Вчера

Новости

Устройства

Названы экзотические мессенджеры, которые чаще всего скачивают в России

Вчера

Новости

Технологии

Что лучше — Honor 600 или Honor 600 Pro

23 июля

Устройства

В аккаунт Google теперь можно входить с помощью видеоселфи

23 июля

Новости

Технологии

Apple выпустит 11 новых компьютеров Mac за 2 года на фоне бума ИИ

23 июля

Новости

Устройства

«Госуслуги» могут превратиться в соцсеть с чатами, лентой новостей и достижениями

23 июля

Веб-сервисы

Новости

Вышедшие из-под контроля боты OpenAI «сбежали» из лаборатории и взломали систему конкурента

22 июля

Новости

Технологии

Samsung показала часы Galaxy Watch 9 и Galaxy Watch Ultra 2 с увеличенными батареями

22 июля

Новости

Устройства

Меньше складок: Samsung представила раскладушки Galaxy Z Flip 8, Galaxy Z Fold 8 и Galaxy Z Fold 8 Ultra

22 июля

Новости

Устройства

Xiaomi выпустила гигантский увлажнитель на колёсиках с функцией фильтрации воздуха

22 июля

Новости

Устройства

Новые комментарии

Елена Симонова2 часа назад

0 / 0

Я сейчас худею на Семальтаре. Очень радует, что я перестала смотреть на еду как на награду. Я ем, когда голодна, и останавливаюсь, когда сыта. Минус 8 кг за 4 месяца. Сдаю анализы, хожу на контроль к врачу.

«Семальтара»: как работает семаглутид в таблетках и для чего его назначают

вася васин3 часа назад

0 / 0

насколько я знаю,в школьных котлетах использовалась исключительно говядина

Рецепт с ностальгией: те самые котлеты как в школьной столовой

Алексей4 часа назад

0 / 0

Со временем понимаешь, что мы несовершенны и от того, и законы наши не совершенны, и требуют доработки.

16 лучших графических редакторов, которые не стоят ни копейки

Алексей4 часа назад

0 / 0

А что есть закон Государства в своей сути. В сути это договорённость народа какой-то страны соблюдать правила в отношении кого-либо (см. ст. 3 Конституции РФ). Авторское право есть договорённость одних граждан не делать такой же труд, какой сделал другой гражданин. И эту договорённость охраняет государство под страхом наказания. Помните статут королевы Анны от 1710 года, который я упоминал? Вот наш современный закон это тоже самое, охрана государством одних предпринимателей от других. Тут нет разницы в сути этого закона. Но вот по совести, действительно ли нельзя делать тот же самый труд, который делает какой-то автор? Разве нам это запрещает природа? Бог? Закон об авторском праве, который придумала Анна разделил народы мира по праву владения информацией. Люди возомнили себе, что они имеют исключительное право обладать определёнными знаниями и что другие люди могут иметь право обладать этими знаниями только после оплаты денег в таком размере, в котором пожелает знающий. И государство защищает этих людей. Я сам программист и бывший предприниматель, который писал и продавал программные продукты. Рассуждая на тему, могу ли я бесконечно кормиться от простого копирования кода, по совести не мог согласиться с этим мнением. Не мог согласиться с тем, что придумал отец Била Гейтса, который натянул закон об авторских правах использовавшийся по отношению к издательствам на цифровые продукты. Всё это очень серьёзно. Весь мир обманывается уже 300 лет как. И создала эту ситуацию королева Анна, которая стала потакать английским олигархам. Вот вам пример. Если какой-то человек путём оплаты кучи денег учёным, получит право на формулу лекарства исцеляющего людей, имеет ли право он хранить в тайне секрет этого лекарства, если от болезни, которую оно лечит, умирают люди? Или вот другой пример. Международные отношения предусматривают защиту авторских прав между гражданами разных стран. Если эти страны начинают войну друг с другом, должно ли государство защищать граждан страны противника от своих собственных граждан в вопросе авторского права? Ну и самый важный пример для всех людей в мире. Если бы перед вами страдал человек и вы желали бы ему помочь. И тут явился бы дьявол и сказал вам, что этому человеку можно помочь вот так и вот так, но если ты поможешь ему, то это будет означать, что ты продал свою душу дьяволу. И вы проанализировав ситуацию понимаете, что иначе и проще этому человеку в текущей ситуации никак не помочь. И вы помогаете ему так, как сказал падший дух. И что, каков итог? Имеет ли право дьявол на вашу душу? Ведь Бог сказал любить ближних. А дьявол считает, что он обладает исключительными правами на эти знания. Как вы эту ситуацию рассудите? Лично я для себя ответы нашёл в Библии. Иначе никак. Это основа мира! Во первых Бог сказал, чтобы мы справедливо по договорённости друг с другом поделили землю, на которой трудимся. Земля есть средство производства. Программные средства тоже в своей сути есть инструменты. Они созданы отдельными людьми - разработчиками. Но эти программные средства легко клонируются путём копирования не причиняя вещественного (материального) убытка автору программы. И если этот человек загибает непосильную цену за свой инструмент, или вообще запрещает некоторым своим братьям (а все люди братья от Адама) пользоваться ими, тогда он обделяет своих братьев в средствах производства и нарушает то самое завещание от Бога о разделе земли. Во вторых Бог также сказал, трудящийся достоин пропитания. Значит разработчику обязательно нужно платить за его труд. Но платить нужно так, чтобы не страдали другие люди. Это важно. В третьих всё принадлежит Богу, и Земля, и вся вселенная, и всякое творение. Даже дьявол Ему принадлежит, хоть и не признаёт это и противится этому. Только дела Его свободных творений происходят не от Бога, но во власти Бога их хранение. Они хранятся по воле Бога, потому что нет иного хранилища, которое могло бы существовать без разрешения (воли) Творца, и нет такого места где бы не было Бога, Он по всюду существует, даже в аду. Просто Он не сочетается с неугодными Ему Своими творениями и их делами. Следовательно и всякое знание, любая информация, существует только по воле Бога, а мы обладаем им лишь на время по Его непосредственной воле, или попущению (незапрещению). По этому говорить, что что-то принадлежит исключительно мне, невозможно. Если даже душа моя принадлежит Богу, а не мне, то что уж говорить о плодах моих трудов? И всё же Бог дал мне свободу выбора на время моей земной жизни, а значит я, как и другие свободные существа, являюсь причиной своих дел, трудов. И именно за эту, данную мне Богом, и проявленную мною в трудах, власть, я и получаю воздаяния, в том числе и в материальном виде. Следовательно генерируемая нами информация (в том числе, и программные продукты, и цифровой творческий контент) хоть и не принадлежит нам исключительно, но мы являемся причиной появления этой информации. И именно по этой причине мы имеем право на денежное вознаграждение за программное обеспечение (ПО). Но мы не можем продавать эти программы в бесконечную аренду, чем сейчас является по сути продажа ПО по закону авторских прав (я имею ввиду продажу неисключительной лицензии). Разве можно продать кому-то волшебную книжку в вечное пользование за денюжку и навсегда запретить разбираться в её устройстве? Даже наследникам покупателя программы? Так сейчас выглядит продажа ПО в мире. Здесь продавцами накладывается запрет на исследование мира, что Бог нам не запрещал делать, так как познание вселенной есть познание творения Бога и через него происходит познание самого Творца, что есть благо для человека. Запрет дизассемблинга в исследовательских целях? С этим я никак не могу согласиться! Что же касается творческого контента, то тут немного другой подход. Это не столько инструмент труда, как какие-нибудь бизнес-программы, сколько инструмент просвещения, путём рассказа некой истории через стих, песню, музыку, кино, игру, рассказ и т. п. И эти истории по сути научают человека чему-либо, учат его душу способам действия в жизни в той или иной ситуации, даже если это невероятный фантастический ужастик, здесь речь идёт о моральных выборах. Так вот должен ли человек платить за некачественный контент, который вместо того, чтобы просвещать, оскверняет разум человека? Ведь с таким плательщиком грешит и креатор этого контента, который продаёт такой оскверняющий умы людей продукт. Выходит за творческий контент следует платить не вперёд, а после его получения и столько, сколько оценивает мораль нашей психики. Как в древности, когда разъезжим театралам платили вольные зрители по своему усмотрению. Креатор конечно может указать рекомендованное пожертвование, но и его не каждый ведь сможет платить. А ограничивать людей в просвещении тоже неправильно. В общем платить за программы и творческий цифровой контент нужно. Но только если получатель денег своим поведением или величиной цены не вредит тебе и твоим близким, чтобы не стать соучастником преступлений этого разработчика, или креатора. И ещё, будет очень хорошо, если каждый разработчик и креатор будут отправлять копию своего труда в какую-то государственную библиотеку, чтобы само государство могло воспользоваться этим инструментом во благо всех граждан (возможно даже продавать этот продукт населению с оплатой авторских, как это заведено в библиотеках, когда его перестают продавать на рынке). Запрет дизассемблинга это логическая катастрофа в мире юриспруденции, так как запрещает людям познавать мир. Дизассемблинг кода, хотя бы в учебных целях, это благо! Ну и строгий контроль государством авторских прав по сути есть наступание на грабли, когда народ сам себе запрещает производить очень похожий по функционалу, но удобный, продукт другими производителями, чтобы наполнить свою экономику большим количеством удобных инструментов, которые эту самую экономику поднимут. То есть закон об авторских правах в том виде, в котором он сейчас существует, мешает развитию образования и экономики любой страны мира. В США этот вопрос решают так, там само государство активно скупает патенты любых технологий в их зачатке, которые можно использовать в оборонке и потом распространяет эти патенты по производителям с гос. субсидиями. Правда из-за бешеной коррупции в Америке всё это превратилось в династический олигархат, что ещё рас подтверждает ущербность нынешнего вида патентного права. А что касается дьявола, то он является причиной зла и по этому он наполняет нас злой информацией даже тогда, когда говорит действительно доброе. От того его ещё называют двуликим янусом. Если мы окажемся в окружении злого животного и научимся выживать из-за этого, то должны ли мы что-то этому животному за это? Ведь мы учились спасению от него, а не погибели. По сути ответ на этот вопрос таков, невозможно стать по настоящему добрым, если не узнать что такое зло. По этому святые по большей части это мученики страдающие от зла. Бог попускает такое, чтобы научить людей избегать зло, чтобы спасти их. Бог выше всякого творения, Его закон главнее закона всякого творения. А уж законы дьявола есть преступление над личностью человека, так как он преследует цель погибели человечества. Так что стоит хорошо подумать, действительно ли наши законы правильны и справедливы, чтобы дьявол не использовал наши правила против нас самих! Есть добрые авторы информации, которым следует платить. А есть такие, кто творит зло, которым платить не следует, если оплата приведёт к ещё большему злу. Но бывает так, что и злодею лучше заплатить, если неоплата приведёт к ещё большему злу. Тут нужно быть мудрым, как поступить, где зла будет меньше и где добра больше. (Евангелие от Матфея.17:24-27) "Когда же пришли они в Капернаум, то подошли к Петру собиратели дидрахм (налога на Храм Бога) и сказали: Учитель ваш не даст ли дидрахмы? Он говорит: да. И когда вошел он в дом, то Иисус, предупредив его, сказал: как тебе кажется, Симон? цари земные с кого берут пошлины или подати? с сынов ли своих, или с посторонних? Петр говорит Ему: с посторонних. Иисус сказал ему: итак, сыны свободны (Христос как Сын Бога Отца был свободен от оплаты налога на храм Бога); но, чтобы нам не соблазнить их (к ещё большему греху), пойди на море, брось уду, и первую рыбу, которая попадется, возьми, и, открыв у ней рот, найдешь статир; возьми его и отдай им за Меня и за себя". Спаси вас Бог!

16 лучших графических редакторов, которые не стоят ни копейки