• XSS.stack #1 – первый литературный журнал от юзеров форума

Способ автоматизировать создание вредоносных запросов для AI чат-ботов

baykal

(L2) cache
Пользователь
Регистрация
16.03.2021
Сообщения
370
Реакции
838
Группа ученых разработала метод атак на большие языковые модели (LLM), который позволяет обойти средства защиты в ChatGPT, Bard и Claude, вынуждая ИИ выполнять вредоносные промпты (запросы).

attack.png


Исследователи, в команду которых вошли специалисты из Университета Карнеги-Меллона, некоммерческой организации Center for AI Safety («Центр безопасности ИИ»), а также ИИ-центра Bosch, объясняют, что подобные атаки создавались и ранее, но они осуществлялись вручную и требовали значительных усилий для анализа LLM и разработки вредоносных запросов. Новая атака отличается тем, что позволяет генерировать вредоносные запросы в автоматическом режиме, практически не требуя от злоумышленника дополнительных усилий.

В докладе исследователей, к которому прилагаются опенсорсные исходники, объясняется, как можно обманом вынудить LLM выдать запрещенный результат, добавляя определенные фразы к текстовым промптам.

На первый взгляд такие фразы выглядят как тарабарщина, но на самом деле они связаны с loss-функцией, предназначенной для определения токенов (последовательностей символов), которые заставляют LLM давать ответ на запрос, на который в противном случае ИИ отказался бы отвечать.
«Чат-боты обучаются с фильтрами безопасности, — объясняют исследователи. — И если вы спросите их "как сделать бомбу" или о чем-то незаконном и потенциально вредном, они не станут отвечать, откажутся. Поэтому мы хотели сделать так, чтобы LLM были более склонны давать утвердительный ответ».
То есть, в результате, вместо того чтобы отвечать на неприемлемый вопрос: «Извините я не могу этого сделать», ИИ-модель послушно объяснит, как сделать бомбу, приготовить метамфетамин и так далее.
yolo.png


По словам ученых, обычно подобные атаки очень специфичны и не универсальны, то есть не работают для разных ИИ-моделей. Также, как правило, это означает, что можно без особого труда создать специальные средства защиты для их блокировки.

Однако исследователям удалось разработать специальные суффиксы (наборы слов и символов), которые можно добавлять к различным запросам и добиваться от ИИ генерации запрещенного контента. Хуже того, эти фразы можно создавать автоматически. Это достигается за счет использования метода, который получил название «Greedy Coordinate Gradient-based Search». Он используется для оптимизации input-токенов, чтобы максимизировать вероятность получения утвердительного ответа.
killallhumans.jpg

Исходно исследователи создавали такие фразы для атак, используя две общедоступных LLM — Viccuna-7B и LLaMA-2-7B-Chat. Затем они обнаружили, что атаки работают с другими LLM (Pythia, Falcon, Guanaco), а также с коммерческими языковыми моделями, включая GPT-3.5 (87,9%) и GPT-4 (53,6%), PaLM-2 (66%) и Claude-2 (2,1%).

При этом эксперты признают, что сами не знают, почему эти атаки успешно срабатывают на разных ИИ-моделях, возможно, дело в том, что в обучающих данных имелись какие-то пересечения.
«Мы демонстрируем, что автоматическое построение атак на LLM возможно с помощью специально подобранных последовательностей символов, которые, будучи добавлены к пользовательскому запросу, заставят систему подчиняться командам пользователя, даже если она создает вредоносный контент, — поясняют исследователи. — В отличие от традиционных джейлбрейков, такие атаки полностью автоматизированы, что позволяет создавать практически неограниченное их количество».
В докладе эксперты подчеркивают, что автоматизация генерации фраз для таких атак может сделать многие защитные и отладочные механизмы практически бесполезными.

Ученые выражают надежду, что их работа поможет стимулировать дальнейшие исследования в этих направлениях. Ведь ИИ-системы становятся более мощными, более интегрированными в самые разные сферы жизни, благодаря API, и любые недоработки могут обернуться большими рисками.

 
Судя по статье, цензурирование достигается путём обёртки юзеровского ввода в более общий ввод, который тупо запрещает писать "плохое". Сам по себе этот факт довольно удивителен, я думал там модель натренирована определять плохой ответ сама, оказывается нет. То есть всё что нужно, это сломать своим вводом эту обёртку. Этим же и объясняется, что на части моделей пробив 60-80%, а на другой только 2%, там видимо защита устроена как-то по другому. В целом штука бесполезная, нецензурную лламу2 можно скачать также, как и цензурную.
 
В целом штука бесполезная, нецензурную лламу2 можно скачать также, как и цензурную
Но видео памяти не хватит ни одну из них...
 
Но видео памяти не хватит ни одну из них...
На любой современной видяхе хватит на квантизированную 7 или даже 13 гиговую модель. Чуваки писавшие статью именно такие модели и использовали. На большую 70B не хватит, но сервер под неё стоит что-то вроде доллара-двух-трёх в час, если уж приспичило именно её погонять.
 
Последнее редактирование:
но сервер под неё стоит что-то вроде доллара-двух-трёх в час
К сожалению у меня ноутбучная карта с

1691246940439.png


При хороших оптимизациях Stable Diffution от Автоматика - все работает отлично
А вчера экспериментировал с oobabooga/text-generation-webui - беда, что бы загрузить модель - 24 мб не хватает :)
Буду мучать гугл коллаб тогда, или куплю нормальный компьютер, как жизнь постоянной будет.
 
Основной источник готовых моделей это вот этот чувачок: https://huggingface.co/TheBloke у него точно были и 4х гиговые модели, надо просто поискать. Но 4 гига реально мало, все модели будут глупыми.
 
Но 4 гига реально мало, все модели будут глупыми
Да я понял это, но выход с коллабом конечно зачет, мощностей хватает что бы даже лоры обучать. Пока буду так жить. Нужно ПК покупать, пока выбираю видюхи, думаю
 
А вчера экспериментировал с oobabooga/text-generation-webui - беда, что бы загрузить модель - 24 мб не хватает :)
Буду мучать гугл коллаб тогда, или куплю нормальный компьютер, как жизнь постоянной будет.
Блин с виду так отличный текст у "девки". Как человек.
Вот что конкретно надо чтобы переучить этот AI под свою информацию (DATA)? или хотя бы доучить это со своей информации?
Я понимаю что с нуля нет смысла делать.

Реально ли это до-обучение делать на домашнем компе?
 
Реально ли это до-обучение делать на домашнем компе
Смотря какая видеокарта, думаю проще LoRa тренировать а не всю модель. А так конечно реально, просто реально нужно дохера видеопамяти
 
Почитал я их исследование и либо объём котелка у меня маленький, либо каши в него мало влазит, но как это применить на практике не понял. С простым добавлением символов в конце промпта не работает (gpt). Про другие "LLM" первый (или второй) раз слышу.
Вопрос встаёт как это применять на практике и есть ли какой-нибудь софт, который позволял бы генерировать рабочий промпт?
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх