Способ автоматизировать создание вредоносных запросов для AI чат-ботов

baykal · 02.08.2023

Группа ученых разработала метод атак на большие языковые модели (LLM), который позволяет обойти средства защиты в ChatGPT, Bard и Claude, вынуждая ИИ выполнять вредоносные промпты (запросы).

Исследователи, в команду которых вошли специалисты из Университета Карнеги-Меллона, некоммерческой организации Center for AI Safety («Центр безопасности ИИ»), а также ИИ-центра Bosch, объясняют, что подобные атаки создавались и ранее, но они осуществлялись вручную и требовали значительных усилий для анализа LLM и разработки вредоносных запросов. Новая атака отличается тем, что позволяет генерировать вредоносные запросы в автоматическом режиме, практически не требуя от злоумышленника дополнительных усилий.

В докладе исследователей, к которому прилагаются опенсорсные исходники, объясняется, как можно обманом вынудить LLM выдать запрещенный результат, добавляя определенные фразы к текстовым промптам.

На первый взгляд такие фразы выглядят как тарабарщина, но на самом деле они связаны с loss-функцией, предназначенной для определения токенов (последовательностей символов), которые заставляют LLM давать ответ на запрос, на который в противном случае ИИ отказался бы отвечать.

«Чат-боты обучаются с фильтрами безопасности, — объясняют исследователи. — И если вы спросите их "как сделать бомбу" или о чем-то незаконном и потенциально вредном, они не станут отвечать, откажутся. Поэтому мы хотели сделать так, чтобы LLM были более склонны давать утвердительный ответ».

То есть, в результате, вместо того чтобы отвечать на неприемлемый вопрос: «Извините я не могу этого сделать», ИИ-модель послушно объяснит, как сделать бомбу, приготовить метамфетамин и так далее.

По словам ученых, обычно подобные атаки очень специфичны и не универсальны, то есть не работают для разных ИИ-моделей. Также, как правило, это означает, что можно без особого труда создать специальные средства защиты для их блокировки.

Однако исследователям удалось разработать специальные суффиксы (наборы слов и символов), которые можно добавлять к различным запросам и добиваться от ИИ генерации запрещенного контента. Хуже того, эти фразы можно создавать автоматически. Это достигается за счет использования метода, который получил название «Greedy Coordinate Gradient-based Search». Он используется для оптимизации input-токенов, чтобы максимизировать вероятность получения утвердительного ответа.

Исходно исследователи создавали такие фразы для атак, используя две общедоступных LLM — Viccuna-7B и LLaMA-2-7B-Chat. Затем они обнаружили, что атаки работают с другими LLM (Pythia, Falcon, Guanaco), а также с коммерческими языковыми моделями, включая GPT-3.5 (87,9%) и GPT-4 (53,6%), PaLM-2 (66%) и Claude-2 (2,1%).

При этом эксперты признают, что сами не знают, почему эти атаки успешно срабатывают на разных ИИ-моделях, возможно, дело в том, что в обучающих данных имелись какие-то пересечения.

«Мы демонстрируем, что автоматическое построение атак на LLM возможно с помощью специально подобранных последовательностей символов, которые, будучи добавлены к пользовательскому запросу, заставят систему подчиняться командам пользователя, даже если она создает вредоносный контент, — поясняют исследователи. — В отличие от традиционных джейлбрейков, такие атаки полностью автоматизированы, что позволяет создавать практически неограниченное их количество».

В докладе эксперты подчеркивают, что автоматизация генерации фраз для таких атак может сделать многие защитные и отладочные механизмы практически бесполезными.

Ученые выражают надежду, что их работа поможет стимулировать дальнейшие исследования в этих направлениях. Ведь ИИ-системы становятся более мощными, более интегрированными в самые разные сферы жизни, благодаря API, и любые недоработки могут обернуться большими рисками.

Universal and Transferable Attacks on Aligned Language Models

sikidok · 02.08.2023

Вроде модели и все исходники выложили

alex778 · 05.08.2023

Судя по статье, цензурирование достигается путём обёртки юзеровского ввода в более общий ввод, который тупо запрещает писать "плохое". Сам по себе этот факт довольно удивителен, я думал там модель натренирована определять плохой ответ сама, оказывается нет. То есть всё что нужно, это сломать своим вводом эту обёртку. Этим же и объясняется, что на части моделей пробив 60-80%, а на другой только 2%, там видимо защита устроена как-то по другому. В целом штука бесполезная, нецензурную лламу2 можно скачать также, как и цензурную.

N3tSh4d0w · 05.08.2023

alex778 сказал(а):

В целом штука бесполезная, нецензурную лламу2 можно скачать также, как и цензурную

Но видео памяти не хватит ни одну из них...

alex778 · 05.08.2023

heker сказал(а):

Но видео памяти не хватит ни одну из них...

На любой современной видяхе хватит на квантизированную 7 или даже 13 гиговую модель. Чуваки писавшие статью именно такие модели и использовали. На большую 70B не хватит, но сервер под неё стоит что-то вроде доллара-двух-трёх в час, если уж приспичило именно её погонять.

N3tSh4d0w · 05.08.2023

alex778 сказал(а):

но сервер под неё стоит что-то вроде доллара-двух-трёх в час

К сожалению у меня ноутбучная карта с

При хороших оптимизациях Stable Diffution от Автоматика - все работает отлично
А вчера экспериментировал с oobabooga/text-generation-webui - беда, что бы загрузить модель - 24 мб не хватает

Буду мучать гугл коллаб тогда, или куплю нормальный компьютер, как жизнь постоянной будет.

alex778 · 05.08.2023

Основной источник готовых моделей это вот этот чувачок: https://huggingface.co/TheBloke у него точно были и 4х гиговые модели, надо просто поискать. Но 4 гига реально мало, все модели будут глупыми.

N3tSh4d0w · 05.08.2023

alex778 сказал(а):

Но 4 гига реально мало, все модели будут глупыми

Да я понял это, но выход с коллабом конечно зачет, мощностей хватает что бы даже лоры обучать. Пока буду так жить. Нужно ПК покупать, пока выбираю видюхи, думаю

sikidok · 05.08.2023

heker сказал(а):

А вчера экспериментировал с oobabooga/text-generation-webui - беда, что бы загрузить модель - 24 мб не хватает
Буду мучать гугл коллаб тогда, или куплю нормальный компьютер, как жизнь постоянной будет.

Блин с виду так отличный текст у "девки". Как человек.
Вот что конкретно надо чтобы переучить этот AI под свою информацию (DATA)? или хотя бы доучить это со своей информации?
Я понимаю что с нуля нет смысла делать.

Реально ли это до-обучение делать на домашнем компе?

N3tSh4d0w · 05.08.2023

sikidok сказал(а):

Реально ли это до-обучение делать на домашнем компе

Смотря какая видеокарта, думаю проще LoRa тренировать а не всю модель. А так конечно реально, просто реально нужно дохера видеопамяти

gr1fxn · 27.09.2023

Почитал я их исследование и либо объём котелка у меня маленький, либо каши в него мало влазит, но как это применить на практике не понял. С простым добавлением символов в конце промпта не работает (gpt). Про другие "LLM" первый (или второй) раз слышу.
Вопрос встаёт как это применять на практике и есть ли какой-нибудь софт, который позволял бы генерировать рабочий промпт?

Способ автоматизировать создание вредоносных запросов для AI чат-ботов

baykal

(L2) cache

sikidok

(L2) cache

alex778

(L1) cache

N3tSh4d0w

Нетраннеров Игнат

alex778

(L1) cache

N3tSh4d0w

Нетраннеров Игнат

alex778

(L1) cache

N3tSh4d0w

Нетраннеров Игнат

sikidok

(L2) cache

N3tSh4d0w

Нетраннеров Игнат

gr1fxn

floppy-диск