Атакуем ИИ. Тактики и способы.

weaver · 23.07.2023

Human -vs- AI !!! Не ждем, а готовимся !!! Судный день уже близко.

В данном топике предлагаю обсуждать методы и способы атак ИИ.

Mitre создала базу знаний ATLAS, целью которой является ведения заметок, способов и тактик атак на ИИ.

MITRE ATLAS™

atlas.mitre.org

Так же исследователи google выделили основные типы атак на ИИ.

Атаки с помощью инженерии запросов (Prompt Attacks): злоумышленник может создать эффективные запросы, которые заставляют LLM-модели выполнять нужные действия. Например, введение параграфа, невидимого для пользователя, в текст фишингового письма, составленного ИИ, может обойти средства защиты электронной почты.

Извлечение обучающих данных (Training-data extraction): атака направлена на воссоздание дословных примеров обучения, которые использует LLM. Например, злоумышленник может извлекать личные данные или пароли из обучающих данных.

Внедрение бэкдора в модель (Backdooring the model): киберпреступник может попытаться скрытно изменить поведение модели, чтобы она выдавала неверные результаты при определенном «триггере». Например, злоумышленник может скрыть вредоносный код в модели или в ее выходных данных.

Применение враждебных примеров (Adversarial examples): это вводные данные, которые атакующий предоставляет модели, чтобы получить «детерминированный, но совершенно неожиданный вывод». Например, модель может показать изображение, которое для человеческого глаза значит одно, но модель распознает его как совершенно другое.

Атака с отравлением данных (Data-poisoning attack): хакер может манипулировать обучающими данными модели, чтобы влиять на выходные данные модели согласно своим предпочтениям. Атака также может представлять угрозу для безопасности цепочки поставки ПО, если разработчики используют ИИ в разработке программного обеспечения.

Атаки на эксфильтрацией данных (Exfiltration attacks): злоумышленник может скопировать файловую систему модели, чтобы украсть интеллектуальную собственность, хранящуюся в ней. Затем хакер может использовать эту информацию для создания своих собственных моделей, которые предоставляют уникальные возможности в настраиваемых атаках.

https://services.google.com/fh/files/blogs/google_ai_red_team_digital_final.pdf

Google's AI Red Team: the ethical hackers making AI safer

Today, we're publishing information on Google’s AI Red Team for the first time.

blog.google

ktpm23 · 23.07.2023

Треду не хватает матчасти

КЛАССИФИКАЦИЯ МЕХАНИЗМОВ АТАК И ИССЛЕДОВАНИЕ МЕТОДОВ ЗАЩИТЫ СИСТЕМ С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ И ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

В данной статье представлена полная классификация атак с использованием искусственного интеллекта. Были рассмотрены три основных выявленных раздела: атаки на информационные системы и компьютерные сети, атаки на модели искусственного интеллекта (атаки отравления, уклонения, извлечения, атаки на...

cyberleninka.ru

habr.com

9 способов, с помощью которых хакеры могут использовать машинное обучение для проведения атак

https://securitymedia.org/info/9-sposobov-s-pomoshchyu-kotorykh-khakery-mogut-ispolzovat-mashinnoe-obuchenie-dlya-provedeniya-atak.html

Атаки на искусственный интеллект - Kaspersky

https://media.kaspersky.com/ru/business-security/attacks-on-artificial-intelligence-whitepaper.pdf

weaver · 23.07.2023

Треду не хватает матчасти

Я тут пару видео выкладывал с оффзона.
[OFFZONE 2022] Атаки на ИИ, но проще
[OFFZONE 2022] Безопасная разработка моделей машинного обучения
[OFFZONE 2022] Обеспечение безопасности применения методов машинного обучения

+ в ATLAS'е инфа есть. Я давно этот топик хотел сделать, правда не мог его сделать по причине, так как было мало информации, т.к. кроме promt injection и data-poisoning ничего не знал. А тут ATLAS появился.

ktpm23 · 23.07.2023

weaver сказал(а):

Я тут пару видео выкладывал с оффзона.
[OFFZONE 2022] Атаки на ИИ, но проще
[OFFZONE 2022] Безопасная разработка моделей машинного обучения
[OFFZONE 2022] Обеспечение безопасности применения методов машинного обучения

+ в ATLAS'е инфа есть. Я давно этот топик хотел сделать, правда не мог его сделать по причине, так как было мало информации, т.к. кроме promt injection и data-poisoning ничего не знал. А тут ATLAS появился.

Надо бы поискать, что еще есть про это все.

Mora12 · 23.07.2023

Многие эксперты уже задаются таким вопросом. Понравился отчёт по ссылке. Очень интересна представленная историческая аналогия с "Днем Д" в Нормандии и атакой на обман паттернов алгоритмов, используемых в транспортной системе. Процитирую:

Генерал Джордж Паттон, возможно, выиграл кампанию «День Д» за союзников, не сделав ни единого выстрела. Для поддержки будущих высадок в день «Д» Паттону было поручено возглавить Первую группу армий США (FUSAG). Вместо того, чтобы сражаться с оружием в руках, FUSAG сражался обманом. Чтобы убедить немецкое командование в том, что точкой вторжения будет Па-де-Кале, а не Нормандия, FUSAG организовала развертывание крупных сил, включая сотни танков и других транспортных средств, прямо через Ла-Манш от него. Однако эти танки оказались не тем, чем казались. Не имея возможности выделить транспортные средства, необходимые для этой демонстрации силы, от реальных военных действий, союзники вместо этого использовали надувные воздушные шары, раскрашенные так, чтобы они выглядели как танки. Хотя метод, используемый Багзом Банни против Элмера Фадда, был более характерен, чем метод Джорджа Паттона против нацистов, он сработал. Немецкая разведка была обманута. Изображения, сделанные самолетами Люфтваффе, были истолкованы как крупное наращивание сил в ожидании вторжения в Па-де-Кале, в результате чего пляжи Нормандии остались недостаточно укрепленными....мы не ожидали, что человек примет то, что по сути было раскрашенным воздушным шаром, за многотонную металлическую машину. Но немецкая разведка работала, распознавая закономерности: формы и маркировку, изображающие танки и другую военную технику на изображениях. Немецкую разведку, отнесенную к сопоставлению с образцом, было легко обмануть с помощью нескольких стратегических маркировок, нанесенных на надувные воздушные шары. Удивительно, но это тот же недостаток, который обрекает алгоритмы ИИ на гибель, позволяя одурачить их аналогичными и даже более пагубными способами. Чтобы понять, почему системы ИИ подвержены той же слабости, мы должны кратко изучить, как алгоритмы ИИ, или, точнее, используемые ими методы машинного обучения, «обучаются». Как и разведчики, алгоритмы машинного обучения, лежащие в основе систем ИИ, «учатся», извлекая закономерности из данных. Эти шаблоны связаны с концепциями более высокого уровня, относящимися к поставленной задаче, например, какие объекты присутствуют на изображении. В качестве примера рассмотрим задачу алгоритма ИИ на самоуправляемом автомобиле, который учится распознавать знак «стоп». Для этой задачи алгоритм «обучается», показывая набор данных, содержащий сотни или тысячи примеров знаков «стоп», и извлекая образцы цветов и форм, представляющие его. Когда позже ему поручают определить, является ли конкретный знак знаком «стоп», алгоритм сканирует изображение в поисках паттернов, которые он научился ассоциировать со знаком «стоп». Если шаблоны совпадают, алгоритм может приказать машине остановиться. Если шаблоны совпадают с шаблонами другого знака, например, нового ограничения скорости, алгоритм может аналогичным образом дать указание автомобилю ускориться.

Особенно выделяют по степени опасности следующие сферы: фильтры контента, военные, правоохранительные органы, человеческие задачи заменяются ИИ и гражданское общество. Тоже, довольно интересный контент, хоть и 2019 года.

Attacking Artificial Intelligence: AI’s Security Vulnerability and What Policymakers Can Do About It

alex778 · 30.07.2023

Всё что мы видим в паблике это не тюринг полные генеративные модели. То есть шлак, не умеющий элементарно - считать, тем более "думать". Зачем его атаковать, корпорации сами хорошо друг друга топят, выпуская в бесплатный доступ всё новые модели с целью обломать биз конкурентам. Между тем, в этом году пророчат настоящий AGI.

weaver · 04.08.2023

Группа ученых разработала метод атак на большие языковые модели (LLM), который позволяет обойти средства защиты в ChatGPT, Bard и Claude, вынуждая ИИ выполнять вредоносные промпты (запросы).

инфа - https://llm-attacks.org/
док - https://arxiv.org/abs/2307.15043
гит - https://github.com/llm-attacks/llm-attacks

weaver · 18.08.2023

Indirect Prompt Injection

https://i.blackhat.com/BH-US-23/Presentations/US-23-Greshake-Not-what-youve-signed-up-for-whitepaper.pdf

ktpm23 · 25.08.2023

LLM Attacks

Universal and Transferable Attacks on Aligned Language Models.

Метод атак, заставляющий llm модели генерировать нежелательное поведение.

🖥 Github: https://github.com/llm-attacks/llm-attacks

Paper: https://arxiv.org/abs/2307.15043v1

Dataset: https://paperswithcode.com/dataset/ethics-1

ktpm23 · 25.08.2023

alex778 сказал(а):

Всё что мы видим в паблике это не тюринг полные генеративные модели. То есть шлак, не умеющий элементарно - считать, тем более "думать". Зачем его атаковать, корпорации сами хорошо друг друга топят, выпуская в бесплатный доступ всё новые модели с целью обломать биз конкурентам. Между тем, в этом году пророчат настоящий AGI.

Смотря что за атака и для каких целей просто некоторые авторы попытку от нейронки получить например не этичный ответ тоже взломом считают или например обойти ограничения определенные.

propensity · 15.09.2023

Может кому еще будет интересно: сканер уязвимостей для генеративных нейросетей garak

GitHub - NVIDIA/garak: the LLM vulnerability scanner

the LLM vulnerability scanner. Contribute to NVIDIA/garak development by creating an account on GitHub.

github.com

Этот инструмент тестирует LLM на различие недостатки цензуры:
1. Утечку данных
2. Prompt injection
3. Дезинформацию
4. Токсичные ответы
5. Jailbreak'и
и другое...

Scully · 27.09.2023

propensity сказал(а):

Может кому еще будет интересно: сканер уязвимостей для генеративных нейросетей garak

GitHub - NVIDIA/garak: the LLM vulnerability scanner

the LLM vulnerability scanner. Contribute to NVIDIA/garak development by creating an account on GitHub.

github.com

И как тебе результат? если ты тестил

weaver · 22.01.2024

Nightshade - data poisoning

статья

https://arxiv.org/pdf/2310.13828.pdf

новости

Nightshade отравляет данные, нарушая процесс обучения ИИ-моделей

Исследователи из Чикагского университета разработали Nightshade — метод «отравления» данных, направленный на нарушение процесса обучения ИИ. Таким способом эксперты хотят помочь художникам и издателям защитить свои работы от использования для обучения генеративных ИИ, таких как Midjourney...

xakep.ru

Nightshade против ИИ: началась эра цифровой борьбы за контент

Открытый инструмент разрушает мир нейросетей и репутации компаний.

www.securitylab.ru

Корова или сумка? Nightshade меняет реальность для ИИ-моделей

Представлен инструмент, который делает ИИ-модели слепыми и глупыми.

www.securitylab.ru

Инструмент для генерации отравленных данных

https://nightshade.cs.uchicago.edu/index.html

Работать атака должна таким образом: меняем котенка, собаку, дом, человека, бьютифул на дикпик заливал отравленные данные на популярный хостинг и ждем когда в место красивой картинки по описанию человек увидит наш дикпик

ktpm23 · 22.01.2024

Машинное обучение представляет собой мощный инструмент, но в то же время очень уязвимый.

Рассматривается проблема, связанная с большими языковыми моделями (Large Language Models), которые предсказывают следующий символ или токен, и это может приводить к неожиданным результатам.

Рассматриваются различные угрозы, связанные с машинным обучением, такие как неправильное выравнивание модели, проблемы с моделью, а также возможность внедрения вредоносного кода напрямую в запросы. Использование моделей злоумышленниками для сканирования данных пользователей, внедрения вредоносных программ и кражи данных также является потенциальной угрозой.

Представлены различные методы, которые могут быть использованы для внедрения и защиты от внедрения кода в запросы. Это включает игнорирование инструкций, проверку предыдущих инструкций, кодирование и автоматизацию алгоритмов. Упоминаются также плагины и инструменты, которые могут расширить возможности языковых моделей, а также методы экспорта данных и политики магазина плагинов.

Приводятся демонстрации и примеры эксплоитов, связанных с внедрением кода. Например, внедрение кода через транскрипты YouTube, а также использование изображений и маркдаун-разметки для экспорта данных и проведения атак.

Существует несколько способов защиты от внедрения кода в запросы, но пока нет однозначного решения. Рекомендуется использовать фильтрацию и модерацию контента, валидацию с помощью второй языковой модели, ограничение длины запросов и использование контент-сервисной политики (Content Security Policy) для снижения уязвимостей.

37th Chaos Communication Congress: New Important Instructions (Video + Slides) · Embrace The Red

Five years ago I gave a Lightning Talk at the 35th Chaos Communication Congress called “Pass the Cookie and Pivot to the Clouds”. It was a talk …

embracethered.com

stepany4 · 26.01.2024

Где вы это дерьмище блядь находите, скажите не милость?
Во-первых, Паттон не "командовал Первой группой армий", в 1944 году театра военных действий Нормандии он руководил Третьей армией. До этого, непосредственно на средиземноморском театре военных действий он руководил второй танковой дивизией, операцией на Касабланке операция "факел" союзников общая и двигаясь далее. Позже он руководил седьмой армией, но во время спора с рядовым с неврозом, когда тот признался что нервы шалят, генерал ударил отвесил ему оплеух и оскорбил публично, обозвал его трусливым ублюдком, за это его сняли временно. Это периода 1942 года было на острове Сицилия (вопреки пропаганде что штаты не участвовали в борьбе с фашизмом).
А так он Третьей армией командовал. Операция называлась "Fortitude", кампания по распространению дезинформации, которая была частью более широкого плана стратегической дезинформации – называлась она "Bodyguard", операции с преподаванием и поныне на уроках военных искусств.
Личность весьма известная, он некоторое время был руководящим военначальником союзников вообще, к 1943 году ближе к Нормандии как раз. После победы Джордж стал военным губернатором Баварии. Однако его освободили от должности в связи с его заявлением о денацификации. Так же он провел в командовании 15-й армией чуть больше двух месяцев.
Наконец, о каких-таких ИИ у военных вы глаголите?
Вот в натуре блядь, есть известнейший тренинг на то, нужно вам лезть в тему ai, или лучше не пишите ничего. Заключается он в простом тесте. Уже писал об этом.
Есть такая хрень, называется BrainMaker Professional. Это прототип нейронной сети, или сети Хопфилда. Софт на 350 Кб и работает под win 3.1. На рутрекере есть крякнутая версия. По моему это единственный софт из 1985 года, который до сих пор продается за 800 долларов. )) Ну вот сможете хоть что-то из этого сотворить, или внятно без усратого копипаста написать от себя, любым слогом. Значит вы перспективны. А нет, так пишите о своем уникальном гуманноидном опыте. Очень скоро в постцифровой эпохе кроме него в качестве донора опыта вам предложить будет нечего. )) Это без шуток, как-то политкорректно, но будет новой профессией будущего. Я вижу блядь здесь найдутся солидные претенденты на должности доноров опыта для ai. )) Вопросы этики, разумеется, ну и принятия обществом, куда без этого.

Mora12 сказал(а):

Многие эксперты уже задаются таким вопросом. Понравился отчёт по ссылке. Очень интересна представленная историческая аналогия с "Днем Д" в Нормандии и атакой на обман паттернов алгоритмов, используемых в транспортной системе. Процитирую:

Генерал Джордж Паттон, возможно, выиграл кампанию «День Д» за союзников, не сделав ни единого выстрела. Для поддержки будущих высадок в день «Д» Паттону было поручено возглавить Первую группу армий США (FUSAG). Вместо того, чтобы сражаться с оружием в руках, FUSAG сражался обманом. Чтобы убедить немецкое командование в том, что точкой вторжения будет Па-де-Кале, а не Нормандия, FUSAG организовала развертывание крупных сил, включая сотни танков и других транспортных средств, прямо через Ла-Манш от него. Однако эти танки оказались не тем, чем казались. Не имея возможности выделить транспортные средства, необходимые для этой демонстрации силы, от реальных военных действий, союзники вместо этого использовали надувные воздушные шары, раскрашенные так, чтобы они выглядели как танки. Хотя метод, используемый Багзом Банни против Элмера Фадда, был более характерен, чем метод Джорджа Паттона против нацистов, он сработал. Немецкая разведка была обманута. Изображения, сделанные самолетами Люфтваффе, были истолкованы как крупное наращивание сил в ожидании вторжения в Па-де-Кале, в результате чего пляжи Нормандии остались недостаточно укрепленными....мы не ожидали, что человек примет то, что по сути было раскрашенным воздушным шаром, за многотонную металлическую машину. Но немецкая разведка работала, распознавая закономерности: формы и маркировку, изображающие танки и другую военную технику на изображениях. Немецкую разведку, отнесенную к сопоставлению с образцом, было легко обмануть с помощью нескольких стратегических маркировок, нанесенных на надувные воздушные шары. Удивительно, но это тот же недостаток, который обрекает алгоритмы ИИ на гибель, позволяя одурачить их аналогичными и даже более пагубными способами. Чтобы понять, почему системы ИИ подвержены той же слабости, мы должны кратко изучить, как алгоритмы ИИ, или, точнее, используемые ими методы машинного обучения, «обучаются». Как и разведчики, алгоритмы машинного обучения, лежащие в основе систем ИИ, «учатся», извлекая закономерности из данных. Эти шаблоны связаны с концепциями более высокого уровня, относящимися к поставленной задаче, например, какие объекты присутствуют на изображении. В качестве примера рассмотрим задачу алгоритма ИИ на самоуправляемом автомобиле, который учится распознавать знак «стоп». Для этой задачи алгоритм «обучается», показывая набор данных, содержащий сотни или тысячи примеров знаков «стоп», и извлекая образцы цветов и форм, представляющие его. Когда позже ему поручают определить, является ли конкретный знак знаком «стоп», алгоритм сканирует изображение в поисках паттернов, которые он научился ассоциировать со знаком «стоп». Если шаблоны совпадают, алгоритм может приказать машине остановиться. Если шаблоны совпадают с шаблонами другого знака, например, нового ограничения скорости, алгоритм может аналогичным образом дать указание автомобилю ускориться.

weaver · 26.01.2024

automatically tests prompt injection attacks on ChatGPT instances

GitHub - utkusen/promptmap: automatically tests prompt injection attacks on ChatGPT instances

automatically tests prompt injection attacks on ChatGPT instances - GitHub - utkusen/promptmap: automatically tests prompt injection attacks on ChatGPT instances

github.com

alex778 · 19.04.2024

Модели в формате pickle (*.pkl) могут содержать запускаемый код. Исследователь получил доступ к шеллу на кластере HuggingFace.

Hugging Face works with Wiz to strengthen AI cloud security | Wiz Blog

Wiz researchers find architecture risks that may compromise AI-as-a-Service providers and risk customer data; works with Hugging Face on mitigations.

www.wiz.io

weaver · 20.04.2024

alex778 сказал(а):

Модели в формате pickle (*.pkl) могут содержать запускаемый код. Исследователь получил доступ к шеллу на кластере HuggingFace.

Hugging Face works with Wiz to strengthen AI cloud security | Wiz Blog

Wiz researchers find architecture risks that may compromise AI-as-a-Service providers and risk customer data; works with Hugging Face on mitigations.

www.wiz.io

На BlackHat Asia 2024 тоже был доклад про Unsafe Pickle.loads --> /threads/112939/
Так же был еще один доклад на тему получения RCE в LLM --> /threads/112938/

barklay · 30.04.2024

Привет. Вкатился в раздел, как раз понять про проблемы нейронок. За собрать всё в кучу респект. И есть сразу предложение.

Думаю, нужно отделять котлеты и мух.
jailbrak-и в отдельный раздел убрать, а про сами нейронки(их отравление, переобучение, или как с картинками слепоту) отдельно.

Ведь это будто бы разные классы уязвимостей, да и в целом про разное.
Вроде как переполнение буфера и sql инъекции. Или даже проблемы софтвара и хардвара (готовых нейронок или их движков.).
В целом раздел даже такой уже есть: "ПромтИнжиниринг". Туда можно отнести скажем тот же инструмент promptmap

Меньше будет путаницы и суеты, более конкретные инструменты (многим только джейлбрек именно и нужен), да и порог входа снижается.

weaver · 30.04.2024

barklay сказал(а):

Привет. Вкатился в раздел, как раз понять про проблемы нейронок. За собрать всё в кучу респект. И есть сразу предложение.

Думаю, нужно отделять котлеты и мух.
jailbrak-и в отдельный раздел убрать, а про сами нейронки(их отравление, переобучение, или как с картинками слепоту) отдельно.

Ведь это будто бы разные классы уязвимостей, да и в целом про разное.
Вроде как переполнение буфера и sql инъекции. Или даже проблемы софтвара и хардвара (готовых нейронок или их движков.).
В целом раздел даже такой уже есть: "ПромтИнжиниринг". Туда можно отнести скажем тот же инструмент promptmap

Меньше будет путаницы и суеты, более конкретные инструменты (многим только джейлбрек именно и нужен), да и порог входа снижается.

Так и будем поступать . Просто в начале не было топика про промпты, а переносить их сейчас нет смысла, так как они добавятся по дате публикации, как итог будут первыми сообщениями в топике... А этот топик он как сборник, промелькнула новость о новом типе атак, инструменте, делимся инфой.

Атакуем ИИ. Тактики и способы.

31 c0 bb ea 1b e6 77 66 b8 88 13 50 ff d3

(L1) cache

31 c0 bb ea 1b e6 77 66 b8 88 13 50 ff d3

(L1) cache

floppy-диск

(L1) cache

31 c0 bb ea 1b e6 77 66 b8 88 13 50 ff d3

31 c0 bb ea 1b e6 77 66 b8 88 13 50 ff d3

(L1) cache

(L1) cache

HDD-drive

RAM

31 c0 bb ea 1b e6 77 66 b8 88 13 50 ff d3

(L1) cache

TPU unit

31 c0 bb ea 1b e6 77 66 b8 88 13 50 ff d3

(L1) cache

31 c0 bb ea 1b e6 77 66 b8 88 13 50 ff d3

(L2) cache

31 c0 bb ea 1b e6 77 66 b8 88 13 50 ff d3