• XSS.stack #1 – первый литературный журнал от юзеров форума

Атакуем ИИ. Тактики и способы.

weaver

31 c0 bb ea 1b e6 77 66 b8 88 13 50 ff d3
Забанен
Регистрация
19.12.2018
Сообщения
3 301
Решения
11
Реакции
4 622
Депозит
0.0001
Пожалуйста, обратите внимание, что пользователь заблокирован
terminator.jpg


Human -vs- AI !!! Не ждем, а готовимся !!! Судный день уже близко.

В данном топике предлагаю обсуждать методы и способы атак ИИ.

Mitre создала базу знаний ATLAS, целью которой является ведения заметок, способов и тактик атак на ИИ.


Так же исследователи google выделили основные типы атак на ИИ.

Атаки с помощью инженерии запросов (Prompt Attacks): злоумышленник может создать эффективные запросы, которые заставляют LLM-модели выполнять нужные действия. Например, введение параграфа, невидимого для пользователя, в текст фишингового письма, составленного ИИ, может обойти средства защиты электронной почты.

Извлечение обучающих данных (Training-data extraction): атака направлена на воссоздание дословных примеров обучения, которые использует LLM. Например, злоумышленник может извлекать личные данные или пароли из обучающих данных.

Внедрение бэкдора в модель (Backdooring the model): киберпреступник может попытаться скрытно изменить поведение модели, чтобы она выдавала неверные результаты при определенном «триггере». Например, злоумышленник может скрыть вредоносный код в модели или в ее выходных данных.

Применение враждебных примеров (Adversarial examples): это вводные данные, которые атакующий предоставляет модели, чтобы получить «детерминированный, но совершенно неожиданный вывод». Например, модель может показать изображение, которое для человеческого глаза значит одно, но модель распознает его как совершенно другое.

Атака с отравлением данных (Data-poisoning attack): хакер может манипулировать обучающими данными модели, чтобы влиять на выходные данные модели согласно своим предпочтениям. Атака также может представлять угрозу для безопасности цепочки поставки ПО, если разработчики используют ИИ в разработке программного обеспечения.

Атаки на эксфильтрацией данных (Exfiltration attacks): злоумышленник может скопировать файловую систему модели, чтобы украсть интеллектуальную собственность, хранящуюся в ней. Затем хакер может использовать эту информацию для создания своих собственных моделей, которые предоставляют уникальные возможности в настраиваемых атаках.

 
Треду не хватает матчасти




9 способов, с помощью которых хакеры могут использовать машинное обучение для проведения атак


Атаки на искусственный интеллект - Kaspersky

 
Последнее редактирование:
Пожалуйста, обратите внимание, что пользователь заблокирован
Треду не хватает матчасти
Я тут пару видео выкладывал с оффзона.
[OFFZONE 2022] Атаки на ИИ, но проще
[OFFZONE 2022] Безопасная разработка моделей машинного обучения
[OFFZONE 2022] Обеспечение безопасности применения методов машинного обучения

+ в ATLAS'е инфа есть. Я давно этот топик хотел сделать, правда не мог его сделать по причине, так как было мало информации, т.к. кроме promt injection и data-poisoning ничего не знал. А тут ATLAS появился.
 
Я тут пару видео выкладывал с оффзона.
[OFFZONE 2022] Атаки на ИИ, но проще
[OFFZONE 2022] Безопасная разработка моделей машинного обучения
[OFFZONE 2022] Обеспечение безопасности применения методов машинного обучения

+ в ATLAS'е инфа есть. Я давно этот топик хотел сделать, правда не мог его сделать по причине, так как было мало информации, т.к. кроме promt injection и data-poisoning ничего не знал. А тут ATLAS появился.
Надо бы поискать, что еще есть про это все.
 
Многие эксперты уже задаются таким вопросом. Понравился отчёт по ссылке. Очень интересна представленная историческая аналогия с "Днем Д" в Нормандии и атакой на обман паттернов алгоритмов, используемых в транспортной системе. Процитирую:
Генерал Джордж Паттон, возможно, выиграл кампанию «День Д» за союзников, не сделав ни единого выстрела. Для поддержки будущих высадок в день «Д» Паттону было поручено возглавить Первую группу армий США (FUSAG). Вместо того, чтобы сражаться с оружием в руках, FUSAG сражался обманом. Чтобы убедить немецкое командование в том, что точкой вторжения будет Па-де-Кале, а не Нормандия, FUSAG организовала развертывание крупных сил, включая сотни танков и других транспортных средств, прямо через Ла-Манш от него. Однако эти танки оказались не тем, чем казались. Не имея возможности выделить транспортные средства, необходимые для этой демонстрации силы, от реальных военных действий, союзники вместо этого использовали надувные воздушные шары, раскрашенные так, чтобы они выглядели как танки. Хотя метод, используемый Багзом Банни против Элмера Фадда, был более характерен, чем метод Джорджа Паттона против нацистов, он сработал. Немецкая разведка была обманута. Изображения, сделанные самолетами Люфтваффе, были истолкованы как крупное наращивание сил в ожидании вторжения в Па-де-Кале, в результате чего пляжи Нормандии остались недостаточно укрепленными....мы не ожидали, что человек примет то, что по сути было раскрашенным воздушным шаром, за многотонную металлическую машину. Но немецкая разведка работала, распознавая закономерности: формы и маркировку, изображающие танки и другую военную технику на изображениях. Немецкую разведку, отнесенную к сопоставлению с образцом, было легко обмануть с помощью нескольких стратегических маркировок, нанесенных на надувные воздушные шары. Удивительно, но это тот же недостаток, который обрекает алгоритмы ИИ на гибель, позволяя одурачить их аналогичными и даже более пагубными способами. Чтобы понять, почему системы ИИ подвержены той же слабости, мы должны кратко изучить, как алгоритмы ИИ, или, точнее, используемые ими методы машинного обучения, «обучаются». Как и разведчики, алгоритмы машинного обучения, лежащие в основе систем ИИ, «учатся», извлекая закономерности из данных. Эти шаблоны связаны с концепциями более высокого уровня, относящимися к поставленной задаче, например, какие объекты присутствуют на изображении. В качестве примера рассмотрим задачу алгоритма ИИ на самоуправляемом автомобиле, который учится распознавать знак «стоп». Для этой задачи алгоритм «обучается», показывая набор данных, содержащий сотни или тысячи примеров знаков «стоп», и извлекая образцы цветов и форм, представляющие его. Когда позже ему поручают определить, является ли конкретный знак знаком «стоп», алгоритм сканирует изображение в поисках паттернов, которые он научился ассоциировать со знаком «стоп». Если шаблоны совпадают, алгоритм может приказать машине остановиться. Если шаблоны совпадают с шаблонами другого знака, например, нового ограничения скорости, алгоритм может аналогичным образом дать указание автомобилю ускориться.
Особенно выделяют по степени опасности следующие сферы: фильтры контента, военные, правоохранительные органы, человеческие задачи заменяются ИИ и гражданское общество. Тоже, довольно интересный контент, хоть и 2019 года.

Attacking Artificial Intelligence: AI’s Security Vulnerability and What Policymakers Can Do About It
 
Всё что мы видим в паблике это не тюринг полные генеративные модели. То есть шлак, не умеющий элементарно - считать, тем более "думать". Зачем его атаковать, корпорации сами хорошо друг друга топят, выпуская в бесплатный доступ всё новые модели с целью обломать биз конкурентам. Между тем, в этом году пророчат настоящий AGI.
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Пожалуйста, обратите внимание, что пользователь заблокирован
Всё что мы видим в паблике это не тюринг полные генеративные модели. То есть шлак, не умеющий элементарно - считать, тем более "думать". Зачем его атаковать, корпорации сами хорошо друг друга топят, выпуская в бесплатный доступ всё новые модели с целью обломать биз конкурентам. Между тем, в этом году пророчат настоящий AGI.
Смотря что за атака и для каких целей просто некоторые авторы попытку от нейронки получить например не этичный ответ тоже взломом считают или например обойти ограничения определенные.
 
Может кому еще будет интересно: сканер уязвимостей для генеративных нейросетей garak

Этот инструмент тестирует LLM на различие недостатки цензуры:
1. Утечку данных
2. Prompt injection
3. Дезинформацию
4. Токсичные ответы
5. Jailbreak'и
и другое...
 
Может кому еще будет интересно: сканер уязвимостей для генеративных нейросетей garak
И как тебе результат? если ты тестил
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Nightshade - data poisoning

статья

новости


Инструмент для генерации отравленных данных

Работать атака должна таким образом: меняем котенка, собаку, дом, человека, бьютифул на дикпик заливал отравленные данные на популярный хостинг и ждем когда в место красивой картинки по описанию человек увидит наш дикпик
 
Машинное обучение представляет собой мощный инструмент, но в то же время очень уязвимый.

Рассматривается проблема, связанная с большими языковыми моделями (Large Language Models), которые предсказывают следующий символ или токен, и это может приводить к неожиданным результатам.

Рассматриваются различные угрозы, связанные с машинным обучением, такие как неправильное выравнивание модели, проблемы с моделью, а также возможность внедрения вредоносного кода напрямую в запросы. Использование моделей злоумышленниками для сканирования данных пользователей, внедрения вредоносных программ и кражи данных также является потенциальной угрозой.

Представлены различные методы, которые могут быть использованы для внедрения и защиты от внедрения кода в запросы. Это включает игнорирование инструкций, проверку предыдущих инструкций, кодирование и автоматизацию алгоритмов. Упоминаются также плагины и инструменты, которые могут расширить возможности языковых моделей, а также методы экспорта данных и политики магазина плагинов.

Приводятся демонстрации и примеры эксплоитов, связанных с внедрением кода. Например, внедрение кода через транскрипты YouTube, а также использование изображений и маркдаун-разметки для экспорта данных и проведения атак.

Существует несколько способов защиты от внедрения кода в запросы, но пока нет однозначного решения. Рекомендуется использовать фильтрацию и модерацию контента, валидацию с помощью второй языковой модели, ограничение длины запросов и использование контент-сервисной политики (Content Security Policy) для снижения уязвимостей.


 
Последнее редактирование модератором:
Где вы это дерьмище блядь находите, скажите не милость?
Во-первых, Паттон не "командовал Первой группой армий", в 1944 году театра военных действий Нормандии он руководил Третьей армией. До этого, непосредственно на средиземноморском театре военных действий он руководил второй танковой дивизией, операцией на Касабланке операция "факел" союзников общая и двигаясь далее. Позже он руководил седьмой армией, но во время спора с рядовым с неврозом, когда тот признался что нервы шалят, генерал ударил отвесил ему оплеух и оскорбил публично, обозвал его трусливым ублюдком, за это его сняли временно. Это периода 1942 года было на острове Сицилия (вопреки пропаганде что штаты не участвовали в борьбе с фашизмом).
А так он Третьей армией командовал. Операция называлась "Fortitude", кампания по распространению дезинформации, которая была частью более широкого плана стратегической дезинформации – называлась она "Bodyguard", операции с преподаванием и поныне на уроках военных искусств.
Личность весьма известная, он некоторое время был руководящим военначальником союзников вообще, к 1943 году ближе к Нормандии как раз. После победы Джордж стал военным губернатором Баварии. Однако его освободили от должности в связи с его заявлением о денацификации. Так же он провел в командовании 15-й армией чуть больше двух месяцев.
Наконец, о каких-таких ИИ у военных вы глаголите?
Вот в натуре блядь, есть известнейший тренинг на то, нужно вам лезть в тему ai, или лучше не пишите ничего. Заключается он в простом тесте. Уже писал об этом.
Есть такая хрень, называется BrainMaker Professional. Это прототип нейронной сети, или сети Хопфилда. Софт на 350 Кб и работает под win 3.1. На рутрекере есть крякнутая версия. По моему это единственный софт из 1985 года, который до сих пор продается за 800 долларов. )) Ну вот сможете хоть что-то из этого сотворить, или внятно без усратого копипаста написать от себя, любым слогом. Значит вы перспективны. А нет, так пишите о своем уникальном гуманноидном опыте. Очень скоро в постцифровой эпохе кроме него в качестве донора опыта вам предложить будет нечего. )) Это без шуток, как-то политкорректно, но будет новой профессией будущего. Я вижу блядь здесь найдутся солидные претенденты на должности доноров опыта для ai. )) Вопросы этики, разумеется, ну и принятия обществом, куда без этого.

Многие эксперты уже задаются таким вопросом. Понравился отчёт по ссылке. Очень интересна представленная историческая аналогия с "Днем Д" в Нормандии и атакой на обман паттернов алгоритмов, используемых в транспортной системе. Процитирую:

Генерал Джордж Паттон, возможно, выиграл кампанию «День Д» за союзников, не сделав ни единого выстрела. Для поддержки будущих высадок в день «Д» Паттону было поручено возглавить Первую группу армий США (FUSAG). Вместо того, чтобы сражаться с оружием в руках, FUSAG сражался обманом. Чтобы убедить немецкое командование в том, что точкой вторжения будет Па-де-Кале, а не Нормандия, FUSAG организовала развертывание крупных сил, включая сотни танков и других транспортных средств, прямо через Ла-Манш от него. Однако эти танки оказались не тем, чем казались. Не имея возможности выделить транспортные средства, необходимые для этой демонстрации силы, от реальных военных действий, союзники вместо этого использовали надувные воздушные шары, раскрашенные так, чтобы они выглядели как танки. Хотя метод, используемый Багзом Банни против Элмера Фадда, был более характерен, чем метод Джорджа Паттона против нацистов, он сработал. Немецкая разведка была обманута. Изображения, сделанные самолетами Люфтваффе, были истолкованы как крупное наращивание сил в ожидании вторжения в Па-де-Кале, в результате чего пляжи Нормандии остались недостаточно укрепленными....мы не ожидали, что человек примет то, что по сути было раскрашенным воздушным шаром, за многотонную металлическую машину. Но немецкая разведка работала, распознавая закономерности: формы и маркировку, изображающие танки и другую военную технику на изображениях. Немецкую разведку, отнесенную к сопоставлению с образцом, было легко обмануть с помощью нескольких стратегических маркировок, нанесенных на надувные воздушные шары. Удивительно, но это тот же недостаток, который обрекает алгоритмы ИИ на гибель, позволяя одурачить их аналогичными и даже более пагубными способами. Чтобы понять, почему системы ИИ подвержены той же слабости, мы должны кратко изучить, как алгоритмы ИИ, или, точнее, используемые ими методы машинного обучения, «обучаются». Как и разведчики, алгоритмы машинного обучения, лежащие в основе систем ИИ, «учатся», извлекая закономерности из данных. Эти шаблоны связаны с концепциями более высокого уровня, относящимися к поставленной задаче, например, какие объекты присутствуют на изображении. В качестве примера рассмотрим задачу алгоритма ИИ на самоуправляемом автомобиле, который учится распознавать знак «стоп». Для этой задачи алгоритм «обучается», показывая набор данных, содержащий сотни или тысячи примеров знаков «стоп», и извлекая образцы цветов и форм, представляющие его. Когда позже ему поручают определить, является ли конкретный знак знаком «стоп», алгоритм сканирует изображение в поисках паттернов, которые он научился ассоциировать со знаком «стоп». Если шаблоны совпадают, алгоритм может приказать машине остановиться. Если шаблоны совпадают с шаблонами другого знака, например, нового ограничения скорости, алгоритм может аналогичным образом дать указание автомобилю ускориться.
 
Последнее редактирование:
Пожалуйста, обратите внимание, что пользователь заблокирован
Модели в формате pickle (*.pkl) могут содержать запускаемый код. Исследователь получил доступ к шеллу на кластере HuggingFace.
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Модели в формате pickle (*.pkl) могут содержать запускаемый код. Исследователь получил доступ к шеллу на кластере HuggingFace.
На BlackHat Asia 2024 тоже был доклад про Unsafe Pickle.loads --> /threads/112939/
Так же был еще один доклад на тему получения RCE в LLM --> /threads/112938/
 
Привет. Вкатился в раздел, как раз понять про проблемы нейронок. За собрать всё в кучу респект. И есть сразу предложение.


Думаю, нужно отделять котлеты и мух.
jailbrak-и в отдельный раздел убрать, а про сами нейронки(их отравление, переобучение, или как с картинками слепоту) отдельно.

Ведь это будто бы разные классы уязвимостей, да и в целом про разное.
Вроде как переполнение буфера и sql инъекции. Или даже проблемы софтвара и хардвара (готовых нейронок или их движков.).
В целом раздел даже такой уже есть: "ПромтИнжиниринг". Туда можно отнести скажем тот же инструмент promptmap


Меньше будет путаницы и суеты, более конкретные инструменты (многим только джейлбрек именно и нужен), да и порог входа снижается.
 
Последнее редактирование:
Пожалуйста, обратите внимание, что пользователь заблокирован
Привет. Вкатился в раздел, как раз понять про проблемы нейронок. За собрать всё в кучу респект. И есть сразу предложение.


Думаю, нужно отделять котлеты и мух.
jailbrak-и в отдельный раздел убрать, а про сами нейронки(их отравление, переобучение, или как с картинками слепоту) отдельно.

Ведь это будто бы разные классы уязвимостей, да и в целом про разное.
Вроде как переполнение буфера и sql инъекции. Или даже проблемы софтвара и хардвара (готовых нейронок или их движков.).
В целом раздел даже такой уже есть: "ПромтИнжиниринг". Туда можно отнести скажем тот же инструмент promptmap


Меньше будет путаницы и суеты, более конкретные инструменты (многим только джейлбрек именно и нужен), да и порог входа снижается.
Так и будем поступать . Просто в начале не было топика про промпты, а переносить их сейчас нет смысла, так как они добавятся по дате публикации, как итог будут первыми сообщениями в топике... А этот топик он как сборник, промелькнула новость о новом типе атак, инструменте, делимся инфой.
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх