• XSS.stack #1 – первый литературный журнал от юзеров форума

Статик детект по изображению вредоноса

w00du

ripper
КИДАЛА
Регистрация
21.10.2019
Сообщения
247
Реакции
77
Пожалуйста, обратите внимание, что пользователь заблокирован
Компании Microsoft и Intel, руководствуясь поговоркой "лучше один раз увидеть, чем сто раз услышать", разрабатывают (https://securityboulevard.com/2020/...ep-learning-for-innovative-malware-detection/) технологию распознавания вредоносного кода на основе нейросети путем преобразования двоичных файлов в изображения.

Исследователи назвали этот проект STAMINA - STAtic Malware-as-Image Network Analysis. Код преобразуется в двухмерное изображение в градациях серого, а после анализируется специально обученной нейросетью. Для ее обучения были использованы более двух миллионов образцов вредоносов. Разработчики STAMINA заявляют, что достигли точности в 99,07% в обнаружении и классификации образцов вредоносного ПО.

С другой стороны, в таком методе выявления malware существуют и недостатки, свойственные системам распознания на основе машинного обучения. Во-первых, механизмы распознавания зачастую необъяснимы с точки зрения человеческой логики, по крайней мере, на первый взгляд. Во-вторых, STAMINA не сможет рассказать про функционал выявленного ПО, для этого нужен ручной анализ кода.

Тем не менее, звучит все это весьма многообещающе. STAMINA может служить первичным грубым фильтром, способным переваривать большие объемы данных. А уже далее будут подключаться эксперты для более тщательного исследования выявленных вредоносов.
 
Пожалуйста, обратите внимание, что пользователь заблокирован
технологию распознавания вредоносного кода на основе нейросети путем преобразования двоичных файлов в изображения.
Значит нужно взять картинку с Сашей Грей, где она берет в рот, преоброзовать в двоичный файл и лить инсталами. Наверное, ахереют
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Последнее редактирование:
Пожалуйста, обратите внимание, что пользователь заблокирован
вполне возможно, что она уже и юзается в дефе, и ml детекты именно от неё
Из-за этого твой крот rip
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Не хочу портить вам обсуждение, тем более, что вы уже на ровном месте успели разосраться, но в машинном обучении данные могут проходить много стадий обработки перед тем, как их непосредственно отдадут там нейронной сети или какому-то другому алгоритму. В данном случае картинка - это просто матрица с целыми числами от 0 до 255. Просто это позволило им упростить проектировку нейронной сети (видимо до этого часто работали с изображениями). Ничего понятного человеку вы на этих картинках не увидите (тем более Сашу Грей), для вас это будет выглядить, как рандомный набор пикселей градации серого. 255 оттенков малвари, если желаете. В контексте новостных статей это как бы красиво выглядит для людей, которые не шарят, поэтому они акцентируют внимание на том, что малварь преобразуется типа в картинку, больше ничего.

ЗЫ а как дизлайки ставить на форуме?
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Не хочу портить вам обсуждение, тем более, что вы уже на ровном месте успели разосраться, но в машинном обучении данные могут проходить много стадий обработки перед тем, как их непосредственно отдадут там нейронной сети или какому-то другому алгоритму. В данном случае картинка - это просто матрица с целыми числами от 0 до 255. Просто это позволило им упростить проектировку нейронной сети (видимо до этого часто работали с изображениями). Ничего понятного человеку вы на этих картинках не увидите (тем более Сашу Грей), для вас это будет выглядить, как рандомный набор пикселей градации серого. 255 оттенков малвари, если желаете. В контексте новостных статей это как бы красиво выглядит для людей, которые не шарят, поэтому они акцентируют внимание на том, что малварь преобразуется типа в картинку, больше ничего.

ЗЫ а как дизлайки ставить на форуме?
т.е. по оттенкам изображения фикисруют сигнатуру проги? Если какая-то последовотальеность оттенка совпадает, то вырабатывается сигнатура, а после уже детект? Ну у некоторых легетимных проги есть такие методы, которые у малварь есть. Не будет ли фолз позитив? А так, ИИ щас учится и учится. И если на то пошло, напишем мутатор-морфер по ИИ (семплами) :D И думаю, щас на сигнатурой не особо парится надо, имхо 500 руб криптором убирается. Я бы подумал, как обойти всякие сканеры памяти и тому подобное.

Наводишь на кнопку лайка и там высвечивается диз
 
Пожалуйста, обратите внимание, что пользователь заблокирован
т.е. по оттенкам изображения фикисруют сигнатуру проги? Если какая-то последовотальеность оттенка совпадает, то вырабатывается сигнатура, а после уже детект? Ну у некоторых легетимных проги есть такие методы, которые у малварь есть. Не будет ли фолз позитив? А так, ИИ щас учится и учится. И если на то пошло, напишем мутатор-морфер по ИИ (семплами)
Фолс позитив может быть всегда, и у нейронки и у эвристики. Проблема нейронок в том, что они хорошо определяют признаки, которые они уже 100500 раз видели, но плохо воспринимают то, что не видели ни разу.

Расценивай это не как картинку, а как матрицу M на N, состоящую из целых чисел от 0 до 255. Формально они взяли какие то фичи исполняемых файлов, там исполняемые коды, данные, таблицы импортов, энтропии секций и тд и преобразовали эти фичи в такую матрицу. За каким хером им надо было это делать - история умалчивает.

Не совсем понимаю, что значит "напишем мутатор по сорсам ии"? У нейронки нет сорсов, только синапсы, веса и тд, она образно черный ящик и сам ее создатель не особо понимает, чем она руководствуется, когда принимает решение.
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Расценивай это не как картинку, а как матрицу M на N, состоящую из целых чисел от 0 до 255. Формально они взяли какие то фичи исполняемых файлов, там исполняемые коды, данные, таблицы импортов, энтропии секций и тд и преобразовали эти фичи в такую матрицу. За каким хером им надо было это делать - история умалчивает.
Ааа, теперь понял в чем прикол, спасибо
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Фолс позитив может быть всегда, и у нейронки и у эвристики. Проблема нейронок в том, что они хорошо определяют признаки, которые они уже 100500 раз видели, но плохо воспринимают то, что не видели ни разу.

Расценивай это не как картинку, а как матрицу M на N, состоящую из целых чисел от 0 до 255. Формально они взяли какие то фичи исполняемых файлов, там исполняемые коды, данные, таблицы импортов, энтропии секций и тд и преобразовали эти фичи в такую матрицу. За каким хером им надо было это делать - история умалчивает.

Не совсем понимаю, что значит "напишем мутатор по сорсам ии"? У нейронки нет сорсов, только синапсы, веса и тд, она образно черный ящик и сам ее создатель не особо понимает, чем она руководствуется, когда принимает решение.
Есть идеи какие алгоритмы ml применять для морфинга, генерации уникальных семплов и вообще что об этом думаешь? есть ли шанс, что так же как челы из корпораций так и мы будем применять нейронку для обхода статик и динамик детектов в будущем( или уже сейчас)
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Например: на гитхабе видел проекто по метасплойту, нейронка сама отбирает какие модули/эксплойты вставлять и при этом обучается на входных данных. Так же видел умный XSS сканер, которым как мне кажется можно обходить waf/фильтры для предотвращения работы скриптов , он сам генерирует пайлоад, чем больше данных тем сканер умнее
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Есть идеи какие алгоритмы ml применять для морфинга, генерации уникальных семплов и вообще что об этом думаешь? есть ли шанс, что так же как челы из корпораций так и мы будем применять нейронку для обхода статик и динамик детектов в будущем( или уже сейчас)
Ну канеш есть, спрашиваешь. Например, недавно смотрел презентацию с ХакИнЗеБокс, где, судя по всему, этнические индусы предлагали для решения как раз этой конкретной проблемы использовать генеративно-состязательные нейронные сети. Если кратко и образно, то сначала создается нейронка, которая должна отличать малварь от не малвари (как например у господ из Майкрософт и Интел), она хорошо обучается на большом количестве семплов. Потом, в противовес первой, создается вторая нейронная сеть, которая уже должна научится генерировать семплы так, чтобы одурачивать первую. Вторая генерирует семплы с использованием неких псевдослучайных генераторов, отправляет на анализ первой и получая результат работы первой по конкретному семплу, обучается генерировать семплы так, чтобы всегда получать от первой нейронной сети нужный результат. Презентацию можно посмотреть здесь:

Это интересный подход, но проблема в том, что вторая нейронка формально учится только противодействовать первой и только. Наверное практичнее было бы заставить нейронку генерировать 100500 вариантов семплов, прогонять каждый на всех возможных антивирусах, потом отбирать неспалившихся и корректировать веса в нейронке на их базе. Но мне такое обучение видится очень и очень долгим.
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх