Статик детект по изображению вредоноса

w00du · 31.08.2020

Компании Microsoft и Intel, руководствуясь поговоркой "лучше один раз увидеть, чем сто раз услышать", разрабатывают (https://securityboulevard.com/2020/...ep-learning-for-innovative-malware-detection/) технологию распознавания вредоносного кода на основе нейросети путем преобразования двоичных файлов в изображения.

Исследователи назвали этот проект STAMINA - STAtic Malware-as-Image Network Analysis. Код преобразуется в двухмерное изображение в градациях серого, а после анализируется специально обученной нейросетью. Для ее обучения были использованы более двух миллионов образцов вредоносов. Разработчики STAMINA заявляют, что достигли точности в 99,07% в обнаружении и классификации образцов вредоносного ПО.

С другой стороны, в таком методе выявления malware существуют и недостатки, свойственные системам распознания на основе машинного обучения. Во-первых, механизмы распознавания зачастую необъяснимы с точки зрения человеческой логики, по крайней мере, на первый взгляд. Во-вторых, STAMINA не сможет рассказать про функционал выявленного ПО, для этого нужен ручной анализ кода.

Тем не менее, звучит все это весьма многообещающе. STAMINA может служить первичным грубым фильтром, способным переваривать большие объемы данных. А уже далее будут подключаться эксперты для более тщательного исследования выявленных вредоносов.

tilekvj · 31.08.2020

w00du сказал(а):

технологию распознавания вредоносного кода на основе нейросети путем преобразования двоичных файлов в изображения.

Значит нужно взять картинку с Сашей Грей, где она берет в рот, преоброзовать в двоичный файл и лить инсталами. Наверное, ахереют

monstercat · 31.08.2020

вполне возможно, что она уже и юзается в дефе, и ml детекты именно от неё
вот тут подробнее можно почитать: https://www.intel.com/content/dam/w...stamina-scalable-deep-learning-whitepaper.pdf

tilekvj · 31.08.2020

monstercat сказал(а):

вполне возможно, что она уже и юзается в дефе, и ml детекты именно от неё

Из-за этого твой крот rip

monstercat · 31.08.2020

tilekvj сказал(а):

Из-за этого твой крот rip

охлади свой пыл, дружище?

DildoFagins · 01.09.2020

Не хочу портить вам обсуждение, тем более, что вы уже на ровном месте успели разосраться, но в машинном обучении данные могут проходить много стадий обработки перед тем, как их непосредственно отдадут там нейронной сети или какому-то другому алгоритму. В данном случае картинка - это просто матрица с целыми числами от 0 до 255. Просто это позволило им упростить проектировку нейронной сети (видимо до этого часто работали с изображениями). Ничего понятного человеку вы на этих картинках не увидите (тем более Сашу Грей), для вас это будет выглядить, как рандомный набор пикселей градации серого. 255 оттенков малвари, если желаете. В контексте новостных статей это как бы красиво выглядит для людей, которые не шарят, поэтому они акцентируют внимание на том, что малварь преобразуется типа в картинку, больше ничего.

ЗЫ а как дизлайки ставить на форуме?

tilekvj · 01.09.2020

DildoFagins сказал(а):

Не хочу портить вам обсуждение, тем более, что вы уже на ровном месте успели разосраться, но в машинном обучении данные могут проходить много стадий обработки перед тем, как их непосредственно отдадут там нейронной сети или какому-то другому алгоритму. В данном случае картинка - это просто матрица с целыми числами от 0 до 255. Просто это позволило им упростить проектировку нейронной сети (видимо до этого часто работали с изображениями). Ничего понятного человеку вы на этих картинках не увидите (тем более Сашу Грей), для вас это будет выглядить, как рандомный набор пикселей градации серого. 255 оттенков малвари, если желаете. В контексте новостных статей это как бы красиво выглядит для людей, которые не шарят, поэтому они акцентируют внимание на том, что малварь преобразуется типа в картинку, больше ничего.

ЗЫ а как дизлайки ставить на форуме?

т.е. по оттенкам изображения фикисруют сигнатуру проги? Если какая-то последовотальеность оттенка совпадает, то вырабатывается сигнатура, а после уже детект? Ну у некоторых легетимных проги есть такие методы, которые у малварь есть. Не будет ли фолз позитив? А так, ИИ щас учится и учится. И если на то пошло, напишем мутатор-морфер по ИИ (семплами)

И думаю, щас на сигнатурой не особо парится надо, имхо 500 руб криптором убирается. Я бы подумал, как обойти всякие сканеры памяти и тому подобное.

Наводишь на кнопку лайка и там высвечивается диз

DildoFagins · 01.09.2020

tilekvj сказал(а):

т.е. по оттенкам изображения фикисруют сигнатуру проги? Если какая-то последовотальеность оттенка совпадает, то вырабатывается сигнатура, а после уже детект? Ну у некоторых легетимных проги есть такие методы, которые у малварь есть. Не будет ли фолз позитив? А так, ИИ щас учится и учится. И если на то пошло, напишем мутатор-морфер по ИИ (семплами)

Фолс позитив может быть всегда, и у нейронки и у эвристики. Проблема нейронок в том, что они хорошо определяют признаки, которые они уже 100500 раз видели, но плохо воспринимают то, что не видели ни разу.

Расценивай это не как картинку, а как матрицу M на N, состоящую из целых чисел от 0 до 255. Формально они взяли какие то фичи исполняемых файлов, там исполняемые коды, данные, таблицы импортов, энтропии секций и тд и преобразовали эти фичи в такую матрицу. За каким хером им надо было это делать - история умалчивает.

Не совсем понимаю, что значит "напишем мутатор по сорсам ии"? У нейронки нет сорсов, только синапсы, веса и тд, она образно черный ящик и сам ее создатель не особо понимает, чем она руководствуется, когда принимает решение.

tilekvj · 01.09.2020

DildoFagins сказал(а):

Расценивай это не как картинку, а как матрицу M на N, состоящую из целых чисел от 0 до 255. Формально они взяли какие то фичи исполняемых файлов, там исполняемые коды, данные, таблицы импортов, энтропии секций и тд и преобразовали эти фичи в такую матрицу. За каким хером им надо было это делать - история умалчивает.

Ааа, теперь понял в чем прикол, спасибо

10494657 · 01.09.2020

не понял зачем они это делают? сами пишут что не работает и перспектива очень туманная

w00du · 01.09.2020

DildoFagins сказал(а):

Фолс позитив может быть всегда, и у нейронки и у эвристики. Проблема нейронок в том, что они хорошо определяют признаки, которые они уже 100500 раз видели, но плохо воспринимают то, что не видели ни разу.

Расценивай это не как картинку, а как матрицу M на N, состоящую из целых чисел от 0 до 255. Формально они взяли какие то фичи исполняемых файлов, там исполняемые коды, данные, таблицы импортов, энтропии секций и тд и преобразовали эти фичи в такую матрицу. За каким хером им надо было это делать - история умалчивает.

Не совсем понимаю, что значит "напишем мутатор по сорсам ии"? У нейронки нет сорсов, только синапсы, веса и тд, она образно черный ящик и сам ее создатель не особо понимает, чем она руководствуется, когда принимает решение.

Есть идеи какие алгоритмы ml применять для морфинга, генерации уникальных семплов и вообще что об этом думаешь? есть ли шанс, что так же как челы из корпораций так и мы будем применять нейронку для обхода статик и динамик детектов в будущем( или уже сейчас)

w00du · 01.09.2020

Например: на гитхабе видел проекто по метасплойту, нейронка сама отбирает какие модули/эксплойты вставлять и при этом обучается на входных данных. Так же видел умный XSS сканер, которым как мне кажется можно обходить waf/фильтры для предотвращения работы скриптов , он сам генерирует пайлоад, чем больше данных тем сканер умнее

DildoFagins · 01.09.2020

w00du сказал(а):

Есть идеи какие алгоритмы ml применять для морфинга, генерации уникальных семплов и вообще что об этом думаешь? есть ли шанс, что так же как челы из корпораций так и мы будем применять нейронку для обхода статик и динамик детектов в будущем( или уже сейчас)

Ну канеш есть, спрашиваешь. Например, недавно смотрел презентацию с ХакИнЗеБокс, где, судя по всему, этнические индусы предлагали для решения как раз этой конкретной проблемы использовать генеративно-состязательные нейронные сети. Если кратко и образно, то сначала создается нейронка, которая должна отличать малварь от не малвари (как например у господ из Майкрософт и Интел), она хорошо обучается на большом количестве семплов. Потом, в противовес первой, создается вторая нейронная сеть, которая уже должна научится генерировать семплы так, чтобы одурачивать первую. Вторая генерирует семплы с использованием неких псевдослучайных генераторов, отправляет на анализ первой и получая результат работы первой по конкретному семплу, обучается генерировать семплы так, чтобы всегда получать от первой нейронной сети нужный результат. Презентацию можно посмотреть здесь:

Это интересный подход, но проблема в том, что вторая нейронка формально учится только противодействовать первой и только. Наверное практичнее было бы заставить нейронку генерировать 100500 вариантов семплов, прогонять каждый на всех возможных антивирусах, потом отбирать неспалившихся и корректировать веса в нейронке на их базе. Но мне такое обучение видится очень и очень долгим.

Статик детект по изображению вредоноса

w00du

ripper

tilekvj

(L1) cache

monstercat

RAID-массив

tilekvj

(L1) cache

monstercat

RAID-массив

DildoFagins

TPU unit

tilekvj

(L1) cache

DildoFagins

TPU unit

tilekvj

(L1) cache

10494657

RAID-массив

w00du

ripper

w00du

ripper

DildoFagins

TPU unit