Парсинг ассемблерного кода

weaver · 23.01.2025

Смотрел тут разные исходники вирусов и разные старые вирусные технологии. Собственно вопрос, есть ли какой-то простой\готовый способ парсинга ассемблерного кода? В большинстве старых вирусов используются дизассемблеры длин для дизассемблерования собственного кода для мутации кода. Способ с дизассемблером мне не особо подходит, так как на руках всегда есть исходник. Есть ли какой другой способ парсинга асм кода? Может какой-нибудь костыль...

Так же есть еще пару вопросов, просто для общего ознакомления

1. Вот обычно пайлоад зашифрован и он расшифровывается в памяти.
Раньше была такая фича в старых вирусах, делали тоже самое, вот только шифровали пайлоад случайным ключом, а сам ключ брутили. И получалось следующее, до шифрованного кода нельзя было добраться кроме как перебором. И таким образом авер не мог просмотреть и узнать что же там зашифровано и какой код выполнится. Такой подход актуален в нынешних реалиях ? Если нет, то почему?

2. Вот к примеру код упакован UPX'ом, при перестановке и замене кода (пермутация) сигнатура упаковщика меняется и авер не может распаковать файл. Такой подход актуален в нынешних реалиях ? Если нет, то почему?

stelthon · 23.01.2025

Если другие способы не помогают или помогают слабо, то используется всегда динамический анализ выполнения с пошаговым контролем регистров и памяти в совокупности с дизассемблированием, дампами памяти на каждом шагу, итд. Хотя все это и так всегда производится, независимо от степени успешности других способов и одновременно с ними. И так шаг за шагом.

DildoFagins · 23.01.2025

Ну ассемблер парсить довольно просто, так как там нет рекурсии в структуре кода, тут можно и без какого-то специального парсера обойтись. Разбил по строкам, сделал trim/strip, если строка заканчивается двоеточием, то это - метка, если нет, то это команда, считал символы из команды до первого пробела - эта сама команда, остаток разбил по запятым - это аргументы. Если просто надо какие-то команды находить и заменять их, или вставлять до или после них, то можно и регулярными выражениями это сделать.

weaver · 23.01.2025

stelthon сказал(а):

Если другие способы не помогают или помогают слабо, то используется всегда динамический анализ выполнения с пошаговым контролем регистров и памяти в совокупности с дизассемблированием, дампами памяти на каждом шагу, итд. Хотя все это и так всегда производится, независимо от степени успешности других способов и одновременно с ними. И так шаг за шагом.

Ты бот чтоли ? Как использовать динамический анализ если файл не исполняемый, и там текст программы. Тут статика нужна.

DildoFagins сказал(а):

Ну ассемблер парсить довольно просто, так как там нет рекурсии в структуре кода, тут можно и без какого-то специального парсера обойтись. Разбил по строкам, сделал trim/strip, если строка заканчивается двоеточием, то это - метка, если нет, то это команда, считал символы из команды до первого пробела - эта сама команда, остаток разбил по запятым - это аргументы. Если просто надо какие-то команды находить и заменять их, или вставлять до или после них, то можно и регулярными выражениями это сделать.

В принципи я так и предполагал, что придется написать небольшой парсер самому. Разбирать всё на операции, команды и операнды.

stelthon · 23.01.2025

weaver сказал(а):

Ты бот чтоли ? Как использовать динамический анализ если файл не исполняемый, и там текст программы. Тут статика нужна.

Если сам по себе неисполняемый, то да, только статика, но это если исследовать непосредственного его. Но в данном случае я имел ввиду другое. Ведь тело вируса в конечном счете наверняка куда-то инжектится и впоследствии как вы сами написали расшифровывается и затем разумеется исполняется в рамках другого кода, и без полноценного исследования в динамике(в дополнении к статике) тут не обойтись. То есть смоделировать ситуацию с подгрузкой в память, исполнением в изолированной среде. Речь об этом. А вы сразу минусы.

xChimera · 23.01.2025

weaver сказал(а):

Есть ли какой другой способ парсинга асм кода? Может какой-нибудь костыль...

Не совсем понял, а какая цель? Зачем асм код парсить?

weaver сказал(а):

В большинстве старых вирусов используются дизассемблеры длин для дизассемблерования собственного кода для мутации кода.

Мутирование кода в процессе исполнения, или как? RWX получается

weaver сказал(а):

шифрованного кода нельзя было добраться кроме как перебором.

В каком то роде актуально, против некоторых эмуляторов

Но потом тебе въебут сигнатуру на код перебора, шифрования

weaver сказал(а):

авер не мог просмотреть и узнать что же там зашифровано и какой код выполнится.

Дождется NtCreateThread \ VirtualAlloc \ VirtualProtect + RWX, просканит и дальше уже решит вешать ли сигнатуру

xChimera · 23.01.2025

weaver сказал(а):

Вот к примеру код упакован UPX'ом, при перестановке и замене кода (пермутация) сигнатура упаковщика меняется и авер не может распаковать файл. Такой подход актуален в нынешних реалиях ? Если нет, то почему?

Сигнатуру UPX убрать может ты и сможешь, но в контексте других аверов - твой файл все равно не будет нравится из за его аномалий: 2 секции и рвх

На статике может быть проканает, но в динамике уже могут быть детекты, как я написал выше

weaver · 24.01.2025

stelthon сказал(а):

Если сам по себе неисполняемый, то да, только статика, но это если исследовать непосредственного его. Но в данном случае я имел ввиду другое. Ведь тело вируса в конечном счете наверняка куда-то инжектится и впоследствии как вы сами написали расшифровывается и затем разумеется исполняется в рамках другого кода, и без полноценного исследования в динамике(в дополнении к статике) тут не обойтись. То есть смоделировать ситуацию с подгрузкой в память, исполнением в изолированной среде. Речь об этом. А вы сразу минусы.

Ну вы хотя бы пояснили по какому вопросу. На повестке дня парсинг асм кода. А вторые два, так для ознакомления. У вас там не слова о чем речь... минус убрал

malware_cryptor сказал(а):

Мутирование кода в процессе исполнения, или как? RWX получается

Зависит от реализации. Да в процессе. Инфектор, а тело мутирует. Как у вас всё сложно у малварщиком... В эксплойтах, если RWX это победа.

malware_cryptor сказал(а):

Не совсем понял, а какая цель? Зачем асм код парсить?

Да есть у меня там одна задумка... И суть скорее не для чего. А как ? =)

malware_cryptor сказал(а):

Но потом тебе въебут сигнатуру на код перебора, шифрования

Там новая сигнатура каждый раз. Код брутфорсера тоже меняется.

malware_cryptor сказал(а):

Дождется NtCreateThread \ VirtualAlloc \ VirtualProtect + RWX, просканит и дальше уже решит вешать ли сигнатуру

Как это будет на практике я не знаю... Я не малварщик поэтому и спросил. Чисто из-за интереса. Перебор может быть и месяц. Смотря каким ключом зашифровать.

xChimera · 24.01.2025

weaver сказал(а):

Перебор может быть и месяц. Смотря каким ключом зашифровать.

Ну может тогда детект и не поставят, в целом это анализировать впадлу комуто будет
Аверы они такие - вечно с биполяркой

xChimera · 24.01.2025

weaver сказал(а):

Да есть у меня там одна задумка... И суть скорее не для чего. А как ? =)

Бинарник можно дизассемблировать в асм, но хз что там будет с метками
А на счет сурсов - товарищ модератор уже ответил

weaver · 25.01.2025

malware_cryptor сказал(а):

А на счет сурсов - товарищ модератор уже ответил

Да я уже сделал, как дилдо сказал.... Разбил на 5 токенов.

label = None # метка
command = None # комманда
operand_1 = None # операнд1
operand_2 = None # операнд2
comment = None # комментарий

строка вида

test_label: lea ebx, [esp] ; Load effective address of ESP into EBX

парсится так.

Label: test_label
Operation: lea
Argument 1: ebx
Argument 2: [esp]
Comment: Load effective address of ESP into EBX

ну итд

qazwsx123 · 25.01.2025

ключ ксора в один символ аверы умеют брутить. надо хотя бы на каждой итерации прибавлять к ключу индекс. вроде помогает. но лично я предпочитаю сложный ключ, который нельзя сбрутить, плюс нормальный антиэмулятор.

второе не пробовал (почему именно упых?). если правильно понял, ты хочешь пожать упыхом полезную нагрузку и вырезать заголовок, который указывает на использование упыха и на структуру данных. имхо то что там лежит PE все равно будет понятно аверу, поэтому нужно ещё как-то зашифровать тельце.

Kodex · 25.01.2025

Можно переделать сорцы UPX под себя )

weaver · 26.01.2025

blackworks сказал(а):

второе не пробовал (почему именно упых?). если правильно понял, ты хочешь пожать упыхом полезную нагрузку и вырезать заголовок, который указывает на использование упыха и на структуру данных. имхо то что там лежит PE все равно будет понятно аверу, поэтому нужно ещё как-то зашифровать тельце.

Упых просто как пример. Я же ничего не хочу. Просто было интересно услышать мнение по поводу старых приёмчиков. Не совсем так... Вырезать ничего не надо. Просто сигнатура самого упыха меняется, из-за мутации кода. Поэтому для авера это будет неизвестный упаковщик и он скорее всего не сможет распаковать, если в обще поймет что это упаковщик.

parag0n · 15.02.2025

fasm написан на fasm`е и распространяется вместе с исходниками
можешь посмотреть как там реализован парсер и подогнать под свои цели

shrekushka · 15.02.2025

DildoFagins сказал(а):

Ну ассемблер парсить довольно просто, так как там нет рекурсии в структуре кода, тут можно и без какого-то специального парсера обойтись.

I'll add a little footnote for noobs coming new to this. Bilbo's talking about the grammar structure of assembly (syntactic). At the exec/semantic level, you can absolutely set up args on the stack/registers, then call the same subroutine again.

weaver · 15.02.2025

parag0n сказал(а):

fasm написан на fasm`е и распространяется вместе с исходниками
можешь посмотреть как там реализован парсер и подогнать под свои цели

Да уже всё сделал как хотел. Я же выше там отписал....

Парсинг ассемблерного кода

weaver

31 c0 bb ea 1b e6 77 66 b8 88 13 50 ff d3

stelthon

RAID-массив

DildoFagins

TPU unit

weaver

31 c0 bb ea 1b e6 77 66 b8 88 13 50 ff d3

stelthon

RAID-массив

xChimera

Malware...

xChimera

Malware...

weaver

31 c0 bb ea 1b e6 77 66 b8 88 13 50 ff d3

xChimera

Malware...

xChimera

Malware...

weaver

31 c0 bb ea 1b e6 77 66 b8 88 13 50 ff d3

qazwsx123

DaMaGeLaB

Kodex

RAID-массив

weaver

31 c0 bb ea 1b e6 77 66 b8 88 13 50 ff d3

parag0n

RAM

shrekushka

(L1) cache

weaver

31 c0 bb ea 1b e6 77 66 b8 88 13 50 ff d3