Статья Алготрейдинг. Тестирование ИИ

lisa99 · 10.11.2025

Многим хочется иметь трейдинг-бота — пусть для определённой стадии крипторынка, пусть даже примитивного, но своего, родного, под конкретную задачу, контролируемого и безопасного
(Python, свой комп\сервер, без экзэшников с хз какими защитами).

Захотелось и мне

. Особенно посмотрев битву ИИ по криптотрейдингу - с очень жесткими условиями.
Червячок, как говорится, точит душу - в том плане, что если боты без обучения сделали столько за неделю (доходило до 240%) то что можно сделать при тюнинге? (в целом, это отдельная история - как был эксперимент на Арене).

Чтобы проверить, "на кого можно опереться" из последних версий популярных ИИ я решила задать им одну и ту же задачу: написать с нуля backtest-скрипт (то есть симуляцию на исторических данных) на Python для стратегии пересечения EMA(9) и EMA(21) на минутных данных BTC/USDT с Binance. Почему так? Исторические данные - не текущие, бэктесты в крипте обязательны перед запуском любого софта, API не требуется.

Пояснение.
Комбинация EMA-9 и EMA-21 широко применяется в скальпинге и внутридневных стратегиях. Это классические индикаторы технического анализа (ТА), которые генерируют сигналы на покупку (когда быстрая EMA пересекает медленную снизу вверх) или продажу (сверху вниз). Такая логика встроена в большинство торговых систем — она не экзотична, не требует ML или сложной математики, и потому идеально подходит для тестирования базовой "финансовой грамотности" ИИ.

Задание было чётким по сути, но намеренно открытым в деталях:

«Напишите backtest с учётом комиссии 0.1% (taker), slippage 0.05%, без lookahead bias, без сторонних backtesting-фреймворков. Используйте только закрытые свечи. Выведите итоговую доходность, max drawdown и график equity curve».

Или по-простому: Напишите бэктест с учётом комиссии 0,1% (по рыночному ордеру), проскальзывания 0,05%, без использования данных из будущего, без сторонних библиотек для бэктестинга. Используйте только полностью сформировавшиеся (закрытые) свечи. Выведите итоговую доходность, максимальную просадку и график изменения капитала.

В чём заключалась сложность и даже некоторое коварство этой задачи?

1)Не уточнялось, разрешены ли short-позиции. Модель сама решала: long-only (спот) или long/short (маржинальная торговля).
Но если ИИ разрешал short, он обязан был корректно обрабатывать логику заимствования, возврата и оценки позиции — чего почти никто не сделал.

2)Расчёт комиссии был оставлен на усмотрение. Казалось бы — 0.1% от сделки. Но от чего именно? От всего капитала? От объёма позиции?
До или после учёта slippage? Оказалось, что у ИИ здесь огромная «волатильность»: одни вычитали комиссию от equity, другие — от оборота, третьи — вовсе забывали её в PnL.

3)Расчёт прибыли и убытков реальная ловушка. Чтобы он был правильным, нужно:
- отслеживать реальную цену входа,
-применять slippage к цене исполнения, а не к итоговому PnL,

корректно обновлять размер позиции и остаток кэша,
учитывать, что каждая сделка — это две операции (вход + выход → двойная комиссия).

Не нужно быть трейдером, чтобы понять, при неправильных расчетах этих параметров - такой алготрейдинг, если не бессмысленен, то просто опасен.
Большинство ИИ эти нюансы по факту - умно или тупо проигнорировали, заменив логику «правдоподобным» кодом. (Это DepSeek мне так и выдавал - главное не истина - главное ПРАВДОПОДОБИЕ).
Именно поэтому такая, на первый взгляд простая задача, стала тестом на финкомпетенции, ну и как бы на трудолюбие и честность: и в конечном счете на понимание у ИИ того, как на самом деле работает биржевая криптоторговля.

Kimi (Moonshot AI)

Плюсы: код структурирован, легко читается, содержит пояснения и даже прогресс-бар при загрузке данных. Быстро генерирует рабочий каркас для типовых задач.

Минусы: в первом варианте полностью игнорировал комиссию и slippage в расчётах, несмотря на их объявление. Во втором — добавил учёт издержек, но допустил критическую ошибку: при выходе из позиции использовал цену предыдущей свечи вместо реальной цены входа. Это делает доходность неправдоподобно завышенной. Kimi стремится выглядеть «готовым к production», но не проверяет внутреннюю логическую согласованность.

Алиса (Яндекс)

Плюсы: простой и понятный код, хорошая документация через docstrings, корректная генерация сигналов, визуализация результатов. Подходит для обучения или демонстрации.

Минусы: комиссия при входе рассчитывается от всего капитала, а не от объёма сделки. Это нарушает базовую финансовую логику и искажает результаты даже в simple long-only стратегии. Алиса действует как универсальный ассистент, но не как квант-инженер.

Claude Sonnet 4.5

Плюсы: отличная архитектура — ООП, модульность, кэширование, подробные графики, обработка ошибок. Код выглядит как production-ready.
Минусы: при открытии позиции комиссия берётся от всего equity, а не от объёма. PnL на сделку рассчитан как изменение общего капитала, а не прибыль операции. Это делает аналитику (win rate, средний профит) некорректной.
Вывод. Claude создаёт «инженерный театр» — форма без финансового содержания. Критические ошибки

Для иллюстрации разберем подробней работу claude-sonnet-4-5-20250929
Что плохого:
При входе — комиссия завышена (если не весь капитал), при выходе — правильно. Асимметричная ошибка, искажающая результат.
Вторая проблема: некорректный PnL при расчёте прибыли. Вместо PnL сделки взято изменение общего капитала, которое включает все предыдущие сделки и колебания equity.

Что сделано хорошо:

ООП-структура — удобно для расширения.

Визуализация — отличная (цена, EMA, сделки, equity, drawdown).

Обработка open-at-end — есть финальное закрытие позиции.
Slippage — корректно применяется к цене исполнения.
Lookahead bias — отсутствует (сигнал на основе shift).

А вот и его реакция:

DeepSeek

Плюсы: богатая функциональность — демо-данные при ошибке, поддержка short, расчёт Sharpe ratio, волатильности и просадки. Гибкий и многослойный подход.
Минусы: логика short-позиции полностью нерабочая — используется абсурдная формула equity с ценой открытия. Комиссия при входе применена неверно. Short в споте невозможен, но это не учтено.
Вывод. DeepSeek имитирует глубину кодинга, маскируя фактические косяки.
Но по моему опыту хорош в мелких заданиях. И более-менее заточен на трейдинг - его используют команды в китае, но, видимо отдельные дообученные версии с тюнингом

Grok-4

Плюсы: использует реальные инструменты (ccxt), добавляет «практические» детали — warmup, паузы между запросами, обработка временных границ. Выглядит как код от трейдера.
Минусы: разрешает шорт в спот-режиме, что технически невозможно. При открытии short капитал искусственно удваивается — нарушается закон сохранения капитала.
Вывод: Grok-4 и здесь дерзкий, инициативный, но его код де-факто просто валит результат.

Qwen3

Плюсы: простой, прозрачный, "финансово честный", как он любит писать о себе, код. Комиссия и slippage корректно применены к объёму сделки.
Equity = кэш + стоимость BTC. Lookahead bias отсутствует. Код легко читать, отлаживать и модифицировать.
Минусы: исполнение по цене закрытия текущей свечи (а не open следующей), что чуть менее реалистично. Нет кэширования или продвинутой визуализации. Сам он считает, что это компенсируется надёжностью.

Вывод: моя рабочая лошадка средней руки, в гуманитарных вопросах не уступает никому, ассистент, как и задумано + аудитор всего и вся. Его активно используют Алибаба и дочерние группы в финтехе.

GPT-5 High

Плюсы: наиболее точная реализация. Исполнение по open-цене следующей свечи — максимально приближено к реальности. Комиссия учтена в расчёте объёма, а не как постфактум. Есть кэширование, UTC-обработка, продуманная структура.
Минусы: плохая доступность по дефолту, требует платного доступа.
Вывод. Избыточен, или необязателен для простых задач. Но для критически важных расчётов, полагаю что эталон.

Общий вывод

Большинство ИИ отлично имитируют структуру «правильного» backtest-кода, но проваливаются в базовой финансовой механике: комиссия, slippage, сохранение капитала, режим торговли. Они оптимизированы под поверхностное выполнение задачи, и дело не только в правильных промптах. А во внутренних установках разработчиков, недостаточной обученности, ну и разного рода лимитах.

Цель состояла именно в дефолтном применени всех ИИ, с одинаковым промптом. Все они признали свои ошибки, то есть критика- не голословна.

Только Qwen и GPT-5 продемонстрировали рабочие результаты. Остальные для алготрейдинга или слабы, или неоптимизированы, скажем так.
И требуют ручной проверки, тестирования и\или перепроверки у других ИИ. Если копнуть глубже - суть в том, что большинство моделей обучены на готовых примерах софта с github-a,
неглубоких по смыслу. Для написания эффективного кода модели должны быть отдельно оттренированы на торговых алгоритмах.
И в этом плане очень показательны результаты тестирования торговли на графике (выше).
Интересно также как интерпретировали сами ИИ свои плачевные результаты в битве.
Грок написал мне, что-то в стиле "цыплят по осени считают", мол, мало времени прошло и он бы отыгрался. Клод заявил что более примитивные модели выиграли случайно, ну а ChatGPT5
высказался как-то намекая на особую приверженность, козыри китайских моделей рыночной торговле .
Но факт остается фактом. При одинаковых условиях выиграли DeepSeek + Qwen.

Еще детали - даже хваленый Клод с красивым кодом и красивым визуальным выводом, с большим окном контекста и мокапами, структурированием задания, может подставить легко и глобально.
И именно в этом плане он может уступать той же ну-очень-ограниченной Алисе.

Тема алготрейдинга во всех аспектах, конечно очень интересна. Лично меня больше всего интересует полупассивный доход, а не проживание за монитором круглосуточно.
Сейчас готовлю и тестирую свои несложные алгоритмы, хотя папка с софтом и либами уже существенно выросла на экспериментах...
Если кому-то интересно поработать вместе - велкам (ЛС) =) Код того что получилось с удовольствием выложу здесь, если будет какой-то интерес.

п.с. Статья "некоммерческая".

k0d · 12.11.2025

Жаль дистанция маленькая, было бы интересно посмотреть за год+. Почти уверен депозит был бы слит.

Synthesis · 12.11.2025

Lisa99 - генератор идей™, респект)

lisa99 · 12.11.2025

k0d сказал(а):

Жаль дистанция маленькая, было бы интересно посмотреть за год+. Почти уверен депозит был бы слит.

неправильно мыслите, поверхностно, сорри. Дело не в сроке. Или не только в длительности дистанции, а в глубоком смысле проверки.
Были взяты (якобы!) стандартные чат-боты, общедоступные модели, каждая из них через АПИ получала одинаковый по структуре промпт с состоянием баланса после сделки и текущим состоянием рынка перпетуалов на Hyperliquid (минимально).
Кратенько: вообще говоря, это плохой тест, почти ни о чем. Так как модели (боты) по умолчанию не видели рынка в целом, не понимали на какой он стадии находится - спад-подъем-флэт,
не получали сигналов с другими факторами (не буду перечислять).
То есть они все действовали как примитивные автоматы, опираясь на некоторые знания теханализа. Но не настолько умнО, как работает специализированный софт крупных трейдеров
По крайней мере об этом говорят результаты.
И даже в этих условиях оба "китайца" поняли, что нужно минимизировать количество ставок. Не хочу здесь выдавать анализ чужих экспериментов, но конечно, это интересно.
В практическом плане для себя. Кстати, чтобы боты не заторовывались за ними следят "спец.обученные люди" в инвест-фондах. Потому что ождания высказываний Трампа - это для двуногих.

По поводу итогов.
Когда Квен получил 240% дохода, его нужно было фиксировать. Но никто не дал такой команды. Это насчет слитых бюджетов. Еще раз - эксперимент поверхностный, 1 уровень.

Вот тут я решила копнуть в сторону - а можно ли повторить результаты эксперимента Арены, но несколько умнее\структурно_сложнее: держать в качестве мозга Квена, а в качестве ботов - боты Дипсика?
то есть создать мета-слой из ИИ? Оба категорически стали меня отговаривать, особенно в торговле с перпами - увы, разумные доводы, согласилась.

Кстати, 1млн токенов Алибаба дарит "девелоперам". да и дальше не особо дорого для таких задач. Впорос в том - что ты получишь за это недорого на выходе.
Одно дело бот завис в чате с описание платья на алиэкспрессе, и другое дело на покупке -продаже через апи биржи.

пс. и да..Впереди версия испытаний 1.5 очевидно с более сложными подходами.

InsuleanX · 12.11.2025

тоже задумывался об этой теме, интересно было почитать, спасибо

k0d · 12.11.2025

lisa99 сказал(а):

неправильно мыслите, поверхностно, сорри. Дело не в сроке. Или не только в длительности дистанции, а в глубоком смысле проверки.
Были взяты (якобы!) стандартные чат-боты, общедоступные модели, каждая из них через АПИ получала одинаковый по структуре промпт с состоянием баланса после сделки и текущим состоянием рынка перпетуалов на Hyperliquid.
Кратенько: вообще говоря, это плохой тест, почти ни о чем. Так как модели (боты) по умолчанию не видели рынка в целом, не понимали на какой он стадии находится - спад-подъем-флэт,
не получали сигналов с другими факторами (не буду перечислять).
То есть они все действовали как примитивные автоматы, опираясь на некоторые знания теханализа. Но не настолько умнО, как работает специализированный софт крупных трейдеров
По крайней мере об этом говорят результаты.
И даже в этих условиях оба "китайца" поняли, что нужно минимизировать количество ставок. Не хочу здесь выдавать анализ чужих экспериментов, но конечно, это интересно.
В практическом плане для себя. Кстати, чтобы боты не заторовывались за ними следят "спец.обученные люди" в инвест-фондах. Потому что ождания высказываний Трампа - это для двуногих.

По поводу итогов.
Когда Квен получил 240% дохода, его нужно было фиксировать. Но никто не дал такой команды. Это насчет слитых бюджетов. Еще раз - эксперимент поверхностный, 1 уровень.

Вот тут я решила копнуть в сторону - а можно ли повторить результаты эксперимента Арены, но несколько умнее\структурно_сложнее: держать в качестве мозга Квена, а в качестве ботов - боты Дипсика?
то есть создать мета-слой из ИИ? Оба категорически стали меня отговаривать, особенно в торговле с перпами - увы, разумные доводы, согласилась.

Кстати, 1млн токенов Алибаба дарит "девелоперам". да и дальше не особо дорого для таких задач. Впорос в том - что ты получишь за это недорого на выходе.
Одно дело бот завис в чате с описание платья на алиэкспрессе, и другое дело на покупке -продаже через апи биржи.

пс. и да..Впереди версия испытаний 1.5 очевидно с более сложными подходами.

Торговля по индикаторам это почтив всегда минусовая тема, раньше пачками на фрилансе ботов просили сделать, за деньги заказчиков я протестировал массу их стратегий итог один, на дистанции все идут в минус.

Ты можешь плюсовать неделю, потом слить весь профит в течении дня.

lisa99 · 12.11.2025

k0d сказал(а):

Торговля по индикаторам это почтив всегда минусовая тема, раньше пачками на фрилансе ботов просили сделать, за деньги заказчиков я протестировал массу их стратегий итог один, на дистанции все идут в минус.

Ты можешь плюсовать неделю, потом слить весь профит в течении дня.

О! профессиональный взгляд, спасибо за инфу. Но. Я возражу и вот почему.

Наверное да, только по индикаторам - точно сливается. У частных лиц это будет западать, по сравнению с профессиональными трейдерскими компаниями:

тут и железо в одной коллокации с серверами биржи, для высокочастотной HTF торговли это маст хэв ,
здесь тренинг на огромной базе исторических данных, причем насколько я понимаю, у азиатских бирж есть специфика (считается что эфир там будет расти быстрее в выходные и прочие нюансы) - например, большое кол-во ботов-скальперов,
многуровневые алгоритмы с контролем от низшего к высшему, а на высшем слое стоят ИИ, тюнингованные для трейдинга, они же учтут все, включая индикаторы Sensitivity и тп
доступ к инсайдерской инфе, эксклюзивной финансовой инфе,

короче, деньги- к деньгам. Вот потому я и пытаюсь написать алгоритмы с помощью ИИ, а не с помощью фрилансеров

k0d · 12.11.2025

lisa99 сказал(а):

О! профессиональный взгляд, спасибо за инфу. Но. Я возражу и вот почему.

Наверное да, только по индикаторам - точно сливается. У частных лиц это будет западать, по сравнению с профессиональными трейдерскими компаниями:

тут и железо в одной коллокации с серверами биржи, для высокочастотной HTF торговли это маст хэв ,

здесь тренинг на огромной базе исторических данных, причем насколько я понимаю, у азиатских бирж есть специфика (считается что эфир там будет расти быстрее в выходные и прочие нюансы) - например, большое кол-во ботов-скальперов,

многуровневые алгоритмы с контролем от низшего к высшему, а на высшем слое стоят ИИ, тюнингованные для трейдинга, они же учтут все, включая индикаторы Sensitivity и тп

доступ к инсайдерской инфе, эксклюзивной финансовой инфе,

короче, деньги- к деньгам. Вот потому я и пытаюсь написать алгоритмы с помощью ИИ, а не с помощью фрилансеров

Честно говоря не доверял бы ии, которые обучены на данных из интернета. Они будут анализировать графики и искать точку входа по тем же индикаторам, разница будет только в значениях, возможно подключат еще анализ обьема свечи, стакана и т.п.

Если бы я имел возможность посмотреть инстументы проф трейдерских команд, то я почти на 100% уверен, что там я увидел бы свои индикаторы о которых ИИ (deepseek qwen chatgpt) даже понятия не имеют.

lisa99 · 12.11.2025

k0d сказал(а):

Честно говоря не доверял бы ии, которые обучены на данных из интернета. Они будут анализировать графики и искать точку входа по тем же индикаторам, разница будет только в значениях, возможно подключат еще анализ обьема свечи, стакана и т.п.

да. поэтому бэктест обязателен для своих собственных решений.

k0d сказал(а):

Если бы я имел возможность посмотреть инстументы проф трейдерских команд, то я почти на 100% уверен, что там я увидел бы свои индикаторы о которых ИИ (deepseek qwen chatgpt) даже понятия не имеют.

забавно. любопытно. Увы, слова) пруфов , поняно нет и не будет.
И как же они торгуют - каковы успехи с умными индикаторами?)

Статья Алготрейдинг. Тестирование ИИ

lisa99

Мисс Марпл

k0d

RAM

Synthesis

Stand Alone Complex

lisa99

Мисс Марпл

InsuleanX

addicted to grind more

k0d

RAM

lisa99

Мисс Марпл

k0d

RAM

lisa99

Мисс Марпл