RL в трейдинге: Q-learning, опыт и умные решения

Искусственный интеллект в финансовых инвестицияхBy 3L3C

Как reinforcement learning применяют в трейдинге: Q-learning, experience replay и типовые ошибки. Практичный план внедрения RL-стратегии.

reinforcement learningалготрейдингQ-learningDQNуправление портфелеммашинное обучениеквантовые стратегии
Share:

Featured image for RL в трейдинге: Q-learning, опыт и умные решения

RL в трейдинге: Q-learning, опыт и умные решения

Одна из самых дорогих ошибок в трейдинге — «выйти слишком рано», потому что стратегия переживает неприятную просадку. Люди психологически плохо переносят задержанное вознаграждение: когда сегодня больно, а прибыль «когда-нибудь потом». И вот здесь обучение с подкреплением (reinforcement learning, RL) звучит не как модный термин из презентаций, а как практичный подход к созданию стратегий, которые учатся держать курс на долгосрочную цель.

В серии «Искусственный интеллект в финансовых инвестициях» мы обычно говорим об ИИ как о способе лучше прогнозировать или быстрее анализировать рынок. Но RL — другой зверь. Он не пытается угадать следующую свечу. Он учится принимать решения (купить/продать/держать, перераспределить портфель) так, чтобы максимизировать итоговый результат на горизонте.

Почему обучение с подкреплением подходит для рынка

Коротко: рынок — это последовательность решений, а не задача «угадай следующий тик». RL как раз заточен под последовательности.

Классическое машинное обучение в финансах часто строится вокруг разметки: «завтра доходность будет +/–», «следующая свеча вырастет/упадёт», «вероятность пробоя уровня — 62%». Это полезно, но часто ломается о простую реальность: важно не только угадать направление, важно правильно действовать во времени.

RL решает задачу иначе:

  • нет обязательной «правильной метки» на каждом шаге;
  • агент делает действие, получает результат позже (когда сделка закрыта);
  • оптимизация идёт под долгосрочную награду, а не под «точность предсказания завтра».

Есть хорошая параллель из мира игр: сильные агенты (вроде тех, что когда-то удивили шахматный мир) выигрывают не потому, что «бережно сохраняют фигуры», а потому что выстраивают линию на мат — иногда через временные жертвы. В инвестициях эта логика похожа: стратегия может терпеть краткосрочные убытки, чтобы удержать позицию в сильном тренде или дождаться реализации премии за риск.

Как устроена RL-система для трейдинга

Ответ сразу: вам нужны действия, состояние, политика, награда, среда и агент. Всё остальное — детали реализации.

Действия (Actions): что агент вообще может делать

В простейшем виде это:

  • Buy (открыть/увеличить лонг),
  • Sell (закрыть/уменьшить лонг, либо открыть шорт — зависит от постановки),
  • Hold (ничего не делать).

В задачах управления портфелем действия обычно формулируют как веса активов: например, 60% акции, 30% облигации, 10% кэш. И тут сразу становится ясно, почему RL интересен для инвестиций: он может учиться не «угадать цену», а распределять риск.

Состояние (State): что агент «видит» перед решением

Состояние — это ваш вектор признаков. В трейдинге часто используют:

  • технические индикаторы (RSI, ATR, скользящие),
  • доходности за разные окна (например, 10 минут, 1 день, 20 дней),
  • волатильность/режим рынка,
  • новостной/социальный сентимент,
  • фундаментальные факторы (для более длинных горизонтов).

Мой практический ориентир: состояние должно быть слабо предсказательным, но стабильным. Если признаки «пляшут» и меняют статистику каждые две недели, агент будет учиться не рынку, а случайностям.

Награда (Reward): за что мы реально платим агенту

Ответ сразу: награда — это то, что вы хотите максимизировать, но сформулированное так, чтобы агент мог этому научиться.

Распространённые варианты:

  • прибыль/убыток по сделке,
  • доходность за период,
  • Sharpe Ratio или его суррогаты,
  • штрафы за просадку и риск.

Неочевидный, но полезный приём: иногда лучше давать агенту не «величину PnL», а знак результата (плюс/минус). Да, это грубее. Зато обучение часто становится стабильнее: агент быстрее усваивает базовую дисциплину «не лезь туда, где системно плохо», вместо того чтобы охотиться за редкими «джекпотами» с высоким риском.

Политика (Policy): как выбирается действие

Политика отвечает за баланс исследования и использования:

  • exploration — пробуем разные действия, чтобы собрать опыт;
  • exploitation — выбираем то, что уже кажется лучшим.

В торговле опасны крайности. Если агент «исследует» слишком долго — вы получите хаотичную торговлю. Если перестанет исследовать рано — он застрянет в локально хорошей, но глобально слабой стратегии.

Среда (Environment) и агент (Agent): где всё происходит

Среда:

  • выдаёт состояние,
  • исполняет действие (симуляция сделки),
  • возвращает награду,
  • переводит в следующее состояние.

Агент — это модель, которая принимает состояние и выбирает действие.

В инвестиционных проектах именно качество среды решает 80% результата: учёт комиссий, проскальзывания, ограничений ликвидности, задержек исполнения, правил маржи. Без этого RL-агент может «победить» в бэктесте и проиграть в реальности.

Q-learning: понятная отправная точка, даже если вы не пишете код

Ответ сразу: Q-learning учит таблицу (или модель), где каждому состоянию сопоставляется ценность каждого действия.

Идея простая: для каждой пары (состояние, действие) хранится число Q(s,a) — ожидаемая будущая выгода, если сделать это действие сейчас.

Например, если у вас есть позиция в акции и вы выбираете между Hold и Sell, Q-значения отвечают на вопрос: «Если я подержу ещё, насколько это перспективнее, чем закрыться прямо сейчас?»

Математический смысл задаётся уравнением Беллмана:

Q(s,a) = R(s,a) + γ * max(Q(s', a'))

Где:

  • R(s,a) — награда за действие в текущем состоянии,
  • γ — коэффициент дисконтирования (насколько ценим будущие награды),
  • s' — следующее состояние.

Почему это важно инвестору, а не только дата-сайентисту? Потому что γ — это фактически «параметр терпения». Большой γ означает: стратегия больше нацелена на будущий итог и меньше паникует из‑за краткосрочного шума.

Почему Q-таблица быстро становится невозможной

В учебном примере можно иметь «дни» как состояния и два действия. Но реальная торговля — это тысячи комбинаций признаков. Q-таблица раздувается до неприличных размеров.

Поэтому в практике вместо таблицы используют Deep Q-Network (DQN): нейросеть, которая приближает Q(s,a) и выдаёт оценки действий для любого входного состояния.

Experience Replay: трюк, который делает обучение устойчивее

Ответ сразу: experience replay помогает учиться на прошлом опыте так, чтобы не «залипать» на последовательных корреляциях рынка.

Механика:

  1. агент складывает переходы (state, action, reward, next_state) в буфер;
  2. обучение идёт на случайных мини-батчах из буфера.

Что это даёт в трейдинге:

  • снижает эффект «сегодня рынок трендовый — значит всегда будет тренд»;
  • повышает эффективность данных (для финансов это критично: данных не так много, как кажется);
  • стабилизирует обучение, особенно на DQN.

Дальше идут улучшения, которые часто встречаются в реальных системах:

  • Double DQN: уменьшает завышение Q-оценок;
  • приоритизированный replay: чаще учимся на «важных» переходах;
  • dueling-архитектуры: разделяем ценность состояния и преимущество действия.

Реальные проблемы RL в торговле: где ломаются красивые идеи

Ответ сразу: два главных врага — шум и «эффект наблюдателя», когда стратегия меняет рынок.

1) Шум финансовых рядов

Рынок полон случайных колебаний. RL-агент, особенно мощный, умеет находить закономерности даже там, где их нет. В результате он учится «торговать шум».

Что работает на практике:

  • простые, устойчивые признаки (доходности, волатильность, режим рынка),
  • регуляризация и контроль сложности модели,
  • строгий walk-forward (обучение/валидация/тест по времени),
  • стресс-тесты на других инструментах и периодах.

2) «Хаос второго типа»: стратегия влияет на рынок

В бэктесте среда пассивна. В реальности ваши объёмы и действия меняют цену и ликвидность. Для розницы это часто незаметно, но для более крупных портфелей — критично.

Здесь полезна позиция «не притворяемся, что это не существует»: добавляйте модели проскальзывания, лимиты по объёму, и — что особенно важно — проектируйте агента так, чтобы он мог дообучаться и адаптироваться в рамках риск-контуров.

Сильная RL-стратегия в инвестициях — это не та, что «угадывает рынок», а та, что стабильно управляет риском, когда рынок меняет правила.

Практический план: как внедрять RL без самообмана

Ответ сразу: начните с простой постановки и реалистичной среды, затем усложняйте.

  1. Выберите задачу
    • дискретные действия: Buy/Sell/Hold для одного инструмента;
    • или портфель: веса активов раз в день/неделю.
  2. Определите награду
    • старт: доходность сделки минус комиссии;
    • затем добавьте штрафы: за просадку, за оборот, за риск.
  3. Соберите «честную» среду
    • комиссии, проскальзывание, задержки;
    • запрет на «подглядывание в будущее» (классическая ошибка).
  4. Сделайте бенчмарки
    • buy&hold;
    • простая трендовая/mean-reversion стратегия;
    • модель классификации как контроль.
  5. Тестируйте как инвестор, а не как разработчик
    • out-of-sample по времени;
    • разные режимы волатильности;
    • стресс по ликвидности и проскальзыванию.

Если в этих пунктах «плывёт» хоть один — RL почти гарантированно даст красивую кривую в отчёте и неприятный опыт на рынке.

Что это означает для ИИ-инвестиций в 2026 году

RL уже стал важной частью разговоров про алгоритмическую торговлю и управление портфелем: он лучше многих подходов вписывается в реальность, где решение сегодня влияет на возможности завтра. И да, он сложнее в реализации, чем модель «предскажи доходность». Зато он честнее описывает саму природу торговли.

Если вы строите ИИ-стек для инвестиций (или выбираете, во что инвестировать как в технологию), я бы смотрел на RL не как на магию, а как на дисциплину: чёткая постановка цели, строгая симуляция издержек, контроль риска и аккуратное обучение на опыте.

Следующий логичный шаг — взять одну понятную идею (например, Hold/Sell для позиции или ежедневную ребалансировку портфеля) и довести её до состояния, где результат держится не на удачном периоде, а на повторяемом процессе. А дальше возникает интересный вопрос: какую часть инвестиционных решений вы готовы доверить агенту — и какие ограничения обязаны поставить ему заранее?

Дисклеймер: материал носит информационный характер и не является индивидуальной инвестиционной рекомендацией. Торговля на финансовых рынках связана с риском.