PPO в Reinforcement Learning: почему агент всегда покупает (разбор трейдинг-среды)

Автор: Alex Klimov

Загружено: 2026-01-07

Просмотров: 259

Описание: В этом видео мы подключаем PPO (Proximal Policy Optimization) к простой трейдинг-среде Gymnasium и подробно разбираем результаты обучения агента.

Без иллюзий и «волшебных кнопок»:
ты увидишь, почему PPO выбирает стратегию “покупай всегда”, что означают метрики обучения (entropy, explained_variance, loss) и почему алгоритм работает правильно — даже если стратегия выглядит опасной.

Это видео — про реальный Reinforcement Learning, а не про маркетинг.

🔍 В видео разбираем

как PPO обучается в трейдинг-среде

что означают логи обучения stable-baselines3

почему explained_variance = 1 — тревожный сигнал

почему агент перестаёт продавать

как reward формирует поведение агента

где проходит граница между RL и реальным трейдингом

PPO не учится торговать.
Он учится максимизировать reward, который ты сам ему задал.

И если reward плохой — алгоритм будет идеально плохим.

Код из видео:
https://boosty.to/avklimov/posts/e445...

✅️ Кешбэк до 45% на Bybit: https://partner.bybit.com/b/KLIMOVGROUP

✅️ Кешбэк до 45% для уже зарегистрированных аккаунтов Bybit. В поле Реферальный код нужно указать: 52082
https://www.bybit.com/ru-RU/aff-bind?...

Телеграм канал:
https://t.me/klimovgroup

Личка:
https://t.me/AVKlimov

#reinforcementlearning
#ppo
#gymnasium
#rlтрейдинг
#алготрейдинг
#python
#machinelearning
#stablebaselines3
#rl
#aiтрейдинг

00:00 — Введение и цель видео
00:04 — Что мы сделали в прошлом видео (RL + Gymnasium)
00:10 — Сегодняшний шаг: подключаем PPO
00:17 — Важное предупреждение о рисках трейдинга
00:27 — Учебный формат и дисклеймер
00:34 — Кэшбэк 45% на Bybit (партнёрская ссылка)

00:39 — Зачем подключаем PPO к трейдинг-среде
00:45 — PPO не сделает вас прибыльным трейдером
00:51 — Главная цель: понять, как RL учится
00:57 — Что такое PPO простыми словами
01:03 — Почему PPO подходит для трейдинга
01:14 — Почему трейдинг — шумная среда без оптимума

01:19 — Ключевой принцип: среду не меняем
01:24 — Почему сначала меняют модель, а не reward
01:30 — Обзор кода и структура проекта
01:34 — Импорт модулей и stable-baselines3
01:40 — Установка зависимостей
01:48 — Создание PPO-модели
01:55 — MLP Policy и параметры обучения
02:01 — Запуск обучения PPO
02:07 — Почему агент видит только reward

02:14 — Тестируем обученного агента
02:20 — Чем обученный агент отличается от случайного
02:24 — Два типичных поведения PPO в трейдинге
02:29 — PPO оптимизирует reward, а не торговлю

02:54 — Запуск кода и процесс обучения
03:00 — Разбор логов PPO (fps, timesteps, iterations)
03:14 — Почему обучение прошло успешно
03:27 — PPO не учится торговать — ключевой момент

03:34 — Анализ реального поведения агента
03:40 — Почему агент всегда выбирает BUY
03:46 — Разбор шагов и награды
03:53 — Агент терпит просадки и не выходит
04:07 — Стратегия «пересиживания»
04:18 — Финальный PnL и предел reward-схемы

04:23 — Главный вывод: стратегия «Buy & Hold»
04:29 — Почему SELL ухудшает reward
04:35 — Отсутствие штрафов за риск и просадки
04:40 — RL против трейдинга: в чём конфликт
04:45 — Почему это не ошибка PPO
04:52 — Ошибка в дизайне reward

04:58 — Что будем менять дальше
05:04 — Reward только при продаже
05:10 — Анонс следующего видео
05:15 — Лайк, подписка и курс по алготрейдингу
05:26 — Завершение

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

PPO в Reinforcement Learning: почему агент всегда покупает (разбор трейдинг-среды)

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Алгоритмический скальпель: как Python помогает находить и использовать рыночные неэффективности

Алгоритмический скальпель: как Python помогает находить и использовать рыночные неэффективности

Мой опыт перехода с MacOS на Linux | Полный гайд

Мой опыт перехода с MacOS на Linux | Полный гайд

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Zed IDE: Полный обзор спустя год | Личный опыт разработки на ней

Zed IDE: Полный обзор спустя год | Личный опыт разработки на ней

Цепи Маркова — математика предсказаний [Veritasium]

Цепи Маркова — математика предсказаний [Veritasium]

Open Source: ВЕЛИЧАЙШАЯ ЛОЖЬ интернета

Open Source: ВЕЛИЧАЙШАЯ ЛОЖЬ интернета

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

ВСУ взяли под контроль территорию РФ / Использовано секретное оружие

ВСУ взяли под контроль территорию РФ / Использовано секретное оружие

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Я внедрился в Украинский СКАМ ОФИС!

Я внедрился в Украинский СКАМ ОФИС!

Скринеры для трейдера и скальпера: инструменты, которыми я пользуюсь сам

Скринеры для трейдера и скальпера: инструменты, которыми я пользуюсь сам

🎙️Честное слово с Аббасом Галлямовым

🎙️Честное слово с Аббасом Галлямовым

Palantir: Система, Которая ВИДИТ Тебя Насквозь!

Palantir: Система, Которая ВИДИТ Тебя Насквозь!

СРОЧНО отключи это в Telegram! Защити себя ПРОСТЫМ и ЗАКОННЫМ способом

СРОЧНО отключи это в Telegram! Защити себя ПРОСТЫМ и ЗАКОННЫМ способом

Почему НАМ это Не ПОКАЗАЛИ в ВУЗе? Электродвигатель: принцип работы и конструкция.

Почему НАМ это Не ПОКАЗАЛИ в ВУЗе? Электродвигатель: принцип работы и конструкция.

МОВЧАН: "Вот куда всё идет". Что будет с экономикой, нефть, Венесуэла, золото, США, Китай, инфляция

ПЛОСКАЯ ЗЕМЛЯ: Почему Миллионы Верят в Величайший Заговор?

ПЛОСКАЯ ЗЕМЛЯ: Почему Миллионы Верят в Величайший Заговор?

Мир входит в большую перестройку? Экономист Олег Вьюгин о борьбе за влияние и уничтожении доллара

Мир входит в большую перестройку? Экономист Олег Вьюгин о борьбе за влияние и уничтожении доллара

Создаю кошелёк своими руками. Понимайте крипту, а не кнопки!

Создаю кошелёк своими руками. Понимайте крипту, а не кнопки!