ស្វែងយល់ពី Proximal Policy Optimization | PPO | Machine Learning Series | TFD Workshop

Автор: TFDevs

Загружено: 2026-02-14

Просмотров: 84

Описание: វីដេអូដែលបាន Record នៃសិក្ខាសាលា Online អំពី "ស្វែងយល់ពី Proximal Policy Optimization" ជាផ្នែកនៃ Machine Learning Series

Recorded video of online workshop: "Understanding Proximal Policy Optimization" as part of Web Security Series

ចូលទាញយក Demo នឹង លំហាត់: https://github.com/tfd-ed/tfd-worksho...

TFD Workshop Repo: https://github.com/tfd-ed/tfd-workshop

🔑 អ្វីដែលរៀនបាន
Part 1: Reinforcement Learning Foundations
The RL framework: agents, environments, rewards, and policies
States, observations, and action spaces (discrete vs continuous)
The credit assignment problem and why RL is challenging
Real-world RL applications (games, robotics, control systems)

Part 2: Policy Gradient Methods
From value-based to policy-based methods
Understanding the policy gradient theorem
Why vanilla policy gradients are unstable
The importance of trust regions in learning

Part 3: Understanding PPO
The fundamental problem PPO solves
Clipping mechanism and surrogate objectives
Actor-Critic architecture
Generalized Advantage Estimation (GAE)

Part 4: Complete PPO Implementation
Actor and Critic neural networks in PyTorch
Memory buffer for experience collection
Computing advantages and returns
The PPO update loop with clipping

Part 5: Training the Lunar Lander
Environment setup with Gymnasium
Hyperparameter configuration
Training loop implementation
Monitoring and debugging training metrics
Visualizing learned behaviors
Live Demonstrations
Lunar Lander Environment - Understanding the observation space and actions
Untrained Agent Behavior - Random actions and crashes
PPO Training Process - Watching the agent learn in real-time
Trained Agent Performance - Successful landings and optimal behavior
Training Metrics Visualization - Interpreting reward curves and losses
Hands-On Lab Exercises
Exercise 1: Understanding the environment and action space
Exercise 2: Implementing the Actor-Critic networks
Exercise 3: Computing advantages with GAE
Exercise 4: The PPO update step
Exercise 5: Training your own agent

IG:   / darachaukh
YouTube:    / @tfdevs
Website: https://www.tfdevs.com/
Linkedin:   / qiang-cun-zhi
TikTok: https://www.tiktok.com/@chaudarakh?_r...
Telegram Channel: https://t.me/tfdTech
Facebook Page:
  / chaudarascienceengineer

#MachineLearning #ReinforcementLearning #AI #PPO #Workshop #TechEducation #LearningByDoing #AIWorkshop #DeepLearning #PyTorch

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

ស្វែងយល់ពី Proximal Policy Optimization | PPO | Machine Learning Series | TFD Workshop

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

ចំនួនសិស្ស វិទ្យាសាស្រ្តពិត កាន់តែតិចទៅៗ ទំនោរល្អរឺអាក្រក់ | is Cambodia's STEM losing Momentum?

ចំនួនសិស្ស វិទ្យាសាស្រ្តពិត កាន់តែតិចទៅៗ ទំនោរល្អរឺអាក្រក់ | is Cambodia's STEM losing Momentum?

Burnout អស់ចំណង់ធ្វើអីទាំងអស់? ដោះស្រាយយ៉ាងម៉េចទៅ?| My Tech Burnout and How I Dealt with It

Burnout អស់ចំណង់ធ្វើអីទាំងអស់? ដោះស្រាយយ៉ាងម៉េចទៅ?| My Tech Burnout and How I Dealt with It

Лекция от легенды ИИ в Стэнфорде

Лекция от легенды ИИ в Стэнфорде

ឈ្នះខ្លួនឯង ប្រសើជាងឈ្នះអ្វីៗទាំងអស់ | Self-mastery is the first step to clarity

ឈ្នះខ្លួនឯង ប្រសើជាងឈ្នះអ្វីៗទាំងអស់ | Self-mastery is the first step to clarity

Агентские системы от разработки до оценки

Агентские системы от разработки до оценки

ចំណាយពេល 5 ខែទើបចេញផុតពី ការបាក់ទឹកចិត្ត Depression ! ខ្ញុំរៀនបានអីខ្លះ? | My battle with Depression

ចំណាយពេល 5 ខែទើបចេញផុតពី ការបាក់ទឹកចិត្ត Depression ! ខ្ញុំរៀនបានអីខ្លះ? | My battle with Depression

Swiss tables в Go. Наиболее полный разбор внутреннего устройства новой мапы

Swiss tables в Go. Наиболее полный разбор внутреннего устройства новой мапы

Парижские шансон-песни о любви 60-х годов | Винтажная французская романтика (аккордеон и фортепиан..

Парижские шансон-песни о любви 60-х годов | Винтажная французская романтика (аккордеон и фортепиан..

NotebookLM на максималках. Как изучать всё быстрее чем 99% пользователей

NotebookLM на максималках. Как изучать всё быстрее чем 99% пользователей

Почему ИИ может решить самые сложные математические задачи — Ян-Хуэй Хэ (математический физик)

Почему ИИ может решить самые сложные математические задачи — Ян-Хуэй Хэ (математический физик)

AI សរសេរកូដបាន… តោះឈប់រៀន IT ? | AI Writes Code, But Who Fixes the Problems | TFDevs

AI សរសេរកូដបាន… តោះឈប់រៀន IT ? | AI Writes Code, But Who Fixes the Problems | TFDevs

Александра Прокопенко: что власти не могут скрыть даже в официальной статистике? Телеграм и бизнес

Александра Прокопенко: что власти не могут скрыть даже в официальной статистике? Телеграм и бизнес

Илон Маск /22.01.26/ Всемирный экономический форум 2026.

Илон Маск /22.01.26/ Всемирный экономический форум 2026.

Разбор архитектуры обработок Контур/СБИС в 1С

Разбор архитектуры обработок Контур/СБИС в 1С

Стоит ли мне изучать искусственный интеллект?

Стоит ли мне изучать искусственный интеллект?

Claude Code / Cowork: ИИ-агенты для НЕпрограммистов

Claude Code / Cowork: ИИ-агенты для НЕпрограммистов

Секретный план Microsoft: подробный разбор пути обновления до Windows 12.

Секретный план Microsoft: подробный разбор пути обновления до Windows 12.

Лучший документальный фильм про создание ИИ

Лучший документальный фильм про создание ИИ

ត្រៀមខ្លួនធ្វើជា Software Engineer? | កិច្ចសម្ភាសន៍ជាមួយ U.S. Ambassador's Youth Council

ត្រៀមខ្លួនធ្វើជា Software Engineer? | កិច្ចសម្ភាសន៍ជាមួយ U.S. Ambassador's Youth Council

Поэтапный шатдаун. Статус S09E23

Поэтапный шатдаун. Статус S09E23