#6.4 PPO/DPPO Proximal Policy Optimization (强化学习 Reinforcement Learning with tensorflow 教学)

Автор: Morvan Zhou

Загружено: 2017-08-28

Просмотров: 17300

Описание: 根据 OpenAI 的官方博客, PPO 已经成为他们在强化学习上的默认算法. 如果一句话概括 PPO: OpenAI 提出的一种解决 Policy Gradient 不好确定 Learning rate (或者 Step size) 的问题. 因为如果 step size 过大, 学出来的 Policy 会一直乱动, 不会收敛, 但如果 Step Size 太小, 对于完成训练, 我们会等到绝望. PPO 利用 New Policy 和 Old Policy 的比例, 限制了 New Policy 的更新幅度, 让 Policy Gradient 对稍微大点的 Step size 不那么敏感.

详细的文字教程: https://morvanzhou.github.io/tutorial...
Code: https://github.com/MorvanZhou/Reinfor...
通过 "莫烦 Python" 支持我做出更好的视频: https://morvanzhou.github.io/support/
通过翻译,帮助其他语言的观看者:http://www.youtube.com/timedtext_cs_p...
莫烦 Python 更多有趣的教程: https://morvanzhou.github.io/tutorials/

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

#6.4 PPO/DPPO Proximal Policy Optimization (强化学习 Reinforcement Learning with tensorflow 教学)

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

[大模型面试] 什么是pre-norm, post-norm? 为什么现在大模型都用pre-norm架构? post-norm有什么问题? 新的norm架构?

[大模型面试] 什么是pre-norm, post-norm? 为什么现在大模型都用pre-norm架构? post-norm有什么问题? 新的norm架构?

Reinforcement Learning for LLMs

Reinforcement Learning for LLMs

Simply Explaining Proximal Policy Optimization (PPO) | Deep Reinforcement Learning

Simply Explaining Proximal Policy Optimization (PPO) | Deep Reinforcement Learning

Оптимизация проксимальной политики (PPO) — как обучать большие языковые модели

Оптимизация проксимальной политики (PPO) — как обучать большие языковые модели

L4 TRPO and PPO (Foundations of Deep RL Series)

L4 TRPO and PPO (Foundations of Deep RL Series)

Proximal Policy Optimization (PPO) for LLMs Explained Intuitively

Proximal Policy Optimization (PPO) for LLMs Explained Intuitively

AlphaStar: Grandmaster level in StarCraft II using multi-agent reinforcement learning

AlphaStar: Grandmaster level in StarCraft II using multi-agent reinforcement learning

【喂饭教程】一条视频搞清大模型强化学习（PPO），算法思想|实现细节|原理图解！全程干货，小白也能轻松拿捏！AI大模型|LLM|强化学习

【喂饭教程】一条视频搞清大模型强化学习（PPO），算法思想|实现细节|原理图解！全程干货，小白也能轻松拿捏！AI大模型|LLM|强化学习

Борис Трушин: Красивые математические задачи с айтишных собеседований

Борис Трушин: Красивые математические задачи с айтишных собеседований

Proximal Policy Optimization (PPO) is Easy With PyTorch | Full PPO Tutorial

Proximal Policy Optimization (PPO) is Easy With PyTorch | Full PPO Tutorial

Обучение с подкреплением со стабильными базовыми уровнями 3 — Введение (стр. 1)

Обучение с подкреплением со стабильными базовыми уровнями 3 — Введение (стр. 1)

Решение проблемы шагающего робота с помощью обучения с подкреплением

Решение проблемы шагающего робота с помощью обучения с подкреплением

GPT 预训练生成语言模型 #6.3【莫烦Python NLP 自然语言处理教学】

GPT 预训练生成语言模型 #6.3【莫烦Python NLP 自然语言处理教学】

Genetic Algorithms in Python - Evolution For Optimization

Genetic Algorithms in Python - Evolution For Optimization

ИРАН — САМАЯ НЕОБЫЧНАЯ СТРАНА МИРА? Факты, о которых не говорят

ИРАН — САМАЯ НЕОБЫЧНАЯ СТРАНА МИРА? Факты, о которых не говорят

Введение в методы градиента политики — глубокое обучение с подкреплением

Введение в методы градиента политики — глубокое обучение с подкреплением

Глубокое обучение с подкреплением и оптимизацией проксимальной политики (PPO) с примером кода!

Глубокое обучение с подкреплением и оптимизацией проксимальной политики (PPO) с примером кода!

TRPO 置信域策略优化 (Trust Region Policy Optimization)

TRPO 置信域策略优化 (Trust Region Policy Optimization)

注意力语言模型 Attention #5.2 (莫烦PythonNLP 自然语言处理教学)

注意力语言模型 Attention #5.2 (莫烦PythonNLP 自然语言处理教学)

Лекция от легенды ИИ в Стэнфорде

Лекция от легенды ИИ в Стэнфорде