L4 TRPO and PPO (Foundations of Deep RL Series)

Автор: Pieter Abbeel

Загружено: 2021-08-24

Просмотров: 47185

Описание: Lecture 4 of a 6-lecture series on the Foundations of Deep RL
Topic: Trust Region Policy Optimization (TRPO) and Proximal Policy Optimization (PPO)
Instructor: Pieter Abbeel

Slides: https://www.dropbox.com/s/bodgpysmm6l...

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

L4 TRPO and PPO (Foundations of Deep RL Series)

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

L5 DDPG and SAC (Foundations of Deep RL Series)

L5 DDPG and SAC (Foundations of Deep RL Series)

L1 MDPs, Exact Solution Methods, Max-ent RL (Foundations of Deep RL Series)

L1 MDPs, Exact Solution Methods, Max-ent RL (Foundations of Deep RL Series)

CS885 Lecture 14c: Trust Region Methods

CS885 Lecture 14c: Trust Region Methods

Оптимизация проксимальной политики (PPO) — как обучать большие языковые модели

Оптимизация проксимальной политики (PPO) — как обучать большие языковые модели

Алгоритмы SARSA и Q-learning — база для изучения Reinforcement Learning // «Reinforcement Learning»

Алгоритмы SARSA и Q-learning — база для изучения Reinforcement Learning // «Reinforcement Learning»

L3 Policy Gradients and Advantage Estimation (Foundations of Deep RL Series)

L3 Policy Gradients and Advantage Estimation (Foundations of Deep RL Series)

Машинное обучение. Обучение с подкреплением. К.В. Воронцов, Школа анализа данных, Яндекс.

Машинное обучение. Обучение с подкреплением. К.В. Воронцов, Школа анализа данных, Яндекс.

L2 Deep Q-Learning (Основы глубокого RL-обучения)

L2 Deep Q-Learning (Основы глубокого RL-обучения)

Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 1: Class Intro

Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 1: Class Intro

Proximal Policy Optimization (PPO) is Easy With PyTorch | Full PPO Tutorial

Proximal Policy Optimization (PPO) is Easy With PyTorch | Full PPO Tutorial

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

L6 Model-based RL (Foundations of Deep RL Series)

L6 Model-based RL (Foundations of Deep RL Series)

Обучение с подкреплением и обратной связью с человеком (RLHF) — как обучать и настраивать модели ...

Обучение с подкреплением и обратной связью с человеком (RLHF) — как обучать и настраивать модели ...

Stanford CS230 | Autumn 2025 | Lecture 1: Introduction to Deep Learning

Stanford CS230 | Autumn 2025 | Lecture 1: Introduction to Deep Learning

Policy Gradient Methods | Reinforcement Learning Part 6

Policy Gradient Methods | Reinforcement Learning Part 6

2. Bayesian Optimization

2. Bayesian Optimization

Deep RL Bootcamp Lecture 6: Nuts and Bolts of Deep RL Experimentation

Deep RL Bootcamp Lecture 6: Nuts and Bolts of Deep RL Experimentation

Direct Preference Optimization (DPO) - How to fine-tune LLMs directly without reinforcement learning

Direct Preference Optimization (DPO) - How to fine-tune LLMs directly without reinforcement learning

Обучение с подкреплением с нуля

Обучение с подкреплением с нуля

DRL Course 2023 | Proximal Policy Optimization (PPO), практическое занятие

DRL Course 2023 | Proximal Policy Optimization (PPO), практическое занятие