Reinforcement Learning Fundamentals - Part 2 - Actor Critic Models (A2C)

Автор: John Olafenwa

Загружено: 2026-01-12

Просмотров: 11

Описание: RL with actor critic methods. In this video, I explained the challenges with policy gradient methods using full returns and introduced value estimation, advantage functions and actor critic methods.
This is part 2 of a series that will conclude in running RL on LLMs.
You can find code for this part here: https://github.com/johnolafenwa/agi-p...

And slides here: https://docs.google.com/presentation/...

Contents

00:00:00 Intro
00:00:48 Recap of RL101
00:08:53 The Variance Problem
00:15:12 Advantage Functions
00:28:33 Code Implementation of A2C

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Reinforcement Learning Fundamentals - Part 2 - Actor Critic Models (A2C)

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Fundamentals of RL - Part 1

Fundamentals of RL - Part 1

RL vs SFT : On Policy vs Off Policy Learning

RL vs SFT : On Policy vs Off Policy Learning

Recursive Language Model implemented, evaluated, explained

Recursive Language Model implemented, evaluated, explained

Код работает в 100 раз медленнее из-за ложного разделения ресурсов.

Код работает в 100 раз медленнее из-за ложного разделения ресурсов.

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Understanding Transformers and GPTs - Part 1

Understanding Transformers and GPTs - Part 1

Как удалить следы SUNO.AI (МАСТЕР SUNO)

Как удалить следы SUNO.AI (МАСТЕР SUNO)

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Почему прикладное обучение с подкреплением является сложным?

Почему прикладное обучение с подкреплением является сложным?

Может ли у ИИ появиться сознание? — Семихатов, Анохин

Может ли у ИИ появиться сознание? — Семихатов, Анохин

Удалось ли Терри Тао решить уравнение стоимостью 1 000 000 долларов, которое нарушает законы физики?

Удалось ли Терри Тао решить уравнение стоимостью 1 000 000 долларов, которое нарушает законы физики?

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Алгоритмический скальпель: как Python помогает находить и использовать рыночные неэффективности

Алгоритмический скальпель: как Python помогает находить и использовать рыночные неэффективности

Knowledge Distillation in Large Language Models

Knowledge Distillation in Large Language Models

This is the moment everyone has been waiting for

This is the moment everyone has been waiting for

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Claude банит Cursor, ушёл Создатель GPT-4, ИИ банкротит бизнес

Claude банит Cursor, ушёл Создатель GPT-4, ИИ банкротит бизнес

⚡️ НАТО обратилось к Путину || Силовой захват региона

⚡️ НАТО обратилось к Путину || Силовой захват региона

Агентность: навык, который бьёт интеллект и опыт в 2026

Агентность: навык, который бьёт интеллект и опыт в 2026