Q Learning simply explained | SARSA and Q-Learning Explanation

Автор: Marcus Koseck

Загружено: 2023-07-30

Просмотров: 40483

Описание: This problem is from a book called Reinforcement Learning: In Introduction by Richard S. Sutton and Andrew G. Barto. I found this problem to be a good way to introduce SARSA and Q-Learning. I am not an expert in reinforcement learning, but I find these kind of ideas interesting. I thought it would be cool to explore reinforcement learning and make a video explaining a concept to the best of my ability. I will be making more videos about reinforcement learning in the future and hopefully my explanations get better as time goes on.

Credits:
I used Manim for the animations.

All of the information on reinforcement learning came from the RL book by Sutton and Barto. I didn't explain the concepts well enough in the video to do the book justice. The book is very well written.

The environment is from AIGym.

GitHub:
https://github.com/marcuskoseck

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Q Learning simply explained | SARSA and Q-Learning Explanation

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

The BEST Q-Learning example! | The Mountain Car Problem

The BEST Q-Learning example! | The Mountain Car Problem

Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией

Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией

Q-Learning: Model Free Reinforcement Learning and Temporal Difference Learning

Q-Learning: Model Free Reinforcement Learning and Temporal Difference Learning

Прикладное машинное обучение. Семинар 8. Value based & Q-learning

Прикладное машинное обучение. Семинар 8. Value based & Q-learning

Искусственный интеллект высадил ИИ на Луну! | Глубокое Q-обучение | PyTorch | Обучение с подкрепл...

Искусственный интеллект высадил ИИ на Луну! | Глубокое Q-обучение | PyTorch | Обучение с подкрепл...

Самый важный алгоритм в машинном обучении

Самый важный алгоритм в машинном обучении

Что ошибочно пишут в книгах об ИИ [Двойной спуск]

Что ошибочно пишут в книгах об ИИ [Двойной спуск]

Почему диффузия работает лучше, чем авторегрессия?

Почему диффузия работает лучше, чем авторегрессия?

Оптимизация проксимальной политики (PPO) — как обучать большие языковые модели

Оптимизация проксимальной политики (PPO) — как обучать большие языковые модели

Основы Q-обучения | Объяснение временной разницы в обучении!

Основы Q-обучения | Объяснение временной разницы в обучении!

The FASTEST introduction to Reinforcement Learning on the internet

The FASTEST introduction to Reinforcement Learning on the internet

Обучение с подкреплением с нуля

Обучение с подкреплением с нуля

C++: Самый Противоречивый Язык Программирования

C++: Самый Противоречивый Язык Программирования

Зачем нужна топология?

Зачем нужна топология?

Reinforcement Learning: Essential Concepts

Reinforcement Learning: Essential Concepts

SARSA vs Q Learning

SARSA vs Q Learning

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Q-learning - Explained!

Q-learning - Explained!

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

Q-Learning: полный пример на Python

Q-Learning: полный пример на Python