TD-MPC Explained, With Alexander Soare (Part 2 of 2)

Автор: HuggingFace

Загружено: 2024-10-24

Просмотров: 1196

Описание: In this video I explain how we train the neural networks of TD-MPC.

TD-MPC paper: https://arxiv.org/abs/2203.04955
FOWM paper (this is what's behind the implementation in the LeRobot library): https://arxiv.org/abs/2310.16029
LeRobot code: https://github.com/huggingface/lerobo...

Many thanks to Nicklas Hansen et. al. for publishing their research and open sourcing their code.

Chapters:
0:00 - Listing the neural networks we need to train
04:53 - What a training batch item looks like
06:09 - Forward passes and losses
13:41 - Why the latent state representation does not collapse
14:24 - Understanding TD Learning
23:42 - TD learning intuition in real experiments
26:58 - Optimizing the Q network using the TD error
30:34 - Offline vs online data collection and training loop
36:20 - Wrapping up

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

TD-MPC Explained, With Alexander Soare (Part 2 of 2)

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Lecture 6: Learning t-Doped Fermionic Unitaries (Vishnu Iyer)

Lecture 6: Learning t-Doped Fermionic Unitaries (Vishnu Iyer)

Как настроить Gemini Gems | Инструкция для идеальных промптов 2026

Как настроить Gemini Gems | Инструкция для идеальных промптов 2026

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

TD-MPC Explained, With Alexander Soare (Part 1 of 2)

TD-MPC Explained, With Alexander Soare (Part 1 of 2)

TDMPC: LeRobot Research Presentation #3 by Nicklas Hansen

TDMPC: LeRobot Research Presentation #3 by Nicklas Hansen

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Обращение к нации, с которого началась война (English subtitles) @Максим Кац

Обращение к нации, с которого началась война (English subtitles) @Максим Кац

Почему AI генерит мусор — и как заставить его писать нормальный код

Почему AI генерит мусор — и как заставить его писать нормальный код

ВЫ НЕ ЗНАЛИ ЭТОГО О ЕДЕ. Семихатов, Сурдин, Новиков

ВЫ НЕ ЗНАЛИ ЭТОГО О ЕДЕ. Семихатов, Сурдин, Новиков

Почему взрываются батарейки и аккумуляторы? [Veritasium]

Почему взрываются батарейки и аккумуляторы? [Veritasium]

Самая недооценённая идея в науке

Самая недооценённая идея в науке

Что НАСА обнаружило на Ио

Что НАСА обнаружило на Ио

Гипотеза Пуанкаре — Алексей Савватеев на ПостНауке

Гипотеза Пуанкаре — Алексей Савватеев на ПостНауке

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Лучший документальный фильм про создание ИИ

Лучший документальный фильм про создание ИИ

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Автоматизация взлома оборудования с помощью кода Клода

Автоматизация взлома оборудования с помощью кода Клода

Как заговорить на любом языке? Главная ошибка 99% людей в изучении. Полиглот Дмитрий Петров.

Как заговорить на любом языке? Главная ошибка 99% людей в изучении. Полиглот Дмитрий Петров.

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки