Theresa Eimer - Hyperparameters in RL

Автор: RL and Agents Reading Group

Загружено: 2024-11-05

Просмотров: 117

Описание: UoE RL Reading Group | 31 October 2024

Speaker: Theresa Eimer (Leibniz University Hannover)

Title: Hyperparameters in RL

Abstract: Hyperparameters are a necessary evil for training RL agents - tuning them is crucial for training success. How to best do this, however, is an open question. RL papers often feature limited grid searches and research on hyperparameters in RL usually lack standardized comparisons. This talk will shed light on the attributes of the hyperparameter landscape in RL, make a case of automated tuning approaches over manual tuning and compare some popular hyperparameter optimization approaches. We will also discuss the current limitations of tuning approaches for RL and where improved RL-specific methods could shine.

Link(s): https://arxiv.org/abs/2306.01324

Bio: Theresa Eimer is a PhD student at the Leibniz University Hannover broadly interested in making Reinforcement Learning more efficient and easier to apply via AutoRL. Her focus is on how to make low-level design decisions for RL algorithms.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Theresa Eimer - Hyperparameters in RL

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Geraud Tasse - Generalisation in Lifelong Reinforcement Learning through Logical Composition

Geraud Tasse - Generalisation in Lifelong Reinforcement Learning through Logical Composition

Prof. Andrew Michta: Czy wojna z Iranem pomoże Rosji i zaszkodzi Ukrainie? USA wpadły w pułapkę?

Prof. Andrew Michta: Czy wojna z Iranem pomoże Rosji i zaszkodzi Ukrainie? USA wpadły w pułapkę?

Джеффри Сакс: Мы на пороге Третьей мировой, Трамп провалился в Иране

Джеффри Сакс: Мы на пороге Третьей мировой, Трамп провалился в Иране

Eduardo Pignatelli - On the temporal credit assignment in Deep RL

Eduardo Pignatelli - On the temporal credit assignment in Deep RL

Lukas Schäfer - Ensemble Value Functions for Efficient Exploration in Multi-Agent RL

Lukas Schäfer - Ensemble Value Functions for Efficient Exploration in Multi-Agent RL

Tristan Tomilin - Benchmarking Pixel-Based RL in Egocentric Perception Environments

Tristan Tomilin - Benchmarking Pixel-Based RL in Egocentric Perception Environments

Benchmarking AI in project portfolio management: Where does your PMO stand? | Sensei Webinar

Benchmarking AI in project portfolio management: Where does your PMO stand? | Sensei Webinar

Иран за 4 дня?

Энергетическая политика | «Обеденные деньги» с Полом Кругманом и Хизер Кокс Ричардсон

Энергетическая политика | «Обеденные деньги» с Полом Кругманом и Хизер Кокс Ричардсон

ШУЛЬМАН: новая мобилизация, уход Путина, смута. Чебурнет. Большое интервью / МОЖЕМ ОБЪЯСНИТЬ

ШУЛЬМАН: новая мобилизация, уход Путина, смута. Чебурнет. Большое интервью / МОЖЕМ ОБЪЯСНИТЬ

David Abel - A Definition of Continual Reinforcement Learning

David Abel - A Definition of Continual Reinforcement Learning

Лекция от легенды ИИ в Стэнфорде

Лекция от легенды ИИ в Стэнфорде

Москва без связи. Статус S09E27

Москва без связи. Статус S09E27

КЛАССИЧЕСКАЯ МУЗЫКА ДЛЯ ВОССТАНОВЛЕНИЯ НЕРВНОЙ СИСТЕМЫ🌿 Нежная музыка успокаивает нервную систему 22

КЛАССИЧЕСКАЯ МУЗЫКА ДЛЯ ВОССТАНОВЛЕНИЯ НЕРВНОЙ СИСТЕМЫ🌿 Нежная музыка успокаивает нервную систему 22

ВСУ закроют небо на Ближнем Востоке / Ультиматум Ирана Израилю и США /№1108/ Юрий Швец

ВСУ закроют небо на Ближнем Востоке / Ультиматум Ирана Израилю и США /№1108/ Юрий Швец

#22 | AI починає наймати людей, кінець епохи IT — що з OpenAI, Claude, Gemini

#22 | AI починає наймати людей, кінець епохи IT — що з OpenAI, Claude, Gemini

Joe Marino (Google DeepMind) - SIMA 2: A Generalist Embodied Agent for Virtual Worlds

Joe Marino (Google DeepMind) - SIMA 2: A Generalist Embodied Agent for Virtual Worlds

Daphne Cornelisse - Human-compatible driving partners through data-regularized self-play RL

Daphne Cornelisse - Human-compatible driving partners through data-regularized self-play RL

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

Китай, военный экспорт, K-pop: как Северная и Южная Корея влияют на мир? Интервью Андрея Ланькова

Китай, военный экспорт, K-pop: как Северная и Южная Корея влияют на мир? Интервью Андрея Ланькова