ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Lukas Schäfer - Ensemble Value Functions for Efficient Exploration in Multi-Agent RL

rl

reinforcement learning

Автор: RL and Agents Reading Group

Загружено: 2024-05-20

Просмотров: 102

Описание: UoE RL Reading Group | 2 March 2023

Speaker: Lukas Schäfer (University of Edinburgh)

Title: Ensemble Value Functions for Efficient Exploration in Multi-Agent Reinforcement Learning

Abstract: Cooperative multi-agent reinforcement learning (MARL) requires agents to explore to learn to cooperate. Existing value-based MARL algorithms commonly rely on random exploration, such as ϵ-greedy, which is inefficient in discovering multi-agent cooperation. Additionally, the environment in MARL appears non-stationary to any individual agent due to the simultaneous training of other agents, leading to highly variant and thus unstable optimisation signals. In this work, we propose ensemble value functions for multi-agent exploration (EMAX), a general framework to extend any value-based MARL algorithm. EMAX trains ensembles of value functions for each agent to address the key challenges of exploration and non-stationarity: (1) The uncertainty of value estimates across the ensemble is used in a UCB policy to guide the exploration of agents to parts of the environment which require cooperation. (2) Average value estimates across the ensemble serve as target values. These targets exhibit lower variance compared to commonly applied target networks and we show that they lead to more stable gradients during the optimisation. We instantiate three value-based MARL algorithms with EMAX, independent DQN, VDN and QMIX, and evaluate them in 21 tasks across four environments. Using ensembles of five value functions, EMAX improves sample efficiency and final evaluation returns of these algorithms by 54%, 55%, and 844%, respectively, averaged all 21 tasks.


Link: https://arxiv.org/abs/2302.03439

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Lukas Schäfer - Ensemble Value Functions for Efficient Exploration in Multi-Agent RL

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

David Abel - A Definition of Continual Reinforcement Learning

David Abel - A Definition of Continual Reinforcement Learning

Eduardo Pignatelli - On the temporal credit assignment in Deep RL

Eduardo Pignatelli - On the temporal credit assignment in Deep RL

Pablo Samuel Castro - Mixtures of Experts Unlock Parameter Scaling for Deep RL

Pablo Samuel Castro - Mixtures of Experts Unlock Parameter Scaling for Deep RL

Claude Formanek - Dispelling the Mirage of Progress in Offline MARL through Standardise Baselines...

Claude Formanek - Dispelling the Mirage of Progress in Offline MARL through Standardise Baselines...

Theresa Eimer - Hyperparameters in RL

Theresa Eimer - Hyperparameters in RL

Factored Value Functions for Cooperative Multi-Agent Reinforcement Learning

Factored Value Functions for Cooperative Multi-Agent Reinforcement Learning

МФТИ: Кто создает будущее дронов?

МФТИ: Кто создает будущее дронов?

Иран не примет перемирие? Скотт Риттер: война только начинается

Иран не примет перемирие? Скотт Риттер: война только начинается

Алексей Савватеев. Зачем нужно высшее образование? | ТОЛК

Алексей Савватеев. Зачем нужно высшее образование? | ТОЛК

Разведчик о том, как использовать людей

Разведчик о том, как использовать людей

ЧЕМ ЗАКОНЧИТСЯ ВОЙНА В ИРАНЕ? БЕСЕДА С ВИТАЛИЙ ПОРТНИКОВ  @portnikov.argumenty

ЧЕМ ЗАКОНЧИТСЯ ВОЙНА В ИРАНЕ? БЕСЕДА С ВИТАЛИЙ ПОРТНИКОВ @portnikov.argumenty

Factored Value Functions for Cooperative MARL - Shimon Whiteson and Tabish Rashid

Factored Value Functions for Cooperative MARL - Shimon Whiteson and Tabish Rashid

Гипотеза Пуанкаре — Алексей Савватеев на ПостНауке

Гипотеза Пуанкаре — Алексей Савватеев на ПостНауке

КЛАССИЧЕСКАЯ МУЗЫКА ДЛЯ ВОССТАНОВЛЕНИЯ НЕРВНОЙ СИСТЕМЫ🌿 Нежная музыка успокаивает нервную систему 22

КЛАССИЧЕСКАЯ МУЗЫКА ДЛЯ ВОССТАНОВЛЕНИЯ НЕРВНОЙ СИСТЕМЫ🌿 Нежная музыка успокаивает нервную систему 22

NA ŻYWO: Iran stawia warunki USA

NA ŻYWO: Iran stawia warunki USA

Adam White - Empirical Design in Reinforcement Learning

Adam White - Empirical Design in Reinforcement Learning

Tristan Tomilin - Benchmarking Pixel-Based RL in Egocentric Perception Environments

Tristan Tomilin - Benchmarking Pixel-Based RL in Egocentric Perception Environments

Samuel Garcin & Trevor McInroe - Studying the Interplay Between Actor / Critic Representations in RL

Samuel Garcin & Trevor McInroe - Studying the Interplay Between Actor / Critic Representations in RL

Deep Reinforcement Learning for Multi-Agent Interaction - Stefano Albrecht

Deep Reinforcement Learning for Multi-Agent Interaction - Stefano Albrecht

Учёные в Давосе 2026: жесткий спор о безопасности и AGI

Учёные в Давосе 2026: жесткий спор о безопасности и AGI

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]