Adam Jelley and Eloi Alonso - Diffusion for World Modeling: Visual Details Matter in Atari (DIAMOND)

Автор: RL and Agents Reading Group

Загружено: 2025-01-03

Просмотров: 475

Описание: UoE RL Reading Group | 14 November 2024

Speaker: Adam Jelley and Eloi Alonso (University of Edinburgh, University of Geneva)

Title: Diffusion for World Modeling: Visual Details Matter in Atari (DIAMOND)

Abstract: World models constitute a promising approach for training reinforcement learning agents in a safe and sample-efficient manner. Recent world models predominantly operate on sequences of discrete latent variables to model environment dynamics. However, this compression into a compact discrete representation may ignore visual details that are important for reinforcement learning. Concurrently, diffusion models have become a dominant approach for image generation, challenging well-established methods modeling discrete latents. Motivated by this paradigm shift, we introduce DIAMOND (DIffusion As a Model Of eNvironment Dreams), a reinforcement learning agent trained in a diffusion world model. We analyze the key design choices that are required to make diffusion suitable for world modeling, and demonstrate how improved visual details can lead to improved agent performance. DIAMOND achieves a mean human normalized score of 1.46 on the competitive Atari 100k benchmark; a new best for agents trained entirely within a world model. We further demonstrate that DIAMOND's diffusion world model can stand alone as an interactive neural game engine by training on static Counter-Strike: Global Offensive gameplay.

Link(s): https://arxiv.org/abs/2405.12399

Bio: Adam is a PhD student at the University of Edinburgh, supervised by Professor Amos Storkey in the School of Informatics and Sam Devlin at Microsoft Research Cambridge. His research is focused on developing efficient reinforcement learning approaches, via the use of world models, offline data and human feedback. Eloi is a PhD student at the University of Geneva, supervised by Professor François Fleuret. His research is focused on world modeling via generative models, and reinforcement learning.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Adam Jelley and Eloi Alonso - Diffusion for World Modeling: Visual Details Matter in Atari (DIAMOND)

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Samuel Garcin & Trevor McInroe - Studying the Interplay Between Actor / Critic Representations in RL

Samuel Garcin & Trevor McInroe - Studying the Interplay Between Actor / Critic Representations in RL

CSCI 3151 - M49 - LSTMs, GRUs, and gated RNN variants

CSCI 3151 - M49 - LSTMs, GRUs, and gated RNN variants

Что такое модели диффузии?

Что такое модели диффузии?

Как Фэй-Фэй Ли перестраивает ИИ для реального мира

Как Фэй-Фэй Ли перестраивает ИИ для реального мира

Daphne Cornelisse - Human-compatible driving partners through data-regularized self-play RL

Daphne Cornelisse - Human-compatible driving partners through data-regularized self-play RL

Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир?

Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир?

Фильм Алексея Семихатова «ГРАВИТАЦИЯ»

Фильм Алексея Семихатова «ГРАВИТАЦИЯ»

Как Гений Математик разгадал тайну вселенной

Как Гений Математик разгадал тайну вселенной

Что такое жидкие нейросети? Liquid neural networks. Объяснение.

Что такое жидкие нейросети? Liquid neural networks. Объяснение.

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

World Foundation Models - Computerphile

World Foundation Models - Computerphile

Гипотеза Пуанкаре — Алексей Савватеев на ПостНауке

Гипотеза Пуанкаре — Алексей Савватеев на ПостНауке

Я разобрал всю ИИ-экосистему Google — 7 ключевых инструментов

Я разобрал всю ИИ-экосистему Google — 7 ключевых инструментов

Электричество НЕ течёт по проводам — тревожное открытие Ричарда Фейнмана

Электричество НЕ течёт по проводам — тревожное открытие Ричарда Фейнмана

Блокировка Telegram: ТОП-5 защищенных мессенджеров на замену

Блокировка Telegram: ТОП-5 защищенных мессенджеров на замену

Швейцарцы хранят деньги

Швейцарцы хранят деньги "под матрацем" | Победа в борьбе за наличные | статья | Валентин Катасонов

МФТИ: Кто создает будущее дронов?

МФТИ: Кто создает будущее дронов?

Лучший документальный фильм про создание ИИ

Лучший документальный фильм про создание ИИ

Скотт Риттер: США скрывают участие? Политические ошибки Нетаньяху

Скотт Риттер: США скрывают участие? Политические ошибки Нетаньяху