ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Matthew Jackson and Jarek Liesen (Oxford) - A Clean Slate for Offline RL

Автор: RL and Agents Reading Group

Загружено: 2026-03-10

Просмотров: 22

Описание: RL & Agents Reading Group | 9 January 2026

Speakers: Matthew Jackson and Jarek Liesen
Title: A Clean Slate for Offline RL

Abstract:
Despite years of research in offline reinforcement learning (RL), the field has failed to deliver major breakthroughs in its core problem settings. This stagnation is not due to inadequate algorithms, but rather to a failure to rigorously define what constitutes offline RL. Although offline RL explicitly forbids interaction with the environment, much prior work relies on extensive, undocumented online evaluation for hyperparameter tuning, making it impossible to compare method or determine the state-of-the-art.

In this project, we aim to enable impactful and reproducible research in offline RL. We introduce a transparent and robust evaluation protocol, reimplement a wide range of prior methods in end-to-end JAX, and unify their key components into a Rainbow-style algorithm called Unifloral. Using Unifloral, we conduct a comprehensive reevaluation of existing methods and propose two new state-of-the-art approaches for model-free and model-based offline RL. By publicly releasing our implementation, we make it straightforward to reproduce, evaluate, and extend offline RL methods, making it simple to discover new algorithms.

Links:
ArXiv: https://arxiv.org/abs/2504.11453
Github: https://github.com/EmptyJackson/unifl...

Matthew's Bio:
Matthew Jackson is a graduating PhD student in the FLAIR and WhiRL labs at Oxford, interested in video world models and RL as a path to general-purpose robotics. He has worked on the Genie team at Google DeepMind and the GAIA team at Wayve, as well as publishing research in diffusion, video models, and offline and meta RL.

Jarek’s bio:
Jarek Liesen is a second-year PhD student in the FLAIR group at Oxford focusing on scalable reinforcement learning. He is the author of Rejax, a hardware-accelerated reinforcement learning library in pure JAX, and a co-author of A Clean Slate for Offline Reinforcement Learning, which introduces rigorous evaluation protocols and the Unifloral offline RL library.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Matthew Jackson and Jarek Liesen (Oxford) - A Clean Slate for Offline RL

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

Cam Allen - The Agent Must Choose the Problem Model

Cam Allen - The Agent Must Choose the Problem Model

Joe Marino (Google DeepMind) - SIMA 2: A Generalist Embodied Agent for Virtual Worlds

Joe Marino (Google DeepMind) - SIMA 2: A Generalist Embodied Agent for Virtual Worlds

Возвращаясь к эдиакарской загадке

Возвращаясь к эдиакарской загадке

Samuel Garcin & Trevor McInroe - Studying the Interplay Between Actor / Critic Representations in RL

Samuel Garcin & Trevor McInroe - Studying the Interplay Between Actor / Critic Representations in RL

NotebookLM на максималках. Как изучать всё быстрее чем 99% пользователей

NotebookLM на максималках. Как изучать всё быстрее чем 99% пользователей

Насколько сложно пройти собеседование по математике в Оксфорде? При участии Тома Рокса из Maths

Насколько сложно пройти собеседование по математике в Оксфорде? При участии Тома Рокса из Maths

МФТИ: Кто создает будущее дронов?

МФТИ: Кто создает будущее дронов?

Как заговорить на любом языке? Главная ошибка 99% людей в изучении. Полиглот Дмитрий Петров.

Как заговорить на любом языке? Главная ошибка 99% людей в изучении. Полиглот Дмитрий Петров.

Mattie Fellows - Simplifying Deep Temporal Difference Learning

Mattie Fellows - Simplifying Deep Temporal Difference Learning

Обзор Claude AI: Как он заменил мне Gemini, NotebookLM и Antigravity.

Обзор Claude AI: Как он заменил мне Gemini, NotebookLM и Antigravity.

Claude Formanek - Dispelling the Mirage of Progress in Offline MARL through Standardise Baselines...

Claude Formanek - Dispelling the Mirage of Progress in Offline MARL through Standardise Baselines...

Daphne Cornelisse - Human-compatible driving partners through data-regularized self-play RL

Daphne Cornelisse - Human-compatible driving partners through data-regularized self-play RL

Лекция от легенды ИИ в Стэнфорде

Лекция от легенды ИИ в Стэнфорде

Adam White - Empirical Design in Reinforcement Learning

Adam White - Empirical Design in Reinforcement Learning

Математик Оксфордского университета РЕАКЦИЯ на «9 математических загадок, которые поставят в тупи...

Математик Оксфордского университета РЕАКЦИЯ на «9 математических загадок, которые поставят в тупи...

Davide Paglieri - Adversarial examples to Multi-Agent RL with Quality Diversity

Davide Paglieri - Adversarial examples to Multi-Agent RL with Quality Diversity

The Hidden Story Behind Oxford’s Genius Way of Learning

The Hidden Story Behind Oxford’s Genius Way of Learning

Радиационная аномалия в Москве, р-н Котловка: обследование, вывоз

Радиационная аномалия в Москве, р-н Котловка: обследование, вывоз "112", (частичная) дезактивация

Алексей Савватеев. Зачем нужно высшее образование? | ТОЛК

Алексей Савватеев. Зачем нужно высшее образование? | ТОЛК

Pablo Samuel Castro - Mixtures of Experts Unlock Parameter Scaling for Deep RL

Pablo Samuel Castro - Mixtures of Experts Unlock Parameter Scaling for Deep RL

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]