ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Self-Reflecting LLMs: Reinforcement Learning That Boosts Reasoning [Maohao Shen] - 726

Автор: The TWIML AI Podcast with Sam Charrington

Загружено: 2025-04-07

Просмотров: 1280

Описание: Today, we're joined by Maohao Shen, PhD student at MIT to discuss his paper, “Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search.” We dig into how Satori leverages reinforcement learning to improve language model reasoning—enabling model self-reflection, self-correction, and exploration of alternative solutions. We explore the Chain-of-Action-Thought (COAT) approach, which uses special tokens—continue, reflect, and explore—to guide the model through distinct reasoning actions, allowing it to navigate complex reasoning tasks without external supervision. We also break down Satori’s two-stage training process: format tuning, which teaches the model to understand and utilize the special action tokens, and reinforcement learning, which optimizes reasoning through trial-and-error self-improvement. We cover key techniques such “restart and explore,” which allows the model to self-correct and generalize beyond its training domain. Finally, Maohao reviews Satori’s performance and how it compares to other models, the reward design, the benchmarks used, and the surprising observations made during the research.

🎧 / 🎥 Listen or watch the full episode on our page: https://twimlai.com/go/726.

🔔 Subscribe to our channel for more great content just like this: https://youtube.com/twimlai?sub_confi...


🗣️ CONNECT WITH US!
===============================
Subscribe to the TWIML AI Podcast: https://twimlai.com/podcast/twimlai/
Follow us on Twitter:   / twimlai  
Follow us on LinkedIn:   / twimlai  
Join our Slack Community: https://twimlai.com/community/
Subscribe to our newsletter: https://twimlai.com/newsletter/
Want to get in touch? Send us a message: https://twimlai.com/contact/


📖 CHAPTERS
===============================
00:00 - Introduction
3:40 - How Satori paper fits into current trends in the AI research field
11:03 - Motivation of Satori
17:01- Autoregressive search
21:20 - Chain-of-Action-Thought Reasoning (COAT)
23:11 - Challenges
23:54 - COAT reasoning, imitation learning, and format tuning
28:42 - Two stages of training
34:18 - Relationship of format tuning and self-improvement
37:47 - Performance
39:46 - Reward design of the RL component
42:27 - Base model
44:21 - Benchmarks and results
48:32 - Future directions


🔗 LINKS & RESOURCES
===============================
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search - https://arxiv.org/abs/2502.02508


📸 Camera: https://amzn.to/3TQ3zsg
🎙️Microphone: https://amzn.to/3t5zXeV
🚦Lights: https://amzn.to/3TQlX49
🎛️ Audio Interface: https://amzn.to/3TVFAIq
🎚️ Stream Deck: https://amzn.to/3zzm7F5

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Self-Reflecting LLMs: Reinforcement Learning That Boosts Reasoning [Maohao Shen] - 726

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han

[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han

Inside the “Neurons” of LLMs: Circuit Tracing Their Hidden Biology [Emmanuel Ameisen] - 727

Inside the “Neurons” of LLMs: Circuit Tracing Their Hidden Biology [Emmanuel Ameisen] - 727

SaaS is Dead. How to Win the Game of AI? | Jonah McIntire, CTO & CPO@ Trimble Transportation

SaaS is Dead. How to Win the Game of AI? | Jonah McIntire, CTO & CPO@ Trimble Transportation

Autoformalization and Verifiable Superintelligence [Christian Szegedy] - 745

Autoformalization and Verifiable Superintelligence [Christian Szegedy] - 745

Почему языковые модели обработки изображений игнорируют то, что видят [Мунавар Хаят] - 758

Почему языковые модели обработки изображений игнорируют то, что видят [Мунавар Хаят] - 758

Your Biggest Revenue Opportunity Happens After Purchase

Your Biggest Revenue Opportunity Happens After Purchase

Переосмысление предварительной подготовки для агентного ИИ [Ааканша Чоудери] - 759

Переосмысление предварительной подготовки для агентного ИИ [Ааканша Чоудери] - 759

(How) Do LLMs Reason? (Talk given at MILA/ChandarLab)

(How) Do LLMs Reason? (Talk given at MILA/ChandarLab)

Sergey Levine: Robotics and Machine Learning | Lex Fridman Podcast #108

Sergey Levine: Robotics and Machine Learning | Lex Fridman Podcast #108

Genie 3: A New Frontier for World Models [Jack Parker-Holder and Shlomi Fruchter] - 743

Genie 3: A New Frontier for World Models [Jack Parker-Holder and Shlomi Fruchter] - 743

Лекция от легенды ИИ в Стэнфорде

Лекция от легенды ИИ в Стэнфорде

Reinforcement Learning (RL) for LLMs

Reinforcement Learning (RL) for LLMs

Александра Прокопенко: что власти не могут скрыть даже в официальной статистике? Телеграм и бизнес

Александра Прокопенко: что власти не могут скрыть даже в официальной статистике? Телеграм и бизнес

Юлия Горбатова — Кто мыслит критически и как он это делает?

Юлия Горбатова — Кто мыслит критически и как он это делает?

Inside Nano Banana 🍌 and the Future of Vision-Language Models [Oliver Wang] - 748

Inside Nano Banana 🍌 and the Future of Vision-Language Models [Oliver Wang] - 748

Лучший документальный фильм про создание ИИ

Лучший документальный фильм про создание ИИ

MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL)

MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL)

Высокоэффективные модели диффузии для создания и редактирования изображений на устройстве [Хун Бу...

Высокоэффективные модели диффузии для создания и редактирования изображений на устройстве [Хун Бу...

Проактивные агенты для Интернета [Деви Парих] - 756

Проактивные агенты для Интернета [Деви Парих] - 756

Повторение и внимание для долгосрочных трансформеров [Джейкоб Бакман] - 750

Повторение и внимание для долгосрочных трансформеров [Джейкоб Бакман] - 750

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]