Mixture of Recursions: The Power of Recursive Transformers

Автор: alphaXiv

Загружено: 2025-08-04

Просмотров: 1236

Описание: What if language models could learn to "think harder" only when they need to—allocating deep computation to challenging tokens while breezing through simple ones?

Reza Bayat presents Mixture-of-Recursions, a breakthrough architecture that unifies parameter sharing with adaptive computation. By dynamically assigning different recursion depths to individual tokens, MoR achieves large-model quality with significantly fewer parameters and computational resources.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Mixture of Recursions: The Power of Recursive Transformers

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Jeff Clune: Open-Ended, Quality Diversity, and AI-Generating Algos in the Era of Foundation Models

Jeff Clune: Open-Ended, Quality Diversity, and AI-Generating Algos in the Era of Foundation Models

Energy-Based Transformers w/ Alexi Gladstone

Energy-Based Transformers w/ Alexi Gladstone

V-JEPA 2 w/ Nicolas Ballas

V-JEPA 2 w/ Nicolas Ballas

Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation

Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation

Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток

Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Mixture of Experts: How LLMs get bigger without getting slower

Mixture of Experts: How LLMs get bigger without getting slower

Recursive Language Models w: Alex Zhang

Recursive Language Models w: Alex Zhang

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Новый мировой порядок? Венесуэла и Иран: как США пытаются и не могут установить свои правила.

Новый мировой порядок? Венесуэла и Иран: как США пытаются и не могут установить свои правила.

Трансформаторы-переключатели: масштабирование до моделей с триллионами параметров с простой и эфф...

Трансформаторы-переключатели: масштабирование до моделей с триллионами параметров с простой и эфф...

AI, Machine Learning, Deep Learning and Generative AI Explained

AI, Machine Learning, Deep Learning and Generative AI Explained

Может ли у ИИ появиться сознание? — Семихатов, Анохин

Может ли у ИИ появиться сознание? — Семихатов, Анохин

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

ЛЕКЦИЯ ПРО НАДЁЖНЫЕ ШИФРЫ НА КОНФЕРЕНЦИИ БАЗОВЫХ ШКОЛ РАН В ТРОИЦКЕ

ЛЕКЦИЯ ПРО НАДЁЖНЫЕ ШИФРЫ НА КОНФЕРЕНЦИИ БАЗОВЫХ ШКОЛ РАН В ТРОИЦКЕ

Путин перестал говорить о войне | Что случилось (English subtitles)

Путин перестал говорить о войне | Что случилось (English subtitles)

Stanford CS25: V1 I Mixture of Experts (MoE) paradigm and the Switch Transformer

Stanford CS25: V1 I Mixture of Experts (MoE) paradigm and the Switch Transformer

AI Agents vs Mixture of Experts: AI Workflows Explained

AI Agents vs Mixture of Experts: AI Workflows Explained

Гренландия, диалог и новая геополитика | Дмитрий Евстафьев

Гренландия, диалог и новая геополитика | Дмитрий Евстафьев

Глава Perplexity AI: как стартап обходит Google в ИИ

Глава Perplexity AI: как стартап обходит Google в ИИ