ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

TiDAR: Think in Diffusion, Talk in Autoregression (Paper Analysis)

Автор: Yannic Kilcher

Загружено: 2025-12-27

Просмотров: 12081

Описание: Paper: https://arxiv.org/abs/2511.08923

Abstract:
Diffusion language models hold the promise of fast parallel generation, while autoregressive (AR) models typically excel in quality due to their causal structure aligning naturally with language modeling. This raises a fundamental question: can we achieve a synergy with high throughput, higher GPU utilization, and AR level quality? Existing methods fail to effectively balance these two aspects, either prioritizing AR using a weaker model for sequential drafting (speculative decoding), leading to lower drafting efficiency, or using some form of left-to-right (AR-like) decoding logic for diffusion, which still suffers from quality degradation and forfeits its potential parallelizability. We introduce TiDAR, a sequence-level hybrid architecture that drafts tokens (Thinking) in Diffusion and samples final outputs (Talking) AutoRegressively - all within a single forward pass using specially designed structured attention masks. This design exploits the free GPU compute density, achieving a strong balance between drafting and verification capacity. Moreover, TiDAR is designed to be serving-friendly (low overhead) as a standalone model. We extensively evaluate TiDAR against AR models, speculative decoding, and diffusion variants across generative and likelihood tasks at 1.5B and 8B scales. Thanks to the parallel drafting and sampling as well as exact KV cache support, TiDAR outperforms speculative decoding in measured throughput and surpasses diffusion models like Dream and Llada in both efficiency and quality. Most notably, TiDAR is the first architecture to close the quality gap with AR models while delivering 4.71x to 5.91x more tokens per second.

Authors: Jingyu Liu, Xin Dong, Zhifan Ye, Rishabh Mehta, Yonggan Fu, Vartika Singh, Jan Kautz, Ce Zhang, Pavlo Molchanov

Links:
Homepage: https://ykilcher.com
Merch: https://ykilcher.com/merch
YouTube:    / yannickilcher  
Twitter:   / ykilcher  
Discord: https://ykilcher.com/discord
LinkedIn:   / ykilcher  

If you want to support me, the best thing to do is to share out the content :)

If you want to support me financially (completely optional and voluntary, but a lot of people have asked for this):
SubscribeStar: https://www.subscribestar.com/yannick...
Patreon:   / yannickilcher  
Bitcoin (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq
Ethereum (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2
Litecoin (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m
Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
TiDAR: Think in Diffusion, Talk in Autoregression (Paper Analysis)

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Flow-Matching vs Diffusion Models explained side by side

Flow-Matching vs Diffusion Models explained side by side

DeepSeek Just CRUSHED Big Tech Again: MHC - Better Way To Do AI

DeepSeek Just CRUSHED Big Tech Again: MHC - Better Way To Do AI

Terry Tao:

Terry Tao: "LLMs Are Simpler Than You Think – The Real Mystery Is Why They Work!"

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Electrons Don't Actually Orbit Like This

Electrons Don't Actually Orbit Like This

Text diffusion: A new paradigm for LLMs

Text diffusion: A new paradigm for LLMs

Почему Питер Шольце — математик, каких бывает раз в поколение?

Почему Питер Шольце — математик, каких бывает раз в поколение?

The

The "Final Boss" of Deep Learning

One Formula That Demystifies 3D Graphics

One Formula That Demystifies 3D Graphics

Titans: Learning to Memorize at Test Time (Paper Analysis)

Titans: Learning to Memorize at Test Time (Paper Analysis)

39C3 - Breaking architecture barriers: Running x86 games and apps on ARM

39C3 - Breaking architecture barriers: Running x86 games and apps on ARM

Порталы не создают вечный двигатель, если телепортировать гравитацию

Порталы не создают вечный двигатель, если телепортировать гравитацию

Точка зрения: что вы увидите во время захвата искусственным интеллектом

Точка зрения: что вы увидите во время захвата искусственным интеллектом

But how do AI images and videos actually work? | Guest video by Welch Labs

But how do AI images and videos actually work? | Guest video by Welch Labs

[Анализ статьи] О теоретических ограничениях поиска на основе встраивания (Предупреждение: критика)

[Анализ статьи] О теоретических ограничениях поиска на основе встраивания (Предупреждение: критика)

The physics behind diffusion models

The physics behind diffusion models

The Future of Veritasium

The Future of Veritasium

Почему нейросети постоянно врут? (и почему этого уже не исправить)

Почему нейросети постоянно врут? (и почему этого уже не исправить)

Модели диффузии просто превосходят модели большого языка?

Модели диффузии просто превосходят модели большого языка?

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]