Faster LLM Output Without New Hardware: Speculative Decoding

Автор: Zaharah

Загружено: 2025-12-08

Просмотров: 21

Описание: Why is generating text with LLMs so slow? It’s not a compute problem, it’s a memory bandwidth problem. In this video, we explore Speculative Decoding, the technique that bypasses the "Memory Wall" by using a Draft-Verify architecture. We cover the hardware constraints of Autoregression, the mathematics of Rejection Sampling, and how you can achieve 2-3x faster inference speeds without losing quality.

Inference Optimization Techniques:
DistillSpec: https://arxiv.org/abs/2310.08461
Medusa: https://arxiv.org/abs/2401.10774
Distributed architectures: https://arxiv.org/pdf/2302.01318 , https://arxiv.org/pdf/2310.15141
Block verification: https://arxiv.org/pdf/2403.10444

Chapters:
0:00 – Why Speculative Decoding?
0:40 – Why LLMs Are Slow?
1:05 –The Memory Bottleneck Explained
2:00 – Draft Model vs Target Model
3:05 – What is Rejection Sampling?
5:14 – Acceptance Rate & Speed Gains
6:08 – Other Inference Optimization Techniques
6:43 – Implementation via vLLM
6:53 – Final Thoughts

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Faster LLM Output Without New Hardware: Speculative Decoding

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

AI Projects That Actually Impress Employers (7 Portfolio Ideas)

AI Projects That Actually Impress Employers (7 Portfolio Ideas)

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Embedded LLM’s Guide to vLLM Architecture & High-Performance Serving | Ray Summit 2025

Embedded LLM’s Guide to vLLM Architecture & High-Performance Serving | Ray Summit 2025

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

ESP32: распознавание речи нейросетью (TensorFlow Lite)

ESP32: распознавание речи нейросетью (TensorFlow Lite)

What Predictive AI Systems Actually Requires (Not Just Deep Models)

What Predictive AI Systems Actually Requires (Not Just Deep Models)

Accelerating LLM Inference with vLLM

Accelerating LLM Inference with vLLM

Объяснение тензорных процессоров (TPU)

Объяснение тензорных процессоров (TPU)

Same 128GB but cheaper

Same 128GB but cheaper

Gemini 3, кванты и плоть. Странное будущее искусственного интеллекта.

Gemini 3, кванты и плоть. Странное будущее искусственного интеллекта.

RAG Explained For Beginners

RAG Explained For Beginners

Глубокое погружение: оптимизация вывода LLM

Глубокое погружение: оптимизация вывода LLM

99% of Beginners Don't Know these AI Terms

99% of Beginners Don't Know these AI Terms

How the VLLM inference engine works?

How the VLLM inference engine works?

Как Ubuntu Предала Linux - Вся Правда о Взлёте и Падении Canonical

Как Ubuntu Предала Linux - Вся Правда о Взлёте и Падении Canonical

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Твой N8N Никогда Не Будет Прежним с Gemini CLI

Твой N8N Никогда Не Будет Прежним с Gemini CLI

Предел развития НЕЙРОСЕТЕЙ

Предел развития НЕЙРОСЕТЕЙ

20+ Нейросетей GOOGLE Которые Не Должны Быть Бесплатными

20+ Нейросетей GOOGLE Которые Не Должны Быть Бесплатными

vLLM Office Hours - Advanced Techniques for Maximizing vLLM Performance - September 19, 2024

vLLM Office Hours - Advanced Techniques for Maximizing vLLM Performance - September 19, 2024