ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Accelerating LLM Inference with vLLM (and SGLang) - Ion Stoica

Автор: Nadav Timor

Загружено: 2025-03-04

Просмотров: 6952

Описание: About the seminar: https://faster-llms.vercel.app

Speaker: Ion Stoica (Berkeley & Anyscale & Databricks)

Title: Accelerating LLM Inference with vLLM (and SGLang)

Abstract: Inference efficiency remains a critical challenge for deploying large language models (LLMs) at scale. In this talk, I will present our work on LLM inference we have conducted at Berkeley over the past two years in the context of vLLM and SGLang, which are today the most popular open-source inference engines. In particular, I will describe some of the key techniques they introduced, PagedAttention and RadixAttention, which are now widely used by the majority of LLM inference engines. Finally, I will discuss the new architecture of vLLM.

Recorded on Mar 4, 2025.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Accelerating LLM Inference with vLLM (and SGLang) - Ion Stoica

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

Вывод LLM с длинным контекстом нового поколения с использованием LMCache - Цзюньчэнь Цзян (Универ...

Вывод LLM с длинным контекстом нового поколения с использованием LMCache - Цзюньчэнь Цзян (Универ...

LLM inference optimization: Architecture, KV cache and Flash attention

LLM inference optimization: Architecture, KV cache and Flash attention

Intelligent RAG for Salesforce and AI Agents

Intelligent RAG for Salesforce and AI Agents

Accelerating LLM Inference with vLLM

Accelerating LLM Inference with vLLM

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Efficient LLM Inference (vLLM KV Cache, Flash Decoding & Lookahead Decoding)

Efficient LLM Inference (vLLM KV Cache, Flash Decoding & Lookahead Decoding)

Exploring the Latency/Throughput & Cost Space for LLM Inference // Timothée Lacroix // CTO Mistral

Exploring the Latency/Throughput & Cost Space for LLM Inference // Timothée Lacroix // CTO Mistral

The Evolution of Multi-GPU Inference in vLLM | Ray Summit 2024

The Evolution of Multi-GPU Inference in vLLM | Ray Summit 2024

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

🔍 AI Serving Frameworks Explained: vLLM vs TensorRT-LLM vs Ray Serve | Which One Should You Use?

🔍 AI Serving Frameworks Explained: vLLM vs TensorRT-LLM vs Ray Serve | Which One Should You Use?

Лекция по оптимизации ИИ 01 — Предварительное заполнение против декодирования — Освоение методов ...

Лекция по оптимизации ИИ 01 — Предварительное заполнение против декодирования — Освоение методов ...

Swiss tables в Go. Наиболее полный разбор внутреннего устройства новой мапы

Swiss tables в Go. Наиболее полный разбор внутреннего устройства новой мапы

vLLM on Kubernetes in Production

vLLM on Kubernetes in Production

Глубокое погружение: оптимизация вывода LLM

Глубокое погружение: оптимизация вывода LLM

OpenClaw Creator: Почему 80% приложений исчезнут

OpenClaw Creator: Почему 80% приложений исчезнут

Jonathan Blow on Why AI Can't Program

Jonathan Blow on Why AI Can't Program

Understanding the LLM Inference Workload - Mark Moyou, NVIDIA

Understanding the LLM Inference Workload - Mark Moyou, NVIDIA

Deep Dive into Inference Optimization for LLMs with Philip Kiely

Deep Dive into Inference Optimization for LLMs with Philip Kiely

Дорожная карта по изучению ИИ (начало)

Дорожная карта по изучению ИИ (начало)

Как LLM выживают в условиях низкой точности | Основы квантования

Как LLM выживают в условиях низкой точности | Основы квантования

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]