vLLM: High-performance serving of LLMs using open-source technology

Автор: AI Infra Forum

Загружено: 2025-03-13

Просмотров: 1272

Описание: Research Scientist Thomas Parnell of IBM provides an overview of vLLM, an open-source project providing high performance inference and serving of large language models (LLMs). At IBM, we use vLLM extensively in production, are and active contributors to the project. In this talk, I'll start by providing a high-level overview of vLLM, its key technical capabilities, and the community that has grown around it. I'll then cover some recent trends in LLMs and their usage (long context, agents, test-time scaling, diverse hardware), and how vLLM is evolving to support these new use-cases.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

vLLM: High-performance serving of LLMs using open-source technology

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

What is vLLM? Efficient AI Inference for Large Language Models

What is vLLM? Efficient AI Inference for Large Language Models

vLLM Office Hours - Distributed Inference with vLLM - January 23, 2025

vLLM Office Hours - Distributed Inference with vLLM - January 23, 2025

vLLM: Easy, Fast, and Cheap LLM Serving for Everyone - Woosuk Kwon & Xiaoxuan Liu, UC Berkeley

vLLM: Easy, Fast, and Cheap LLM Serving for Everyone - Woosuk Kwon & Xiaoxuan Liu, UC Berkeley

Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM.

Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM.

UnifabriX Memory over Fabrics: An Open Journey from CXL to UALink in AI Infrastructures

UnifabriX Memory over Fabrics: An Open Journey from CXL to UALink in AI Infrastructures

Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток

Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Грозев шокировал заявлением: что на самом деле происходит внутри Кремля из-за войны

Грозев шокировал заявлением: что на самом деле происходит внутри Кремля из-за войны

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Ultra Accelerator Link (UAL): Accelerator Scale-up network

Ultra Accelerator Link (UAL): Accelerator Scale-up network

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Clawdbot to Moltbot to OpenClaw: The 72 Hours That Broke Everything (The Full Breakdown)

Clawdbot to Moltbot to OpenClaw: The 72 Hours That Broke Everything (The Full Breakdown)

СЕРЕБРО -37%. Кто нажал на кнопку и зачем.

СЕРЕБРО -37%. Кто нажал на кнопку и зачем.

Optimizing Load Balancing and Autoscaling for Large Language Model (LLM) Inference on Kub... D. Gray

Optimizing Load Balancing and Autoscaling for Large Language Model (LLM) Inference on Kub... D. Gray

OpenClaw — Свой ИИ-агент 24/7, работает пока ты спишь

OpenClaw — Свой ИИ-агент 24/7, работает пока ты спишь

Запуск нейросетей локально. Генерируем - ВСЁ

Запуск нейросетей локально. Генерируем - ВСЁ

Доработайте свою степень магистра права за 13 минут. Вот как

Доработайте свою степень магистра права за 13 минут. Вот как

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Почему ваш сайт должен весить 14 КБ

Почему ваш сайт должен весить 14 КБ

Возможно ли создать компьютеры с техпроцессом меньше 1 нм

Возможно ли создать компьютеры с техпроцессом меньше 1 нм