Распределенный вывод с использованием «хорошо освещенных путей» llm-d

Автор: Red Hat

Загружено: 2025-11-19

Просмотров: 685

Описание: Для выполнения сложных задач таким крупным языковым моделям, как DeepSeek-R1, требуется большое количество параметров, что обуславливает необходимость в распределенной аппаратной системе. Для оптимизации производительности такой системе необходим распределенный вывод. Представляем llm-d — фреймворк с открытым исходным кодом для распределенного вывода LLM.

Присоединяйтесь к Роберту Шоу, директору по разработке ИИ в Red Hat, который подробно расскажет о подходе llm-d с использованием хорошо освещенных путей — простом и эффективном способе управления распределением вывода LLM и удовлетворения требований масштабных рабочих нагрузок ИИ.

00:00 Введение
00:43 Стек платформ корпоративного генеративного вывода ИИ
04:36 Обзор архитектуры llm-d
08:39 Знакомство с Well-Lit Paths
09:54 Интеллектуальное планирование вывода: маршрутизация с учётом префиксов и нагрузки
14:14 Дезагрегация P/D: разделение предварительного заполнения и декодирования для повышения эффективности
17:45 Эффективная передача кэша KV в VLLM с NIXL и RDMA
18:36 Гибкие, настраиваемые развёртывания с гетерогенным тензорным параллелизмом
19:32 Управление кэшем KV
22:58 Обзор смешанного экспертного подхода и развёртывание модели
24:26 Оптимизация широкого экспертного параллелизма (WideEP) для масштабирования MoE
27:45 Подведение итогов по производительности и закрытие

🔗 Подробнее о распределённом выводе: https://www.redhat.com/ru/topics/ai/w...

#AI #RedHat #Kubernetes #llmd

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Распределенный вывод с использованием «хорошо освещенных путей» llm-d

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Зеленский раскрыл мирный план. Путин позвонил Алиеву. Новый компромат на Трампа

Зеленский раскрыл мирный план. Путин позвонил Алиеву. Новый компромат на Трампа

Решение проблем в инфраструктуре ИИ

Решение проблем в инфраструктуре ИИ

RAG простыми словами: как научить LLM работать с файлами

RAG простыми словами: как научить LLM работать с файлами

Cybersecurity Architecture: Networks

Cybersecurity Architecture: Networks

Лекция по оптимизации ИИ 01 — Предварительное заполнение против декодирования — Освоение методов ...

Лекция по оптимизации ИИ 01 — Предварительное заполнение против декодирования — Освоение методов ...

[vLLM Office Hours #27] Intro to llm-d for Distributed LLM Inference

[vLLM Office Hours #27] Intro to llm-d for Distributed LLM Inference

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Mixture of Experts: How LLMs get bigger without getting slower

Mixture of Experts: How LLMs get bigger without getting slower

Apache Iceberg: что это такое и почему все о нем говорят.

Apache Iceberg: что это такое и почему все о нем говорят.

Kubernetes — Простым Языком на Понятном Примере

Kubernetes — Простым Языком на Понятном Примере

ЭТИ законы изменят ВСЕ! / Что ждет КАЖДОГО уже с 1 января 2026?

ЭТИ законы изменят ВСЕ! / Что ждет КАЖДОГО уже с 1 января 2026?

Создание корпоративных ИИ-агентов с использованием Model Context Protocol

Создание корпоративных ИИ-агентов с использованием Model Context Protocol

Почему нет массовых профессиональных ИИ, как они будут развиваться и что станет итогом.

Почему нет массовых профессиональных ИИ, как они будут развиваться и что станет итогом.

Claude Code: полный гайд по AI-кодингу (хаки, техники и секреты)

Claude Code: полный гайд по AI-кодингу (хаки, техники и секреты)

Освоение оптимизации вывода LLM: от теории до экономически эффективного внедрения: Марк Мойу

Освоение оптимизации вывода LLM: от теории до экономически эффективного внедрения: Марк Мойу

ВЕЛИКИЙ ОБМАН ЕГИПТА — Нам врали о строительстве пирамид

ВЕЛИКИЙ ОБМАН ЕГИПТА — Нам врали о строительстве пирамид

America's New Chip Breakthrough: Not Silicon

America's New Chip Breakthrough: Not Silicon

Что такое Rest API (http)? Soap? GraphQL? Websockets? RPC (gRPC, tRPC). Клиент - сервер. Вся теория

Что такое Rest API (http)? Soap? GraphQL? Websockets? RPC (gRPC, tRPC). Клиент - сервер. Вся теория

Higgsfield AI: как обогнать Adobe и даже Google | Александр Машрабов, основатель стартапа

Higgsfield AI: как обогнать Adobe и даже Google | Александр Машрабов, основатель стартапа

14 ГЛАВНЫХ НЕЙРОСЕТЕЙ 2025 ГОДА

14 ГЛАВНЫХ НЕЙРОСЕТЕЙ 2025 ГОДА