Распределенный вывод с использованием «хорошо освещенных путей» llm-d
Автор: Red Hat
Загружено: 2025-11-19
Просмотров: 685
Описание:
Для выполнения сложных задач таким крупным языковым моделям, как DeepSeek-R1, требуется большое количество параметров, что обуславливает необходимость в распределенной аппаратной системе. Для оптимизации производительности такой системе необходим распределенный вывод. Представляем llm-d — фреймворк с открытым исходным кодом для распределенного вывода LLM.
Присоединяйтесь к Роберту Шоу, директору по разработке ИИ в Red Hat, который подробно расскажет о подходе llm-d с использованием хорошо освещенных путей — простом и эффективном способе управления распределением вывода LLM и удовлетворения требований масштабных рабочих нагрузок ИИ.
00:00 Введение
00:43 Стек платформ корпоративного генеративного вывода ИИ
04:36 Обзор архитектуры llm-d
08:39 Знакомство с Well-Lit Paths
09:54 Интеллектуальное планирование вывода: маршрутизация с учётом префиксов и нагрузки
14:14 Дезагрегация P/D: разделение предварительного заполнения и декодирования для повышения эффективности
17:45 Эффективная передача кэша KV в VLLM с NIXL и RDMA
18:36 Гибкие, настраиваемые развёртывания с гетерогенным тензорным параллелизмом
19:32 Управление кэшем KV
22:58 Обзор смешанного экспертного подхода и развёртывание модели
24:26 Оптимизация широкого экспертного параллелизма (WideEP) для масштабирования MoE
27:45 Подведение итогов по производительности и закрытие
🔗 Подробнее о распределённом выводе: https://www.redhat.com/ru/topics/ai/w...
#AI #RedHat #Kubernetes #llmd
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: