Масштабирование вывода LLM с помощью многоуровневого кэширования: расширение LMCache с помощью Am...

Автор: The Linux Foundation

Загружено: 2026-06-03

Просмотров: 46

Описание: Присоединяйтесь к нам на ведущей независимой от поставщиков конференции по открытому исходному коду, где разработчики и технологи собираются вместе, чтобы сотрудничать, обмениваться знаниями и изучать последние инновации и достижения в области технологий с открытым исходным кодом. Узнайте больше на https://events.linuxfoundation.org/

Масштабирование вывода LLM с помощью многоуровневого кэширования: расширение LMCache с помощью Amazon SageMaker HyperPod - Ихуа Ченг, Tensormesh, Inc. и Цзивэнь Нин

LMCache поддерживает многоуровневое кэширование ключ-значение с разгрузкой памяти ЦП, расширяя возможности вывода за пределы ограничений памяти графического процессора. Но что происходит, когда локальной памяти ЦП недостаточно? В этой сессии представлен следующий уровень: разгрузка кэша ключ-значение в управляемое хранилище Amazon SageMaker HyperPod, расширяющая емкость кэша для крупномасштабного вывода LLM.

Мы рассмотрим техническую архитектуру вклада коннектора SageMaker HyperPod в LMCache. «Горячие» записи остаются в памяти графического процессора, «теплые» записи переносятся в память ЦП, а «холодные» записи сохраняются в управляемом хранилище HyperPod. Эта трехуровневая архитектура позволяет организациям кэшировать гораздо больше контекста, чем позволяют локальные ресурсы, сокращая избыточные вычисления для повторяющихся запросов и сценариев с длительным контекстом.

На сессии будет продемонстрирована интеграция в действии, показаны показатели попадания в кэш, задержка между уровнями и то, как коннектор обрабатывает переходы между локальным и удаленным хранилищем. Мы обсудим ключевые инженерные решения, включая асинхронную предварительную выборку и обработку сбоев.

Участники получат практические знания о том, как управляемое облачное хранилище может расширить возможности открытых фреймворков кэширования для инфраструктуры вывода LLM.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Масштабирование вывода LLM с помощью многоуровневого кэширования: расширение LMCache с помощью Am...

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео