Масштабирование вывода LLM с помощью многоуровневого кэширования: расширение LMCache с помощью Am...
Автор: The Linux Foundation
Загружено: 2026-06-03
Просмотров: 46
Описание:
Присоединяйтесь к нам на ведущей независимой от поставщиков конференции по открытому исходному коду, где разработчики и технологи собираются вместе, чтобы сотрудничать, обмениваться знаниями и изучать последние инновации и достижения в области технологий с открытым исходным кодом. Узнайте больше на https://events.linuxfoundation.org/
Масштабирование вывода LLM с помощью многоуровневого кэширования: расширение LMCache с помощью Amazon SageMaker HyperPod - Ихуа Ченг, Tensormesh, Inc. и Цзивэнь Нин
LMCache поддерживает многоуровневое кэширование ключ-значение с разгрузкой памяти ЦП, расширяя возможности вывода за пределы ограничений памяти графического процессора. Но что происходит, когда локальной памяти ЦП недостаточно? В этой сессии представлен следующий уровень: разгрузка кэша ключ-значение в управляемое хранилище Amazon SageMaker HyperPod, расширяющая емкость кэша для крупномасштабного вывода LLM.
Мы рассмотрим техническую архитектуру вклада коннектора SageMaker HyperPod в LMCache. «Горячие» записи остаются в памяти графического процессора, «теплые» записи переносятся в память ЦП, а «холодные» записи сохраняются в управляемом хранилище HyperPod. Эта трехуровневая архитектура позволяет организациям кэшировать гораздо больше контекста, чем позволяют локальные ресурсы, сокращая избыточные вычисления для повторяющихся запросов и сценариев с длительным контекстом.
На сессии будет продемонстрирована интеграция в действии, показаны показатели попадания в кэш, задержка между уровнями и то, как коннектор обрабатывает переходы между локальным и удаленным хранилищем. Мы обсудим ключевые инженерные решения, включая асинхронную предварительную выборку и обработку сбоев.
Участники получат практические знания о том, как управляемое облачное хранилище может расширить возможности открытых фреймворков кэширования для инфраструктуры вывода LLM.
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: