ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Масштабирование вывода LLM с помощью многоуровневого кэширования: расширение LMCache с помощью Am...

Автор: The Linux Foundation

Загружено: 2026-06-03

Просмотров: 46

Описание: Присоединяйтесь к нам на ведущей независимой от поставщиков конференции по открытому исходному коду, где разработчики и технологи собираются вместе, чтобы сотрудничать, обмениваться знаниями и изучать последние инновации и достижения в области технологий с открытым исходным кодом. Узнайте больше на https://events.linuxfoundation.org/

Масштабирование вывода LLM с помощью многоуровневого кэширования: расширение LMCache с помощью Amazon SageMaker HyperPod - Ихуа Ченг, Tensormesh, Inc. и Цзивэнь Нин

LMCache поддерживает многоуровневое кэширование ключ-значение с разгрузкой памяти ЦП, расширяя возможности вывода за пределы ограничений памяти графического процессора. Но что происходит, когда локальной памяти ЦП недостаточно? В этой сессии представлен следующий уровень: разгрузка кэша ключ-значение в управляемое хранилище Amazon SageMaker HyperPod, расширяющая емкость кэша для крупномасштабного вывода LLM.

Мы рассмотрим техническую архитектуру вклада коннектора SageMaker HyperPod в LMCache. «Горячие» записи остаются в памяти графического процессора, «теплые» записи переносятся в память ЦП, а «холодные» записи сохраняются в управляемом хранилище HyperPod. Эта трехуровневая архитектура позволяет организациям кэшировать гораздо больше контекста, чем позволяют локальные ресурсы, сокращая избыточные вычисления для повторяющихся запросов и сценариев с длительным контекстом.

На сессии будет продемонстрирована интеграция в действии, показаны показатели попадания в кэш, задержка между уровнями и то, как коннектор обрабатывает переходы между локальным и удаленным хранилищем. Мы обсудим ключевые инженерные решения, включая асинхронную предварительную выборку и обработку сбоев.

Участники получат практические знания о том, как управляемое облачное хранилище может расширить возможности открытых фреймворков кэширования для инфраструктуры вывода LLM.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Масштабирование вывода LLM с помощью многоуровневого кэширования: расширение LMCache с помощью Am...

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]