Переосмысление инфраструктуры ИИ для агентов: насыщение KV-кэша и появление агентного кэша.

Автор: Faradawn Yang

Загружено: 2025-12-09

Просмотров: 528

Описание: Обзор и основные моменты NeurIPS 2025. Конференция выявила серьёзный сдвиг в инфраструктуре ИИ: KV-кэш достигает своего предела, а следующая волна рабочих нагрузок — агентные системы — полностью разрушает как KV-кэш, так и семантический кэш. В этом видео мы разберём статью Стэнфордского университета, представляющую Agentic Planning Cache — новый подход, разработанный для многоходовых, многомодельных агентов.

Мы рассмотрим:

• Почему оптимизация KV-кэша почти достигла насыщения

• Почему семантический кэш не работает для задач агентов, зависящих от данных

• Как агентные рабочие нагрузки меняют предположения, лежащие в основе vLLM, SGLang и TensorRT-LLM

• Как может выглядеть будущий «Agent-vLLM» или «движок обслуживания агентов»

• Как Agentic Cache снижает затраты, сохраняя при этом высокую точность

Если вы создаёте инфраструктуру ИИ, движки вывода LLM или агентные системы, это тренд, который вы не можете пропустить.

#aiagents #llm #sglang

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Переосмысление инфраструктуры ИИ для агентов: насыщение KV-кэша и появление агентного кэша.

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

Лекция 5 по оптимизации LLM: Непрерывное пакетирование и комбинированное декодирование

Лекция 5 по оптимизации LLM: Непрерывное пакетирование и комбинированное декодирование

System Design Concepts Course and Interview Prep

System Design Concepts Course and Interview Prep

The Thinking Game | Full documentary | Tribeca Film Festival official selection

The Thinking Game | Full documentary | Tribeca Film Festival official selection

LMCache Office Hour 2025-11-13

LMCache Office Hour 2025-11-13

Создание локального ИИ-агента для тестирования программного обеспечения

Создание локального ИИ-агента для тестирования программного обеспечения

Как мы создаем эффективных агентов: Барри Чжан, Anthropic

Как мы создаем эффективных агентов: Барри Чжан, Anthropic

Повышение эффективности работы ИИ-агентов с помощью линейного внимания (с использованием моделей ...

Повышение эффективности работы ИИ-агентов с помощью линейного внимания (с использованием моделей ...

Киберколониализм, или Почему чем яростнее беспредел, тем ближе стабилизация | Андрей Масалович

Киберколониализм, или Почему чем яростнее беспредел, тем ближе стабилизация | Андрей Масалович

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Andrej Karpathy: Software Is Changing (Again)

Andrej Karpathy: Software Is Changing (Again)

RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models

RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models

"От такого удара можно и не оправиться": Ранкс объяснил, что за безумная сила несется к нам

Напишите своё первое ядро CUDA за 15 минут (потоки, блоки, сетка объяснены подробнее)

Напишите своё первое ядро CUDA за 15 минут (потоки, блоки, сетка объяснены подробнее)

КРУТИХИН: Цены на нефть будет падать. Себестоимость $47, а продают по $33. Атаки на НПЗ, дефицит

КРУТИХИН: Цены на нефть будет падать. Себестоимость $47, а продают по $33. Атаки на НПЗ, дефицит

Из-за чего банки блокируют счета россиянам? И как вернуть доступ к деньгам?

Из-за чего банки блокируют счета россиянам? И как вернуть доступ к деньгам?

Don't learn AI Agents without Learning these Fundamentals

Don't learn AI Agents without Learning these Fundamentals

Почему спагетти-код лучше чистой архитектуры

Почему спагетти-код лучше чистой архитектуры

Stanford CS230 | Autumn 2025 | Lecture 1: Introduction to Deep Learning

Stanford CS230 | Autumn 2025 | Lecture 1: Introduction to Deep Learning

«НАЧНЕТСЯ КАСКАДНЫЙ ЭФФЕКТ». В России бьют тревогу. КРИЗИС УЖЕ НАЧАЛСЯ

«НАЧНЕТСЯ КАСКАДНЫЙ ЭФФЕКТ». В России бьют тревогу. КРИЗИС УЖЕ НАЧАЛСЯ