The future of AI: Distributing inference beyond a few GPUs

Автор: Red Hat

Загружено: 2025-07-30

Просмотров: 1549

Описание: How do you run an AI model with a million-token context? 🕸️ Chris Wright and Nick Hill discuss the future of AI scaling, covering distributed inference, splitting tasks across different hardware, and the challenge of compressing the KV cache for massive models.

Explore the future of enterprise AI in the full Technically Speaking episode, now on YouTube!

#DistributedInference #LLM #AI #vLLM #llm-d #RedHat

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

The future of AI: Distributing inference beyond a few GPUs

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Модель контекстного протокола (MCP), четко объясненная (почему это важно)

Модель контекстного протокола (MCP), четко объясненная (почему это важно)

Neural networks

Neural networks

Nvidia CUDA in 100 Seconds

Nvidia CUDA in 100 Seconds

Доработайте свою степень магистра права за 13 минут. Вот как

Доработайте свою степень магистра права за 13 минут. Вот как

Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток

Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

Тренды в ИИ 2026. К чему готовиться каждому.

Тренды в ИИ 2026. К чему готовиться каждому.

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

THIS is the REAL DEAL 🤯 for local LLMs

THIS is the REAL DEAL 🤯 for local LLMs

What is vLLM? Efficient AI Inference for Large Language Models

What is vLLM? Efficient AI Inference for Large Language Models

Мне 73. Я жалею, что понял это только сейчас.

Мне 73. Я жалею, что понял это только сейчас.

Understanding the LLM Inference Workload - Mark Moyou, NVIDIA

Understanding the LLM Inference Workload - Mark Moyou, NVIDIA

Как упростить тонкую настройку моделей ИИ

Как упростить тонкую настройку моделей ИИ

Создайте агента ИИ с помощью Gemini CLI и Agent Development Kit.

Создайте агента ИИ с помощью Gemini CLI и Agent Development Kit.

Искусственный интеллект вышел из-под контроля (это безумие)

Искусственный интеллект вышел из-под контроля (это безумие)

ChatGPT продает ваши чаты, Anthropic создает цифровых существ, а Маск как всегда…

ChatGPT продает ваши чаты, Anthropic создает цифровых существ, а Маск как всегда…

Объяснение mHC: как DeepSeek перестраивает программы магистратуры в области прикладных наук (LLM)...

Объяснение mHC: как DeepSeek перестраивает программы магистратуры в области прикладных наук (LLM)...

Топ-15 технологий, которые перевернут 2027 год

Топ-15 технологий, которые перевернут 2027 год

Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic

Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic

Как мы создаем эффективных агентов: Барри Чжан, Anthropic

Как мы создаем эффективных агентов: Барри Чжан, Anthropic