ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

TensorRT vs vLLM on DGX Spark: Why Benchmarks Alone Don’t Work

Автор: Superhuman Unlocked

Загружено: 2026-01-22

Просмотров: 343

Описание: 40 tokens per second is useless if you lose your train of thought waiting 4 minutes for the model to load.**

Project Gepetto: Lock Entry 02: We push the NVIDIA DGX Spark to its absolute limits. With the new Christmas 2025 software update, NIVIDIAS DGX Spark finally got native support for **NVFP4 quantization**. The promise? Massive speed and reduced memory usage.

I wanted to floor it. I wanted to replace my reliable Ollama setup with a high-performance TensorRT-LLM stack.
The benchmarks looked incredible: 39.5 tok/s on a 30B model.
But then reality hit.

We discovered that raw speed comes with a massive "commitment tax." We ran into the "Configuration Wall," struggled with the open *MXFP4* standard on the massive **GPT-OSS-120B**, and learned a hard lesson about software maturity vs. hardware capability.

*In this video, we debug the assumptions of Local AI:*

*The Productive Stack:* Why we use Qwen3, Phi-4, and Llama-3.3 for different cognitive gears.
*The Crash:* How running 3 TensorRT containers in parallel collapsed performance by 300%.
*The vLLM Surprise:* Why the "industry darling" failed at first (110GB VRAM leak) but redeemed itself with the 120B Architect model.

This is not a benchmark review. This is a field report on engineering a thinking environment that actually works for me.

---

*⏱️ Timestamps*
0:00 - Intro: Explorer vs. Caretaker
0:19 - Act I. - The Itch
0:55 - INTERMEZZO - The New Landscape
1:35 - Act II. - One human, many gears
4:21 - Act IIa. - The Euphoric Part
7:10 - Act 2b. - The Clash of the Architects
9:10 - Act 3. - The configuration wall
10:57 - Final Curtain

---

*🛠️ The Stack & Hardware*

*System:* NVIDIA DGX Spark (Blackwell Architecture, 128GB Unified Memory)
*Worker Fast:* Qwen3-30B-A3B (NVFP4) - MoE Throughput King
*Worker Heavy:* Qwen3-32B (NVFP4) - Dense Anchor
*Thinker:* Phi-4-Reasoning-Plus (NVFP4) - Logic Specialist
*Architect:* GPT-OSS-120B (MXFP4) & Llama-3.3-70B(NVFP4)
*Runtimes tested:* TensorRT-LLM (v0.12.0rc6), vLLM (v25.12.post1-py3)

---

*🔗 Links & Resources*

NVIDIA Spark Playbook vLLM: https://build.nvidia.com/spark/vllm
NVIDIA Spark Playbook Tensor RT: https://build.nvidia.com/spark/trt-llm
Previous Episode (Building Stability):    • Running Local LLMs on NVIDIA DGX Spark – A...  

#LocalLLM #AI #NVIDIA #MachineLearning #Engineering #DevLog
#TensorRT #vLLM #DGXSpark #Blackwell #NVFP4 #MXFP4 #Qwen #Llama3 #Phi4 #GPTOSS #Ollama
#ProjectGepetto #SystemArchitecture #Benchmark #MadScientist

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
TensorRT vs vLLM on DGX Spark: Why Benchmarks Alone Don’t Work

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

NVIDIA DGX Spark против RTX 4090 | Вывод LLM, скорость обучения и многое другое

NVIDIA DGX Spark против RTX 4090 | Вывод LLM, скорость обучения и многое другое

Что случилось с обзорами DGX Spark?

Что случилось с обзорами DGX Spark?

Обвал цен на 90%, изменивший всё.

Обвал цен на 90%, изменивший всё.

DGX SPARK превосходит RTX PRO 6000! Демонстрация многоагентного чат-бота с NVIDIA DGX SPARK

DGX SPARK превосходит RTX PRO 6000! Демонстрация многоагентного чат-бота с NVIDIA DGX SPARK

DGX Spark Live: обработка текста для GraphRAG с использованием LLM до 120 байт

DGX Spark Live: обработка текста для GraphRAG с использованием LLM до 120 байт

Nvidia DGX Spark: KI-Supercomputer oder lahme Ente?

Nvidia DGX Spark: KI-Supercomputer oder lahme Ente?

OpenClaw Creator: Почему 80% приложений исчезнут

OpenClaw Creator: Почему 80% приложений исчезнут

История C# и TypeScript с Андерсом Хейлсбергом | GitHub

История C# и TypeScript с Андерсом Хейлсбергом | GitHub

ИИ-агенты — кошмар для безопасности? Разбираемся с OpenClaw

ИИ-агенты — кошмар для безопасности? Разбираемся с OpenClaw

Настройте свой собственный сервер LLM дома | Запускайте локальные модели ИИ с помощью Ollama и NV...

Настройте свой собственный сервер LLM дома | Запускайте локальные модели ИИ с помощью Ollama и NV...

Катастрофа в столице / Захват Киева Россией?

Катастрофа в столице / Захват Киева Россией?

Интервью с создателем OpenClaw - главный ИИ-феномен 2026

Интервью с создателем OpenClaw - главный ИИ-феномен 2026

Выставка Потребительской Электроники США Инновации Патенты Интересно 2026

Выставка Потребительской Электроники США Инновации Патенты Интересно 2026

Vergiss die RTX 5090 – Diese 10.000 € Karte ist der neue Gaming King

Vergiss die RTX 5090 – Diese 10.000 € Karte ist der neue Gaming King

Забудьте про готовые VPN. ИИ-агент настроит вам личный за 10 минут!

Забудьте про готовые VPN. ИИ-агент настроит вам личный за 10 минут!

Running Local LLMs on NVIDIA DGX Spark – A Field Report

Running Local LLMs on NVIDIA DGX Spark – A Field Report

Локальная установка и тестирование DeepSeek OCR 2

Локальная установка и тестирование DeepSeek OCR 2

Fine-Tuning 8B Parameter Model Locally Demo with NVIDIA DGX Spark

Fine-Tuning 8B Parameter Model Locally Demo with NVIDIA DGX Spark

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]