ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

How I Tamed 2 × RTX 5090 + 2 × 4090 with Llama.cpp fork

AI

LLAMA.CPP

ik_llama.cpp

5090

4090

inference

prompt processing

Автор: Mukul Tripathi

Загружено: 2025-06-20

Просмотров: 816

Описание: In this video, I tackle the challenge of setting up a heterogeneous multi-GPU system with two NVIDIA RTX 5090s and two RTX 4090s (100GB+ VRAM total). We dive deep into running 200B+ parameter models like DeepSeek R1 and Qwen3 using two frameworks:
🦙 llama.cpp (82k stars)
🦙 ik-llama.cpp (fork with insane multi-GPU support)

Key Highlights:
ik-llama.cpp Setup: How to clone, build, and configure for mixed GPUs (CUDA arch flags, VRAM allocation).
Performance Benchmarks:

700 tokens/sec prompt processing with ik-llama.cpp (vs 400-450 on vanilla llama.cpp).
10-23 tokens/sec generation across frameworks.
80K context length support (vs 24K on k-transformers).
Multi-GPU Layer Offloading: Custom scripts to distribute model layers across RTX 5090s/4090s.
Live Crash Demo: Lessons on VRAM limits and avoiding OOM errors.
Benchmarking Tools: Use llama-bench to test your config.


Timestamps:
0:00 Intro & hardware overview
1:17 Why multi-GPU with mixed cards is painful in K-Transformers
2:25 Llama.cpp vs ik_llama.cpp at a glance (stars aren’t everything)
3:55 Live VRAM read-out: 2×5090 + 2×4090 (more than 100 GB)
7:23 First speed test: 120 TPS → 700 TPS after tuning
14:09 Building ik_llama.cpp for Ada-Lovelace & Blackwell (-DCMAKE_CUDA_ARCHITECTURES=86;89;120)
18:00 Regex-based layer off-loading explained (-ot "blk\+\.ffn=CUDA")
29:40 Crash & recover: finding the VRAM sweet spot
38:02 llama-sweep-bench: automate prompt/gen benchmarks
41:55 Context length show-down: 24 K (K-Trans) vs 40 K / 80 K / 128 K (IK/Llama.cpp)
48:10 Single-GPU fallback test (one 4090)
51:15 Community resources & my startup scripts
53:14 Final thoughts & when to stick with vanilla Llama.cpp (function calling)

Resources:
ik-llama.cpp GitHub: https://github.com/ikawrakow/ik_llama...
HuggingFace Models: https://huggingface.co/ubergarm/Qwen3...
My GPU Layer Offloading Strategy: https://github.com/ikawrakow/ik_llama...

Tags: #AI #MachineLearning #MultiGPU #RTX5090 #llama.cpp #ikllama #LargeLanguageModels #DL #TechTutorial

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
How I Tamed 2 × RTX 5090 + 2 × 4090 with Llama.cpp fork

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

Deep & Melodic House 24/7: Relaxing Music • Chill Study Music

Deep & Melodic House 24/7: Relaxing Music • Chill Study Music

Цивилизации. Почему мы разные? @posle_zavtra

Цивилизации. Почему мы разные? @posle_zavtra

Qwen3 235B-A22B vs DeepSeek R1 671B Snake-Game Speed Test | Q4 CPU-only vs Hybrid Q2-R4

Qwen3 235B-A22B vs DeepSeek R1 671B Snake-Game Speed Test | Q4 CPU-only vs Hybrid Q2-R4

Как Северная Корея зарабатывает миллиарды (feat. Ланьков)

Как Северная Корея зарабатывает миллиарды (feat. Ланьков)

ROS 2 Jazzy + Ubuntu 24.04: Complete Installation Guide!

ROS 2 Jazzy + Ubuntu 24.04: Complete Installation Guide!

Разрушительный Удар По Промышленному Потенциалу💥🏭 Новоукраина Пала⚔️ Военные Сводки За 29.06.2025 📅

Разрушительный Удар По Промышленному Потенциалу💥🏭 Новоукраина Пала⚔️ Военные Сводки За 29.06.2025 📅

10 минут на улице могут стоить жизни (Жизнь в самом холодном месте на Земле) -71°C

10 минут на улице могут стоить жизни (Жизнь в самом холодном месте на Земле) -71°C

Run LLaMA 4 Locally on Nvidia 4090 & Intel AMX – Full Setup & Demo!

Run LLaMA 4 Locally on Nvidia 4090 & Intel AMX – Full Setup & Demo!

Что, если рядом с нами взорвётся звезда? [Veritasium]

Что, если рядом с нами взорвётся звезда? [Veritasium]

5090 FE Undervolt Testing & 4090 Face-Off

5090 FE Undervolt Testing & 4090 Face-Off

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]