Maximizing GPU Efficiency w/ Quentin Anthony, Model Training Lead @ Zyphra | Beyond CUDA Summit 2025

Автор: TensorWave

Загружено: 2025-04-08

Просмотров: 124

Описание: Quentin Anthony, Model Training Lead at Zyphra, explores how model sizing impacts GPU efficiency in transformer-based models. Discover why carefully selecting model dimensions, including hidden layers, attention heads, and tensor parallelism, can dramatically boost throughput and performance across diverse hardware like AMD GPUs, mobile devices, and cloud-based systems. Learn about practical insights, such as handling wave quantization and flash attention optimization, along with strategic considerations for balancing training and inference costs.

𝘾𝙤𝙣𝙣𝙚𝙘𝙩 𝙬𝙞𝙩𝙝 𝙌𝙪𝙚𝙣𝙩𝙞𝙣 𝘼𝙣𝙩𝙝𝙤𝙣𝙮 -
  / quentin-anthony

📢 Let us know your thoughts in the comments

--
Timestamps

0:00 - 1:20 - Introduction: Model Sizing for Efficient GPU Utilization
1:21 - 2:39 - Why Model Dimensions Matter for GPU Performance
2:40 - 4:31 - Breakdown of GPU Kernels in Transformer Models
4:32 - 6:10 - MLP Kernel Efficiency and Roofline Model
6:11 - 7:59 - Attention Kernel Efficiency Before Flash Attention
8:00 - 10:25 - Optimizing Attention Kernels with Flash Attention
10:26 - 11:51 - Wave Quantization and GPU Occupancy Explained
11:52 - 13:17 - Training vs. Inference Efficiency Trade-offs
13:18 - 13:57 - Key Takeaways and Future Research Directions

---
About TensorWave:

TensorWave is the AI and HPC cloud purpose-built for performance. Powered exclusively by AMD Instinct™ Series GPUs, we deliver high-bandwidth, memory-optimized infrastructure that scales with your most demanding models—training or inference.

--
Connect with TensorWave:

https://www.tensorwave.com
https://www.x.com/tensorwavecloud
  / tensorwave
  / tensorwave_cloud
   / @tensorwavecloud

#AICompute #GPUs #BeyondCUDA #AIInfrastructure

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Maximizing GPU Efficiency w/ Quentin Anthony, Model Training Lead @ Zyphra | Beyond CUDA Summit 2025

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

GPU Kernel Optimization with Waleed Atallah , Co-Founder & CEO @ Mako | Beyond CUDA Summit 2025

GPU Kernel Optimization with Waleed Atallah , Co-Founder & CEO @ Mako | Beyond CUDA Summit 2025

Онлайн-дискуссия «Как создать умных AI‑агентов: работа с MCP»

Онлайн-дискуссия «Как создать умных AI‑агентов: работа с MCP»

Интервью по проектированию системы Google: Design Spotify (с бывшим менеджером по маркетингу Google)

Интервью по проектированию системы Google: Design Spotify (с бывшим менеджером по маркетингу Google)

Automating GPU Kernels: Mako’s CEO on Crossing the CUDA Moat

Automating GPU Kernels: Mako’s CEO on Crossing the CUDA Moat

The AMD Advantage: Anush Elangovan on Building AI Software to Compete with CUDA

The AMD Advantage: Anush Elangovan on Building AI Software to Compete with CUDA

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

How Zyphra is Cutting AI Training Costs with AMD GPUs

How Zyphra is Cutting AI Training Costs with AMD GPUs

4 часа Шопена для обучения, концентрации и релаксации

4 часа Шопена для обучения, концентрации и релаксации

Воруй деньги РФ и беги

Воруй деньги РФ и беги

Chillout Lounge - Calm & Relaxing Background Music | Study, Work, Sleep, Meditation, Chill

Chillout Lounge - Calm & Relaxing Background Music | Study, Work, Sleep, Meditation, Chill

Делаем графические процессоры по-настоящему быстрыми: глубокий анализ эффективности тренировок

Делаем графические процессоры по-настоящему быстрыми: глубокий анализ эффективности тренировок

США ударили по России / Потеряна важнейшая военная техника

США ударили по России / Потеряна важнейшая военная техника

Wearable AI and Evolving Norms: A Call for Cross-Sector Solutions | Ellysse Dick El-Shrafi

Wearable AI and Evolving Norms: A Call for Cross-Sector Solutions | Ellysse Dick El-Shrafi

Music for Work — Deep Focus & Productivity Radio

Music for Work — Deep Focus & Productivity Radio

Почему LLM застряли в прошлом и как RAG это исправляет

Почему LLM застряли в прошлом и как RAG это исправляет

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

The True Story of ZLUDA: How CUDA Can Run on AMD & Intel GPUs

The True Story of ZLUDA: How CUDA Can Run on AMD & Intel GPUs

4 Hours Chopin for Studying, Concentration & Relaxation

4 Hours Chopin for Studying, Concentration & Relaxation

Удар по порту Ростова, Крах нефтегазовых доходов, Барщевский покидает пост. Крутихин, Долин, Саакян

Удар по порту Ростова, Крах нефтегазовых доходов, Барщевский покидает пост. Крутихин, Долин, Саакян

Hot Takes on AI Compute: Industry Leaders Weigh In | Beyond CUDA Summit 2025

Hot Takes on AI Compute: Industry Leaders Weigh In | Beyond CUDA Summit 2025