ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Техническая сторона инференса LLM: взгляд внутрь GPU

Автор: PY

Загружено: 2026-06-09

Просмотров: 2174

Описание: Когда языковая модель генерирует токен, графический процессор, выполняющий эту работу, тратит более 99% своего времени на ожидание доступа к памяти и почти ничего на вычисления. В этом видео мы рассмотрим NVIDIA H100, чтобы объяснить, почему так происходит и как оборудование противодействует этому.

Графический процессор делает ставку, противоположную центральному процессору: вместо нескольких быстрых потоков H100 запускает более 270 000 медленных потоков на 132 потоковых мультипроцессорах и скрывает задержку доступа к памяти, поддерживая достаточное количество потоков обработки, чтобы планировщик всегда имел готовый к запуску поток. Мы рассмотрим внутреннюю структуру SM (ядра CUDA, тензорные ядра, потоки обработки и SIMT, расхождение потоков обработки), пройдемся по четырехуровневой иерархии памяти от регистров до HBM и объясним «барьер памяти»: расширяющийся разрыв между вычислительными ресурсами и пропускной способностью, из-за которого большинство операций вывода оказываются ограниченными памятью. Модель «крыши» и интенсивность арифметических операций показывают, по какую сторону этого барьера находится любая операция. Тензорные ядра и более низкая точность (FP16, FP8, FP4) — это то, как каждое поколение повышает вычислительный потолок, в то время как NVLink, NVSwitch и 72-процессорный GB200 NVL72 позволяют масштабироваться за пределы одного чипа. В заключительном разделе справедливо рассматриваются альтернативы: TPU от Google и его систолический массив, AMD MI300X с 192 ГБ HBM, и почему двадцатилетнее лидерство CUDA в программном обеспечении, а не технические характеристики, по-прежнему является ограничивающим фактором.

Это второе видео из серии о выводе LLM; следующее будет посвящено ядрам — коду, который делает это оборудование быстрым.

Разделы:
---------------
00:00 Открытие графического процессора
01:16 Пропускная способность против задержки: 270 000 потоков в обработке
02:57 Внутри потокового мультипроцессора: CUDA и тензорные ядра
05:04 Варпы и SIMT: 32 потока в синхронном режиме
06:23 Расхождение варпов: когда ветвления уменьшают пропускную способность вдвое
07:36 Четырехуровневая иерархия памяти: от регистров к HBM
09:12 Скрытие задержки HBM путем переподписки на варпы
10:21 Объединенные против необъединенных: одна транзакция или 32
11:32 Стена памяти: вычислительные ресурсы превосходят пропускную способность HBM
13:19 Модель крыши: 295 операций на байт
14:01 Тензорные ядра: Умножение и накопление матриц за одну инструкцию
15:35 Более низкая точность: FP16, FP8 и FP4
17:10 Масштабирование вверх против масштабирования вширь: NVLink и InfiniBand
18:56 TPU, MI300X и ведущий разработчик программного обеспечения CUDA

Ссылки:
------------------
NVIDIA, «Руководство по программированию CUDA C++»: https://docs.nvidia.com/cuda/cuda-c-p...
NVIDIA, «Подробное описание архитектуры Hopper» (2022): https://developer.nvidia.com/blog/nvi...
NVIDIA, «Технический документ по архитектуре графического процессора Tesla V100» (2017): https://images.nvidia.com/content/vol...
NVIDIA, «Архитектура Блэквелла»: https://www.nvidia.com/en-us/data-cen...
NVIDIA, «GB200 NVL72»: https://www.nvidia.com/en-us/data-cen...
Уильямс, Уотерман и Паттерсон (2009), «Roofline: информативная визуальная модель производительности для многоядерных архитектур», Communications of the ACM: https://doi.org/10.1145/1498765.1498785
Google Cloud, «Архитектура TPU»: https://docs.cloud.google.com/tpu/doc...
AMD, «Ускорители Instinct MI300X»: https://www.amd.com/en/products/accel...
SemiAnalysis (2024), "Сравнение MI300X, H100 и H200: часть 1: обучение (преимущество CUDA все еще сохраняется)": https://newsletter.semianalysis.com/p...

#GPU #CUDA #LLMInference #NVIDIA #TensorCores #H100 #blackwell #GPUComputing #AIHardware #DeepLearning #MachineLearning #ai #llm #openai #anthropic

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Техническая сторона инференса LLM: взгляд внутрь GPU

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]