Техническая сторона инференса LLM: взгляд внутрь GPU
Автор: PY
Загружено: 2026-06-09
Просмотров: 2174
Описание:
Когда языковая модель генерирует токен, графический процессор, выполняющий эту работу, тратит более 99% своего времени на ожидание доступа к памяти и почти ничего на вычисления. В этом видео мы рассмотрим NVIDIA H100, чтобы объяснить, почему так происходит и как оборудование противодействует этому.
Графический процессор делает ставку, противоположную центральному процессору: вместо нескольких быстрых потоков H100 запускает более 270 000 медленных потоков на 132 потоковых мультипроцессорах и скрывает задержку доступа к памяти, поддерживая достаточное количество потоков обработки, чтобы планировщик всегда имел готовый к запуску поток. Мы рассмотрим внутреннюю структуру SM (ядра CUDA, тензорные ядра, потоки обработки и SIMT, расхождение потоков обработки), пройдемся по четырехуровневой иерархии памяти от регистров до HBM и объясним «барьер памяти»: расширяющийся разрыв между вычислительными ресурсами и пропускной способностью, из-за которого большинство операций вывода оказываются ограниченными памятью. Модель «крыши» и интенсивность арифметических операций показывают, по какую сторону этого барьера находится любая операция. Тензорные ядра и более низкая точность (FP16, FP8, FP4) — это то, как каждое поколение повышает вычислительный потолок, в то время как NVLink, NVSwitch и 72-процессорный GB200 NVL72 позволяют масштабироваться за пределы одного чипа. В заключительном разделе справедливо рассматриваются альтернативы: TPU от Google и его систолический массив, AMD MI300X с 192 ГБ HBM, и почему двадцатилетнее лидерство CUDA в программном обеспечении, а не технические характеристики, по-прежнему является ограничивающим фактором.
Это второе видео из серии о выводе LLM; следующее будет посвящено ядрам — коду, который делает это оборудование быстрым.
Разделы:
---------------
00:00 Открытие графического процессора
01:16 Пропускная способность против задержки: 270 000 потоков в обработке
02:57 Внутри потокового мультипроцессора: CUDA и тензорные ядра
05:04 Варпы и SIMT: 32 потока в синхронном режиме
06:23 Расхождение варпов: когда ветвления уменьшают пропускную способность вдвое
07:36 Четырехуровневая иерархия памяти: от регистров к HBM
09:12 Скрытие задержки HBM путем переподписки на варпы
10:21 Объединенные против необъединенных: одна транзакция или 32
11:32 Стена памяти: вычислительные ресурсы превосходят пропускную способность HBM
13:19 Модель крыши: 295 операций на байт
14:01 Тензорные ядра: Умножение и накопление матриц за одну инструкцию
15:35 Более низкая точность: FP16, FP8 и FP4
17:10 Масштабирование вверх против масштабирования вширь: NVLink и InfiniBand
18:56 TPU, MI300X и ведущий разработчик программного обеспечения CUDA
Ссылки:
------------------
NVIDIA, «Руководство по программированию CUDA C++»: https://docs.nvidia.com/cuda/cuda-c-p...
NVIDIA, «Подробное описание архитектуры Hopper» (2022): https://developer.nvidia.com/blog/nvi...
NVIDIA, «Технический документ по архитектуре графического процессора Tesla V100» (2017): https://images.nvidia.com/content/vol...
NVIDIA, «Архитектура Блэквелла»: https://www.nvidia.com/en-us/data-cen...
NVIDIA, «GB200 NVL72»: https://www.nvidia.com/en-us/data-cen...
Уильямс, Уотерман и Паттерсон (2009), «Roofline: информативная визуальная модель производительности для многоядерных архитектур», Communications of the ACM: https://doi.org/10.1145/1498765.1498785
Google Cloud, «Архитектура TPU»: https://docs.cloud.google.com/tpu/doc...
AMD, «Ускорители Instinct MI300X»: https://www.amd.com/en/products/accel...
SemiAnalysis (2024), "Сравнение MI300X, H100 и H200: часть 1: обучение (преимущество CUDA все еще сохраняется)": https://newsletter.semianalysis.com/p...
#GPU #CUDA #LLMInference #NVIDIA #TensorCores #H100 #blackwell #GPUComputing #AIHardware #DeepLearning #MachineLearning #ai #llm #openai #anthropic
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: