Вычисления на GPU 02 | Архитектура GPU, модель массового параллелизма | CS Space
Автор: Николай Полярный
Загружено: 2026-01-01
Просмотров: 325
Описание:
00:00 План лекции
02:26 Сравнение GPU и CPU
07:10 Как уместить много ядер в GPU, warp, 32 лилипута
08:20 Streaming Multiprocessor (SM)
09:37 У потоков warp единый Instruction Pointer
13:33 Проблема Code Divergence
16:42 CPU: Hyper Threading и SMT
18:55 GPU: SM клоун жонглирует warp-ами с лилипутами, скрывает Latency
26:05 Метрика Occupancy, Registers Pressure/Spilling
33:47 Количество warp-ов - на этапе компиляции, прекомпиляция шейдеров
36:02 Отбраковка чипов и сегментация рынка
37:40 GPU память: Coalesced Memory Access pattern
50:12 SIMT vs SIMD
51:53 Архитектура ЭВМ: CPU-RAM-PCIE-VRAM-GPU
55:26 Local/Shared Memory (L1 cache)
56:32 Итоги архитектуры GPU
58:34 Threadripper 7980X как пример проблемы масштабируемости
1:01:34 Вычисления массового параллелизма: WorkRange/Grid, WorkItem/Block, WorkGroup/Thread
1:06:53 Local Memory Barrier, Registers Shuffle, dFdx, dFdy
1:09:58 2D WorkRange/Grid
1:11:40 Профилирование и оптимизация, compute bound, memory bound, NVIDIA Nsight
1:20:00 CPU код на OpenMP
1:24:50 GPU код кернелов на OpenCL, CUDA, Vulkan (GLSL)
1:32:57 Сложение матриц, Coalesced Memory Access
1:36:26 Вопрос: нужно ли дожидаться завершения работы кернела чтобы получить результаты
1:37:07 Вопрос: что если рабочая задача сильно больше чем число потоков
1:38:23 Вопрос: параллельный запуск кернелов на одной видеокарте
Темы лекции:
Архитектура GPU (на контрасте с CPU)
Модель массового параллелизма
code divergence, coalesced memory access
latency hiding, occupancy, registers pressure/spilling
Speed of Light (SoL) анализ, профилировщики
Синтаксис кернелов на OpenCL, CUDA, Vulkan
Слайды - https://storage.yandexcloud.net/csspa...
Практические задания (задания можно выполнять на любом из трех API - CUDA, OpenCL или Vulkan) - https://github.com/GPGPUCourse/
Лектор - Полярный Николай Вадимович
Telegram канал - https://t.me/UnicornGlade
По вопросам сотрудничества/консультирования/проектной разработки/помощи с оптимизацией вашего кода/разработки алгоритмов (GPU, GPGPU, Computer Vision, Machine Learning) - [email protected] и TG@PolarNick239
Изначально лекция была записана и выложена на канале CS Space - • Лекция 2 | Архитектура GPU, модель массово...
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: