Создание стека для выполнения инференции в реальном времени на графических процессорах AMD Intinct

Автор: AMD Developer Central

Загружено: 2026-05-14

Просмотров: 363

Описание: Докладчики:
Гаэль Делалло, основатель и генеральный директор Kog;
Огюстен Вернёй, инженер по графическим процессорам, Kog

Аннотация доклада: В этом докладе мы поделимся нашим видением генеративного ИИ в реальном времени и методами, которые мы разработали для достижения самой быстрой в истории генерации токенов LLM на графических процессорах, со скоростью генерации 2500 токенов/с на запрос. Сначала мы продемонстрируем наш комплексный стек, оптимизированный для минимальной задержки на оборудовании AMD, охватывающий перепроектирование модели, реализацию единого моноядра, а также алгоритмы, учитывающие топологию. Во второй части мы сосредоточимся на одной из определяющих проблем мегаядер: барьерах синхронизации внутри графических процессоров и примитивах reduce/gather. Используя подход, учитывающий особенности чиплетов и основанный на глубоком понимании аппаратного обеспечения, мы смогли уменьшить накладные расходы с 1,5 мкс до 600 нс.

Найдите необходимые ресурсы для разработки с использованием продуктов AMD: https://www.amd.com/en/developer.html

Присоединяйтесь к сообществу разработчиков: https://devcommunity.amd.com/

Присоединяйтесь к серверу Discord для разработчиков: / discord

***

© 2026 Advanced Micro Devices, Inc. Все права защищены. AMD, логотип AMD Arrow, EPYC, ROCm и AMD Instinct, а также их сочетания являются товарными знаками Advanced Micro Devices, Inc.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Создание стека для выполнения инференции в реальном времени на графических процессорах AMD Intinct

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео