Создание стека для выполнения инференции в реальном времени на графических процессорах AMD Intinct
Автор: AMD Developer Central
Загружено: 2026-05-14
Просмотров: 363
Описание:
Докладчики:
Гаэль Делалло, основатель и генеральный директор Kog;
Огюстен Вернёй, инженер по графическим процессорам, Kog
Аннотация доклада: В этом докладе мы поделимся нашим видением генеративного ИИ в реальном времени и методами, которые мы разработали для достижения самой быстрой в истории генерации токенов LLM на графических процессорах, со скоростью генерации 2500 токенов/с на запрос. Сначала мы продемонстрируем наш комплексный стек, оптимизированный для минимальной задержки на оборудовании AMD, охватывающий перепроектирование модели, реализацию единого моноядра, а также алгоритмы, учитывающие топологию. Во второй части мы сосредоточимся на одной из определяющих проблем мегаядер: барьерах синхронизации внутри графических процессоров и примитивах reduce/gather. Используя подход, учитывающий особенности чиплетов и основанный на глубоком понимании аппаратного обеспечения, мы смогли уменьшить накладные расходы с 1,5 мкс до 600 нс.
Найдите необходимые ресурсы для разработки с использованием продуктов AMD: https://www.amd.com/en/developer.html
Присоединяйтесь к сообществу разработчиков: https://devcommunity.amd.com/
Присоединяйтесь к серверу Discord для разработчиков: / discord
***
© 2026 Advanced Micro Devices, Inc. Все права защищены. AMD, логотип AMD Arrow, EPYC, ROCm и AMD Instinct, а также их сочетания являются товарными знаками Advanced Micro Devices, Inc.
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: