LLM Inside: выжимаем максимум из decoder attention на GPU / Андрей Шукшов

Автор: Yandex for Backend

Загружено: 2025-10-18

Просмотров: 535

Описание: На конференции «Я про бэкенд» Андрей Шукшов, старший разработчик в команде оптимизаций инференса Яндекс R&D, рассказал, как выжать максимум из decoder attention на GPU. Он разобрал архитектуру современных графических процессоров и объяснил, как добиться максимальной производительности при реализации ключевого примитива LLM: механизма внимания в декодере.

Доклад будет особенно полезен разработчикам, которые уже работали с CUDA и хотят глубже понять устройство GPU и внутренние процессы больших языковых моделей.

Больше полезных материалов про бэкенд: https://t.me/+aN8Rc-4YJtVlZWZi

#япробэкенд #яндекс #backend #бэкенд #архитектура #highload #инфраструктура #ml #ai #llm #yandextech #разработка #инженерия #devops #ydb #автотранспорт #алиса #рекомендации

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

LLM Inside: выжимаем максимум из decoder attention на GPU / Андрей Шукшов

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

LLM Cache в поиске Лавки / Алексей Щекалев

LLM Cache в поиске Лавки / Алексей Щекалев

Лекция. Архитектура Transformer. Decoder, QKV Attention

Лекция. Архитектура Transformer. Decoder, QKV Attention

Запись вебинара «Введение в ассемблер RISC-V»

Запись вебинара «Введение в ассемблер RISC-V»

Как мы пересобрали инфраструктуру Маркета и не сломали всё вокруг / Егор Быховцев

Как мы пересобрали инфраструктуру Маркета и не сломали всё вокруг / Егор Быховцев

Event-Driven архитектура в Цикле Заказа Яндекс Лавки / Миша Горбушин

Event-Driven архитектура в Цикле Заказа Яндекс Лавки / Миша Горбушин

Биржевые системы и теория относительности

Биржевые системы и теория относительности

Встреча РГ21 С++ | декабрь 2025

Встреча РГ21 С++ | декабрь 2025

Митинг в Курске | Власти отменили выплаты пострадавшим от войны россиянам (English sub) @Max_Katz

Митинг в Курске | Власти отменили выплаты пострадавшим от войны россиянам (English sub) @Max_Katz

Путин подписал указ о военных сборах

Путин подписал указ о военных сборах

Консистентность данных в продукте / Боря Галочкин

Консистентность данных в продукте / Боря Галочкин

Секция на проверку базовых технических навыков для бэкенд-инженеров

Секция на проверку базовых технических навыков для бэкенд-инженеров

Потоп в Москве. Донос на Нагиева. Лариса Долина проиграла квартиру. Путин про «подсвинок» | ВОЗДУХ

Потоп в Москве. Донос на Нагиева. Лариса Долина проиграла квартиру. Путин про «подсвинок» | ВОЗДУХ

Секция на проверку базовых технических навыков для бэкенд-инженеров

Секция на проверку базовых технических навыков для бэкенд-инженеров

Нагиев высказался о войне на премьере «Елок-12». Что ему грозит? Обсуждают Пронченко и Котрикадзе

Нагиев высказался о войне на премьере «Елок-12». Что ему грозит? Обсуждают Пронченко и Котрикадзе

F[Scala] 2025

Катастрофическое забывание в импульсных нейронных сетях (Денис Ларионов), Kaspersky Neuromorphic AI

Катастрофическое забывание в импульсных нейронных сетях (Денис Ларионов), Kaspersky Neuromorphic AI

Как ведётся война России и Украины?

Как ведётся война России и Украины?

Database Internals Meetup #10: Пять докладов на конференции ISPRAS Open

Database Internals Meetup #10: Пять докладов на конференции ISPRAS Open

Ян Топлес поддержал войну и получил 260 000 🤡 | Что дальше (English subtitles) @Max_Katz

Ян Топлес поддержал войну и получил 260 000 🤡 | Что дальше (English subtitles) @Max_Katz

ПОЧЕМУ ВАС НЕ ДОЛЖНО СУЩЕСТВОВАТЬ

ПОЧЕМУ ВАС НЕ ДОЛЖНО СУЩЕСТВОВАТЬ