LLM'lerde Dikkat (Attention) Optimizasyonu: PagedAttention ve FlashAttention

Автор: Sami Yusuf Turan

Загружено: 2026-02-20

Просмотров: 18

Описание: 00:00:00 - Attention Optimizasyonlarına Giriş: VRAM ve Hesaplama Sorunları
00:00:22 - PagedAttention Nedir? KV Cache ve Bellek İsrafı (Fragmentation) Problemi
00:02:57 - İşletim Sistemlerinden İlham Alan Çözüm: Paged Virtual Memory Analojisi
00:05:18 - Memory Sharing: PagedAttention ile Ortak Hafıza Kullanımı
00:06:36 - FlashAttention'a Giriş: GPU Donanım Mimarisi (HBM ve SRAM Farkı)
00:09:03 - Tiling İşlemi: Veri Taşıma Maliyetini (Memory Access) Azaltmak
00:11:30 - Safe Softmax Nedir? Sayısal Kararlılık (Numerical Stability) Sağlamak
00:16:53 - Online Softmax: Döngü (For Loop) Sayısını Azaltmak
00:27:53 - FlashAttention'ın Temel Fikri: Git-Gel İşlemlerinden Kurtulmak
00:30:18 - PayTorch vs FlashAttention Hız Karşılaştırması
00:30:48 - İleri Seviye Optimizasyon: Forward Pass Verilerini Yeniden Hesaplamak (Recomputation)
00:32:37 - Sliding Window Attention (Longformer): O(n^2) Karmaşıklık Problemini Çözmek
00:35:13 - Dilated ve Sparse Attention: Seyreltilmiş Dikkat Mekanizması
00:36:29 - Global Sliding Window Attention ve Konu Özeti

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

LLM'lerde Dikkat (Attention) Optimizasyonu: PagedAttention ve FlashAttention

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM'ler Nasıl Eğitilir? Pretraining, SFT, RLHF, DPO ve GRPO, LoRA

LLM'ler Nasıl Eğitilir? Pretraining, SFT, RLHF, DPO ve GRPO, LoRA

Yapay Zeka Ajanları (AI Agents): Mimariler, LangGraph Tasarım Desenleri, MCP, A2A ve ACP

Yapay Zeka Ajanları (AI Agents): Mimariler, LangGraph Tasarım Desenleri, MCP, A2A ve ACP

LLM'leri Daha Akıllı Yapan Teknikler: Chain of Thought, RAG, MoE ve Tool Calling

LLM'leri Daha Akıllı Yapan Teknikler: Chain of Thought, RAG, MoE ve Tool Calling

Derinlemesine Quantization Teknikleri, 1-Bit Modeller ve MoE

Derinlemesine Quantization Teknikleri, 1-Bit Modeller ve MoE

Nesne Yönelimli Programlama

Nesne Yönelimli Programlama

10 лет рисовал логотипы и вот что понял

10 лет рисовал логотипы и вот что понял

Архитектура интернета и веба | Теоретический курс 2026

Архитектура интернета и веба | Теоретический курс 2026

Вся IT-база в ОДНОМ видео: Память, Процессор, Код

Вся IT-база в ОДНОМ видео: Память, Процессор, Код

Честно про аддитивные технологии.

Честно про аддитивные технологии.

Что НА САМОМ ДЕЛЕ скрывается внутри ИИ? Главная причина успеха нейросетей...

Что НА САМОМ ДЕЛЕ скрывается внутри ИИ? Главная причина успеха нейросетей...

Все, что вам нужно знать о теории управления

Все, что вам нужно знать о теории управления

Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир?

Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир?

Магия транзисторов: как мы научили компьютеры думать с помощью кусочков кремния?

Магия транзисторов: как мы научили компьютеры думать с помощью кусочков кремния?

Фильм Алексея Семихатова «ГРАВИТАЦИЯ»

Фильм Алексея Семихатова «ГРАВИТАЦИЯ»

GLM-5 УНИЧТОЖИЛА DeepSeek! Бесплатная нейросеть БЕЗ ограничений. Полный тест 2026

GLM-5 УНИЧТОЖИЛА DeepSeek! Бесплатная нейросеть БЕЗ ограничений. Полный тест 2026

САПР в машиностроении. Фильм 1, 1986

САПР в машиностроении. Фильм 1, 1986

Modern LLM Optimizasyonları: Tokenization, RoPE, RMSNorm ve MLA

Modern LLM Optimizasyonları: Tokenization, RoPE, RMSNorm ve MLA

Как устроена компьютерная графика? OpenGL / C++

Как устроена компьютерная графика? OpenGL / C++

Где начало СХЕМЫ? Понимаем, читаем, изучаем схемы. Понятное объяснение!

Где начало СХЕМЫ? Понимаем, читаем, изучаем схемы. Понятное объяснение!