Секрет DeepSeek V4: на 98% меньше памяти.
Автор: Jia-Bin Huang
Загружено: 2026-04-28
Просмотров: 98014
Описание:
Вышла версия DeepSeek v4! Новая модель демонстрирует превосходные характеристики и отличается высокой эффективностью при обработке длинных контекстов. Давайте разберемся в основной идее нового механизма сжатого внимания (CSA и HCA)!
00:00 DeepSeek v4
00:22 Обзор механизма внимания
02:00 Многоголовочный механизм внимания
03:43 Сокращение кэша ключ-значение (MQA/GQA/MLA)
05:16 Сжатие на уровне токенов
10:04 Сжатое внимание
12:52 Разреженное внимание (DSA)
13:32 Сжатое разреженное внимание (CSA) и сильно сжатое внимание (HCA)
15:35 Архитектура DeepSeek V4 Pro с CSA/HCA
Ссылка:
[DeepSeek v4] https://huggingface.co/deepseek-ai/De...
Другие компоненты DeepSeek V4
Оптимизатор Muon: • This Simple Optimizer Is Revolutionizing H...
Гиперсоединения с ограничениями на многообразие (mHC): • How mHC Reinvents Residual Connections
Mixture of Experts (MoE): • Mixture of Experts (MoE), Visually Explained
DeepSeek Sparse Attention (DSA): • How Attention Got So Efficient [GQA/MLA/DSA]
Видео создано с помощью manim https://www.manim.community/
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: