Секрет DeepSeek V4: на 98% меньше памяти.

Автор: Jia-Bin Huang

Загружено: 2026-04-28

Просмотров: 98014

Описание: Вышла версия DeepSeek v4! Новая модель демонстрирует превосходные характеристики и отличается высокой эффективностью при обработке длинных контекстов. Давайте разберемся в основной идее нового механизма сжатого внимания (CSA и HCA)!

00:00 DeepSeek v4
00:22 Обзор механизма внимания
02:00 Многоголовочный механизм внимания
03:43 Сокращение кэша ключ-значение (MQA/GQA/MLA)
05:16 Сжатие на уровне токенов
10:04 Сжатое внимание
12:52 Разреженное внимание (DSA)
13:32 Сжатое разреженное внимание (CSA) и сильно сжатое внимание (HCA)
15:35 Архитектура DeepSeek V4 Pro с CSA/HCA

Ссылка:
[DeepSeek v4] https://huggingface.co/deepseek-ai/De...

Другие компоненты DeepSeek V4
Оптимизатор Muon:    • This Simple Optimizer Is Revolutionizing H...
Гиперсоединения с ограничениями на многообразие (mHC):    • How mHC Reinvents Residual Connections
Mixture of Experts (MoE):    • Mixture of Experts (MoE), Visually Explained
DeepSeek Sparse Attention (DSA):    • How Attention Got So Efficient [GQA/MLA/DSA]

Видео создано с помощью manim https://www.manim.community/

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Секрет DeepSeek V4: на 98% меньше памяти.

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео