ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Секрет DeepSeek V4: на 98% меньше памяти.

Автор: Jia-Bin Huang

Загружено: 2026-04-28

Просмотров: 98014

Описание: Вышла версия DeepSeek v4! Новая модель демонстрирует превосходные характеристики и отличается высокой эффективностью при обработке длинных контекстов. Давайте разберемся в основной идее нового механизма сжатого внимания (CSA и HCA)!

00:00 DeepSeek v4
00:22 Обзор механизма внимания
02:00 Многоголовочный механизм внимания
03:43 Сокращение кэша ключ-значение (MQA/GQA/MLA)
05:16 Сжатие на уровне токенов
10:04 Сжатое внимание
12:52 Разреженное внимание (DSA)
13:32 Сжатое разреженное внимание (CSA) и сильно сжатое внимание (HCA)
15:35 Архитектура DeepSeek V4 Pro с CSA/HCA

Ссылка:
[DeepSeek v4] https://huggingface.co/deepseek-ai/De...

Другие компоненты DeepSeek V4
Оптимизатор Muon:    • This Simple Optimizer Is Revolutionizing H...  
Гиперсоединения с ограничениями на многообразие (mHC):    • How mHC Reinvents Residual Connections  
Mixture of Experts (MoE):    • Mixture of Experts (MoE), Visually Explained  
DeepSeek Sparse Attention (DSA):    • How Attention Got So Efficient [GQA/MLA/DSA]  

Видео создано с помощью manim https://www.manim.community/

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Секрет DeepSeek V4: на 98% меньше памяти.

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]