Маршрутизация с использованием смешанной группы экспертов: визуальное объяснение
Автор: Tales Of Tensors
Загружено: 2026-01-31
Просмотров: 271
Описание:
Микстральная архитектура «8×7B» может иметь в общей сложности около 47 миллиардов параметров, но активируется лишь небольшая часть каждого токена — потому что маршрутизатор отправляет каждый токен набору из K лучших экспертов и объединяет их выходные данные.
Но MOE — это не «выбери двух экспертов, и всё готово». Мы рассмотрим реальную инженерную историю: математику маршрутизации (softmax → top-K → взвешенное объединение), почему ранние версии MOE страдали от коллапса экспертов и дисбаланса нагрузки, и что изменила MOE 2.0 с потерей балансировки нагрузки и общими экспертами.
Затем мы перейдём к практике: накладные расходы на связь «все ко всем», которые могут свести на нет теоретические ускорения, компромисс между пропускной способностью и переполнением (и что на самом деле означает «коэффициент пропускной способности»), а также ключевые метрики для мониторинга состояния MOE в производственной среде.
Если вас интересует внутреннее устройство LLM, подпишитесь.
смесь экспертов
объяснение MOE
смешение экспертов LLM
маршрутизация MOE
разреженный трансформатор
условные вычисления
разреженный MOE
плотная против разреженной модели
трансформатор прямой сети
маршрутизация топ k
softmax маршрутизатора
выбор эксперта
веса эксперта
коллапс эксперта
мертвые эксперты
потери балансировки нагрузки
вспомогательные потери MOE
энтропия маршрутизатора
дисбаланс нагрузки
переполнение емкости
отбрасывание токенов
MOE без отбрасывания токенов
токены переполнения перемаршрутизации
совместные эксперты
гибридная архитектура MOE
связь «все ко всем»
распределенное обучение MOE
накладные расходы на диспетчеризацию GPU
узкое место MOE
отстающий GPU
доля токенов эксперта
скорость отбрасывания при переполнении
задержка «все ко всем»
коэффициент емкости MOE
расчет емкости MOE
смешанный 8x7b
объяснение смешанного MOE
Deepseek v2 MOE
производственные системы MOE
когда использовать MOE
MOE против плотной модели
компромиссы разреженности
вывод LLM пропускная способность
системная инженерия LLM
внутреннее устройство трансформатора
предварительный просмотр событий страницы
кэш kv VLLM
0:00 Перспективы смешанных экспертов (Mixtral 8x7B)
1:15 Плотные модели против разреженных смешанных экспертов и условные вычисления
2:05 Механика маршрутизатора: Softmax, выбор Top-K и комбинирование
2:55 Ранние проблемы смешанных экспертов: коллапс экспертов и дисбаланс нагрузки
3:40 Ограничения пропускной способности, переполнение и стратегии сброса токенов
4:40 Потери при балансировке нагрузки, общие эксперты и гибридные конструкции
5:40 Связь «все ко всем» и узкие места многопроцессорных систем
6:40 Реальные системы: Mixtral, DeepSeek-V2 и производственная маршрутизация
7:40 Ключевые метрики для мониторинга состояния смешанных экспертов в производственной среде
8:40 Компромисс между смешанными экспертами и плотными моделями, коэффициент пропускной способности и выводы
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: