Маршрутизация с использованием смешанной группы экспертов: визуальное объяснение

Автор: Tales Of Tensors

Загружено: 2026-01-31

Просмотров: 271

Описание: Микстральная архитектура «8×7B» может иметь в общей сложности около 47 миллиардов параметров, но активируется лишь небольшая часть каждого токена — потому что маршрутизатор отправляет каждый токен набору из K лучших экспертов и объединяет их выходные данные.

Но MOE — это не «выбери двух экспертов, и всё готово». Мы рассмотрим реальную инженерную историю: математику маршрутизации (softmax → top-K → взвешенное объединение), почему ранние версии MOE страдали от коллапса экспертов и дисбаланса нагрузки, и что изменила MOE 2.0 с потерей балансировки нагрузки и общими экспертами.

Затем мы перейдём к практике: накладные расходы на связь «все ко всем», которые могут свести на нет теоретические ускорения, компромисс между пропускной способностью и переполнением (и что на самом деле означает «коэффициент пропускной способности»), а также ключевые метрики для мониторинга состояния MOE в производственной среде.

Если вас интересует внутреннее устройство LLM, подпишитесь.

смесь экспертов
объяснение MOE
смешение экспертов LLM
маршрутизация MOE
разреженный трансформатор
условные вычисления
разреженный MOE
плотная против разреженной модели
трансформатор прямой сети
маршрутизация топ k
softmax маршрутизатора
выбор эксперта
веса эксперта
коллапс эксперта
мертвые эксперты
потери балансировки нагрузки
вспомогательные потери MOE
энтропия маршрутизатора
дисбаланс нагрузки
переполнение емкости
отбрасывание токенов
MOE без отбрасывания токенов
токены переполнения перемаршрутизации
совместные эксперты
гибридная архитектура MOE
связь «все ко всем»
распределенное обучение MOE
накладные расходы на диспетчеризацию GPU
узкое место MOE
отстающий GPU
доля токенов эксперта
скорость отбрасывания при переполнении
задержка «все ко всем»
коэффициент емкости MOE
расчет емкости MOE
смешанный 8x7b
объяснение смешанного MOE
Deepseek v2 MOE
производственные системы MOE
когда использовать MOE
MOE против плотной модели
компромиссы разреженности
вывод LLM пропускная способность
системная инженерия LLM
внутреннее устройство трансформатора
предварительный просмотр событий страницы
кэш kv VLLM

0:00 Перспективы смешанных экспертов (Mixtral 8x7B)
1:15 Плотные модели против разреженных смешанных экспертов и условные вычисления
2:05 Механика маршрутизатора: Softmax, выбор Top-K и комбинирование
2:55 Ранние проблемы смешанных экспертов: коллапс экспертов и дисбаланс нагрузки
3:40 Ограничения пропускной способности, переполнение и стратегии сброса токенов
4:40 Потери при балансировке нагрузки, общие эксперты и гибридные конструкции
5:40 Связь «все ко всем» и узкие места многопроцессорных систем
6:40 Реальные системы: Mixtral, DeepSeek-V2 и производственная маршрутизация
7:40 Ключевые метрики для мониторинга состояния смешанных экспертов в производственной среде
8:40 Компромисс между смешанными экспертами и плотными моделями, коэффициент пропускной способности и выводы

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Маршрутизация с использованием смешанной группы экспертов: визуальное объяснение

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Внимание: За невероятной скоростью vLLLM скрывается

Внимание: За невероятной скоростью vLLLM скрывается

Почему AI генерит мусор — и как заставить его писать нормальный код

Почему AI генерит мусор — и как заставить его писать нормальный код

home hosting with home firebase and hosting

home hosting with home firebase and hosting

Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир?

Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир?

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Я представил себе трансформатор, состоящий только из декодера.

Я представил себе трансформатор, состоящий только из декодера.

Крах AI Империи

Крах AI Империи

Как ответить на вопросы про Kafka на интервью? Полный разбор

Как ответить на вопросы про Kafka на интервью? Полный разбор

Rav 4 2026 new-Разобрали, удивились.

Rav 4 2026 new-Разобрали, удивились.

Эти профессии выживут после AI. Проверь, есть ли твоя в списке

Эти профессии выживут после AI. Проверь, есть ли твоя в списке

Спекулятивное декодирование: в 3 раза более быстрый вывод LLM без потери качества.

Спекулятивное декодирование: в 3 раза более быстрый вывод LLM без потери качества.

Claude Code: Настройка, которая делает его в 10 раз полезнее

Claude Code: Настройка, которая делает его в 10 раз полезнее

Масштабирование LLM упёрлось в предел: исследование MIT

Масштабирование LLM упёрлось в предел: исследование MIT

Lider kraju nie żyje / Ogłoszono żałobę / PILNE WIADOMOŚCI

Lider kraju nie żyje / Ogłoszono żałobę / PILNE WIADOMOŚCI

Альфред Кох – Путин 1990-х, бандиты, НТВ, Навальный / вДудь

Альфред Кох – Путин 1990-х, бандиты, НТВ, Навальный / вДудь

How DeepSeek's Multi-Head Latent Attention Changed the Game

How DeepSeek's Multi-Head Latent Attention Changed the Game

Что такое API? Простыми Словами Для Начинающих

Что такое API? Простыми Словами Для Начинающих

Как заставить ИИ писать нормальный код. Оркестрация мультиагентной системы.

Как заставить ИИ писать нормальный код. Оркестрация мультиагентной системы.

Лекция от легенды ИИ в Стэнфорде

Лекция от легенды ИИ в Стэнфорде

Вот как на самом деле работают магистерские программы по логическому мышлению.

Вот как на самом деле работают магистерские программы по логическому мышлению.