Why Bigger GPT Models Don’t Use All Their Parameters

Автор: ML Guy

Загружено: 2026-03-01

Просмотров: 60

Описание: What if a language model didn’t need to use all of its parameters for every token?

Early Transformers activate everything at once — every layer, every neuron, every parameter. It works… but it doesn’t scale forever.

In this video, we break down Mixture of Experts (MoE), the architectural breakthrough that allows modern models to scale to massive parameter counts without increasing computation per token. You’ll learn how sparse activation works, how expert routing is trained, and why MoE models can reach trillion-parameter scale while remaining computationally efficient.

We cover:

Why dense Transformers become inefficient at extreme scale
How expert layers replace standard feed-forward networks
The role of the routing network (gating mechanism)
Top-k expert selection and sparse activation
Load-balancing losses and avoiding expert collapse
Why MoE increases capacity without increasing compute
Real-world examples like Switch Transformers and modern large-scale models

Mixture of Experts isn’t just about making models bigger.
It’s about making them selective.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Why Bigger GPT Models Don’t Use All Their Parameters

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Масштабирование LLM упёрлось в предел: исследование MIT

Масштабирование LLM упёрлось в предел: исследование MIT

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Я полностью перешел на Linux и больше НИКОГДА не установлю Windows

Я полностью перешел на Linux и больше НИКОГДА не установлю Windows

Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир?

Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир?

«Самолёты не должны уметь летать, и никто толком не знает почему.»

«Самолёты не должны уметь летать, и никто толком не знает почему.»

Why GPT’s Attention Mechanism Is So Complicated

Why GPT’s Attention Mechanism Is So Complicated

Your GPT Model Has No Sense of Order Without This Trick

Your GPT Model Has No Sense of Order Without This Trick

IREX 2026: Будущее уже здесь | Новейшие Технологии на Выставке в Японии

IREX 2026: Будущее уже здесь | Новейшие Технологии на Выставке в Японии

Савватеев разоблачает фокусы Земскова

Савватеев разоблачает фокусы Земскова

GPT-5.4 Uses a Computer Better Than Most Humans

GPT-5.4 Uses a Computer Better Than Most Humans

Как Гений Математик разгадал тайну вселенной

Как Гений Математик разгадал тайну вселенной

Блокировка Telegram: ТОП-5 защищенных мессенджеров на замену

Блокировка Telegram: ТОП-5 защищенных мессенджеров на замену

Запуск нейросетей локально. Генерируем - ВСЁ

Запуск нейросетей локально. Генерируем - ВСЁ

Я разобрал всю ИИ-экосистему Google — 7 ключевых инструментов

Я разобрал всю ИИ-экосистему Google — 7 ключевых инструментов

Электричество НЕ течёт по проводам — тревожное открытие Ричарда Фейнмана

Электричество НЕ течёт по проводам — тревожное открытие Ричарда Фейнмана

ИИ Агенты Нарушают Правила и Сопротивляются Людям | Новый Конкурс Роботов и ИИ DARPA

ИИ Агенты Нарушают Правила и Сопротивляются Людям | Новый Конкурс Роботов и ИИ DARPA

GLM-5 УНИЧТОЖИЛА DeepSeek! Бесплатная нейросеть БЕЗ ограничений. Полный тест 2026

GLM-5 УНИЧТОЖИЛА DeepSeek! Бесплатная нейросеть БЕЗ ограничений. Полный тест 2026

Самая Сложная Задача В Истории Самой Сложной Олимпиады

Самая Сложная Задача В Истории Самой Сложной Олимпиады

Глава NVIDIA: Чат-боты - прошлое. Будущее за роботами и физическим ИИ

Глава NVIDIA: Чат-боты - прошлое. Будущее за роботами и физическим ИИ

Телескоп Джеймс Уэбб заглянул за край Вселенной. Физика сломалась

Телескоп Джеймс Уэбб заглянул за край Вселенной. Физика сломалась