ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Инженерные принципы обучения модели LLM с 2 триллионами параметров

Автор: PY

Загружено: 2026-04-29

Просмотров: 23073

Описание: DeepSeek-V3 обучил высококачественную модель MoE с 671 миллиардом параметров за 5,6 млн долларов, используя 2048 графических процессоров. Llama 3 405B использовала 16384 H100 для аналогичного качества бенчмарка. В обоих случаях использовались схожие методы обучения, но их конфигурации были совершенно разными. Аппаратное обеспечение имеет большое значение.

В этом видео мы рассмотрим все различные методы и архитектуру обучения LLM с триллионом параметров.

ZeRO разделяет состояние оптимизатора, градиенты и веса между графическими процессорами в три этапа. Таким образом, ни одному графическому процессору не нужно хранить всю модель целиком. FlashAttention разделяет механизм внимания на блоки SRAM и полностью избегает создания матрицы N×N, уменьшая использование памяти с O(N²) до O(N). Тензорный параллелизм разделяет умножение матриц внутри узла NVLink с 8 графическими процессорами. Если конфигурация больше, накладные расходы на связь могут стать проблематичными. Параллелизм конвейера распределяет слои по узлам, используя расписания 1F1B и обратное разделение, чтобы минимизировать «пузыри» конвейера. Метод Mixture of Experts разделяет общее количество параметров и вычисления на каждый токен, поэтому его используют все модели триллионного масштаба, включая Switch Transformer, GPT-4 и DeepSeek-V3. FP8 с пошаговым масштабированием удваивает пропускную способность H100 и поддерживает потери всего в 0,25% по сравнению с BF16 во время полного запуска DeepSeek-V3 с 14,8 триллионами токенов. Ring Attention предварительно заполняет 1 миллион токенов на Llama 3 405B за 77 секунд, используя 128 H100.

При наличии 16 384 графических процессоров кластер часто выходит из строя. Meta зафиксировала 419 неожиданных сбоев за 54 дня обучения Llama 3, в среднем один каждые три часа. Оркестратор автоматически обработал все эти проблемы, кроме трех. DeepSeek-V3 использовал другой подход на H800, избегая тензорного параллелизма, но увеличивая экспертный параллелизм до 64 и применяя пользовательское расписание DualPipe, которое перекрывает экспертную маршрутизацию с вычислениями.

GB200 NVL72 размещает 72 графических процессора в одном домене NVLink, увеличивая предел тензорного параллелизма в 9 раз. DiLoCo обучается в двух центрах обработки данных, расположенных на расстоянии 1000 км друг от друга, с эффективностью масштабирования 96%. Аппаратно-ориентированное совместное проектирование достигает качества Llama 3 при в 11 раз меньшем количестве часов работы графических процессоров. Большая часть этого стека была недоступна еще пять лет назад.

Разделы:
----------------
00:00 Обучение LLM на границе: проблема полного стека
01:00 Память LLM: 16 байт на параметр, 32 ТБ
02:30 Ring All-Reduce, LAMB и критический размер пакета
04:50 Шардинг ZeRO: состояния оптимизатора, градиенты, параметры
06:39 Контрольные точки градиента: выборочное пересчитывание активации
08:07 FlashAttention: разбиение SRAM на плитки и масштабирование Softmax
09:35 Параллелизм тензоров и последовательностей внутри узла NVLink
11:57 Параллелизм конвейера: 1F1B, чередование и обратное разделение
14:20 Ring Attention: обеспечение обучения контекста в миллион токенов
15:27 Смесь экспертов (MoE) и маршрутизация смещения DeepSeek-V3
17:08 Смешанная точность Обучение: BF16, FP8 и FP4
19:31 Llama 3 против DeepSeek-V3: две стратегии параллелизма
21:37 Правило 6ND шиншиллы: почему обучение стоит 750 миллионов долларов
22:58 419 аппаратных сбоев Llama 3 и восстановление с помощью резервного копирования
24:27 Сквозное обучение LLM: данные, сетка, плоскость управления
27:05 GB200 NVL72, DiLoCo и аппаратно-ориентированное совместное проектирование

Ссылки:
-------------------
ZeRO: Оптимизация памяти для обучения моделей с триллионом параметров (Rajbhandari et al. 2019) https://arxiv.org/abs/1910.02054
FlashAttention (Dao et al. 2022) https://arxiv.org/abs/2205.14135
Сокращение пересчета активации в больших моделях трансформеров (Korthikanti et al. 2022) https://arxiv.org/abs/2205.05198
Параллелизм конвейера с нулевым пузырьком (Qi et al. 2023) https://arxiv.org/abs/2401.10241
Кольцевое внимание с блочными трансформерами (Liu et al. 2023) https://arxiv.org/abs/2310.01889
Трансформеры с переключателями (Fedus et al. 2021) https://arxiv.org/abs/2101.03961
LAMB: обучение BERT за 76 минут (You et al. 2019) https://arxiv.org/abs/1904.00962
Обучение вычислительно-оптимальных больших языковых моделей / Chinchilla (Hoffmann et al. 2022) https://arxiv.org/abs/2203.15556
Стадо моделей Llama 3 (Grattafiori et al. 2024) https://arxiv.org/abs/2407.21783
Технический отчет DeepSeek-V3 (DeepSeek-AI 2024) https://arxiv.org/abs/2412.19437
DiLoCo: Распределенное обучение языковых моделей с низким уровнем коммуникации (Douillard et al. 2023) https://arxiv.org/abs/2311.08105

#llm #deepseek #aitraining #largelanguagemodels #глубокоеобучение #распределенноеобучение #nvidia #ai #мета #google #deepmind #openai #антропоморфный #лама

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Инженерные принципы обучения модели LLM с 2 триллионами параметров

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]