【生成式AI時代下的機器學習(2025)】助教課：利用多張GPU訓練大型語言模型—從零開始介紹DeepSpeed、Liger Kernel、Flash Attention及Quantization

Автор: Hung-yi Lee

Загружено: 2025-03-29

Просмотров: 37629

Описание: 投影片連結（打開Excalidraw匯入即可）：https://drive.google.com/file/d/1pKgY...
歡迎同學到slido上匿名發問（連結會在4/4失效）：https://app.sli.do/event/o69HrUYmKJcP...

Instructor
Hsiu-Hsuan Wang(王秀軒)
Find more at https://anthony-wss.github.io/

Chapters
00:00 存取投影片、slido問問題
02:20 overview
04:38 introduction
20:20 DeepSpeed
36:10 flash attention
41:15 liger kernel
44:36 quantization
47:05 take away & recommended reading
48:45 Q&A

Links & Recommended Reading
flash attention: https://github.com/Dao-AILab/flash-at...
liger kernel: https://github.com/linkedin/Liger-Kernel
TWCC實驗code: https://github.com/anthony-wss/deepsp...
ultra-scale playbook: https://huggingface.co/spaces/nanotro...
transformers deepspeed docs: https://huggingface.co/docs/transform...

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

【生成式AI時代下的機器學習(2025)】助教課：利用多張GPU訓練大型語言模型—從零開始介紹DeepSpeed、Liger Kernel、Flash Attention及Quantization

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

【生成式AI時代下的機器學習(2025)】第六講：生成式人工智慧的後訓練(Post-Training)與遺忘問題

【生成式AI時代下的機器學習(2025)】第六講：生成式人工智慧的後訓練(Post-Training)與遺忘問題

【生成式AI時代下的機器學習(2025)】第七講：DeepSeek-R1 這類大型語言模型是如何進行「深度思考」（Reasoning）的？

【生成式AI時代下的機器學習(2025)】第七講：DeepSeek-R1 這類大型語言模型是如何進行「深度思考」（Reasoning）的？

Jacek Bartosiak | Zespół S&F | O strategii wobec Chin oraz ukraińskiej polityce wobec Intermarium

Jacek Bartosiak | Zespół S&F | O strategii wobec Chin oraz ukraińskiej polityce wobec Intermarium

How DeepSeek Rewrote the Transformer [MLA]

How DeepSeek Rewrote the Transformer [MLA]

【生成式AI時代下的機器學習(2025)】第五講：大型語言模型訓練方法「預訓練–對齊」(Pretrain-Alignment) 的強大與極限

【生成式AI時代下的機器學習(2025)】第五講：大型語言模型訓練方法「預訓練–對齊」(Pretrain-Alignment) 的強大與極限

【生成式AI時代下的機器學習(2025)】第四講：Transformer 的時代要結束了嗎？介紹 Transformer 的競爭者們

【生成式AI時代下的機器學習(2025)】第四講：Transformer 的時代要結束了嗎？介紹 Transformer 的競爭者們

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

【生成式AI時代下的機器學習(2025)】第二講：一堂課搞懂 AI Agent 的原理 (AI如何透過經驗調整行為、使用工具和做計劃)

【生成式AI時代下的機器學習(2025)】第二講：一堂課搞懂 AI Agent 的原理 (AI如何透過經驗調整行為、使用工具和做計劃)

Ogłoszono stan wyjątkowy / Pilna decyzja prezydenta / USA zaczynają walkę

Ogłoszono stan wyjątkowy / Pilna decyzja prezydenta / USA zaczynają walkę

【生成式AI時代下的機器學習(2025)】第八講：大型語言模型的推理過程不用太長、夠用就好

【生成式AI時代下的機器學習(2025)】第八講：大型語言模型的推理過程不用太長、夠用就好

【生成式AI時代下的機器學習(2025)】第三講：AI 的腦科學 — 語言模型內部運作機制剖析 (解析單一神經元到整群神經元的運作機制、如何讓語言模型說出自己的內心世界)

【生成式AI時代下的機器學習(2025)】第三講：AI 的腦科學 — 語言模型內部運作機制剖析 (解析單一神經元到整群神經元的運作機制、如何讓語言模型說出自己的內心世界)

【生成式AI導論 2024】第10講：今日的語言模型是如何做文字接龍的 — 淺談Transformer (已經熟悉 Transformer 的同學可略過本講)

【生成式AI導論 2024】第10講：今日的語言模型是如何做文字接龍的 — 淺談Transformer (已經熟悉 Transformer 的同學可略過本講)

【生成式AI導論 2024】第13講：淺談大型語言模型相關的安全性議題 (上) — 亡羊補牢、語言模型的偏見、有多少人用 ChatGPT 寫論文審查意見

【生成式AI導論 2024】第13講：淺談大型語言模型相關的安全性議題 (上) — 亡羊補牢、語言模型的偏見、有多少人用 ChatGPT 寫論文審查意見

【生成式人工智慧與機器學習導論2025】第１講：一堂課搞懂生成式人工智慧的原理

【生成式人工智慧與機器學習導論2025】第１講：一堂課搞懂生成式人工智慧的原理

【生成式人工智慧與機器學習導論2025】第 2 講：上下文工程 (Context Engineering) — AI Agent 背後的關鍵技術

【生成式人工智慧與機器學習導論2025】第 2 講：上下文工程 (Context Engineering) — AI Agent 背後的關鍵技術

【生成式AI時代下的機器學習(2025)】第十講：人工智慧的微創手術 — 淺談 Model Editing

【生成式AI時代下的機器學習(2025)】第十講：人工智慧的微創手術 — 淺談 Model Editing

【生成式人工智慧與機器學習導論2025】第3講：解剖大型語言模型

【生成式人工智慧與機器學習導論2025】第3講：解剖大型語言模型

抓包分析了MCP通信过程，直接惊呆了！

抓包分析了MCP通信过程，直接惊呆了！

【生成式人工智慧與機器學習導論2025】第 6 講：一堂課搞懂訓練類神經網路的各種訣竅

【生成式人工智慧與機器學習導論2025】第 6 講：一堂課搞懂訓練類神經網路的各種訣竅

【生成式AI導論 2024】第6講：大型語言模型修練史 — 第一階段: 自我學習，累積實力 (熟悉機器學習的同學從 15:00 開始看起即可)

【生成式AI導論 2024】第6講：大型語言模型修練史 — 第一階段: 自我學習，累積實力 (熟悉機器學習的同學從 15:00 開始看起即可)