LLM'ler Nasıl Eğitilir? Pretraining, SFT, RLHF, DPO ve GRPO, LoRA

Автор: Sami Yusuf Turan

Загружено: 2026-02-20

Просмотров: 21

Описание: 00:00:00 - LLM Eğitim Sürecine Büyük Bakış: Pretraining, SFT ve RLHF
00:02:14 - FineWeb ve Veri Toplama (Data Pipeline): URL Filtreleme ve Temizleme
00:04:18 - NanoGPT, GPT-2 ve GPT-3 Model Büyüklüklerinin Görselleştirilmesi
00:07:34 - Scaling Laws (Ölçekleme Yasaları): Compute, Data ve Parametre İlişkisi
00:09:37 - Chinchilla Law: Parametre Başına Kaç Token Veri Gerekir?
00:11:03 - Pretraining Aşamasının Dezavantajları ve Maliyeti
00:12:12 - Supervised Fine-Tuning (SFT): Modeli Chatbot'a Çevirmek
00:15:20 - LoRA (Low-Rank Adaptation) Nedir? Maliyeti Düşük Fine-Tuning
00:20:05 - QLoRA: Quantization ile Hesaplama Maliyetini Azaltmak
00:20:36 - Preference Alignment: Modeli İnsan Tercihlerine Göre Hizalamak
00:21:46 - RLHF (Reinforcement Learning from Human Feedback) Mantığı
00:24:12 - Reward Model (Ödül Modeli) Nasıl Eğitilir? Bradley-Terry Formülasyonu
00:28:17 - Model Eğitimi ve İnsan Tercihlerine Göre Ağırlık Güncelleme (Policy)
00:30:02 - PPO (Proximal Policy Optimization) ve KL Divergence
00:32:00 - Advantage Hesaplaması ve Value Function Nedir?
00:34:54 - PPO Clip Yöntemi ve Güncelleme Sınırlandırması
00:37:55 - PPO'nun Dezavantajları ve DPO'ya (Direct Preference Optimization) Geçiş
00:41:22 - GRPO (Group Relative Policy Optimization): DeepSeek'in Optimizasyon Yöntemi
00:46:10 - PPO, DPO ve GRPO Karşılaştırması ve Kapanış

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

LLM'ler Nasıl Eğitilir? Pretraining, SFT, RLHF, DPO ve GRPO, LoRA

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Лекция от легенды ИИ в Стэнфорде

Лекция от легенды ИИ в Стэнфорде

Yapay Zeka Ajanları (AI Agents): Mimariler, LangGraph Tasarım Desenleri, MCP, A2A ve ACP

Yapay Zeka Ajanları (AI Agents): Mimariler, LangGraph Tasarım Desenleri, MCP, A2A ve ACP

Derinlemesine Quantization Teknikleri, 1-Bit Modeller ve MoE

Derinlemesine Quantization Teknikleri, 1-Bit Modeller ve MoE

Фильм Алексея Семихатова «ГРАВИТАЦИЯ»

Фильм Алексея Семихатова «ГРАВИТАЦИЯ»

Введение в MCP | Протокол MCP - 01

Введение в MCP | Протокол MCP - 01

Veri Bilimine Giriş: Regresyon Modelleri | Selin Çıldam & Enes Fehmi Manan

Veri Bilimine Giriş: Regresyon Modelleri | Selin Çıldam & Enes Fehmi Manan

400 часов вайб-кодинга: всё, что нужно знать | Claude, GPT, агенты

400 часов вайб-кодинга: всё, что нужно знать | Claude, GPT, агенты

LLM'leri Daha Akıllı Yapan Teknikler: Chain of Thought, RAG, MoE ve Tool Calling

LLM'leri Daha Akıllı Yapan Teknikler: Chain of Thought, RAG, MoE ve Tool Calling

YouTube → NotebookLM за 20 минут: Claude Code делает всё сам

YouTube → NotebookLM за 20 минут: Claude Code делает всё сам

LLM'lerde Dikkat (Attention) Optimizasyonu: PagedAttention ve FlashAttention

LLM'lerde Dikkat (Attention) Optimizasyonu: PagedAttention ve FlashAttention

Лучший документальный фильм про создание ИИ

Лучший документальный фильм про создание ИИ

Запуск нейросетей локально. Генерируем - ВСЁ

Запуск нейросетей локально. Генерируем - ВСЁ

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Structured Output: маст-хев для систем с LLM под капотом

Structured Output: маст-хев для систем с LLM под капотом

Мир на грани: Ядерный фактор в войне России и Украины - Щелин и Панченко

Мир на грани: Ядерный фактор в войне России и Украины - Щелин и Панченко

Глава NVIDIA: Чат-боты - прошлое. Будущее за роботами и физическим ИИ

Глава NVIDIA: Чат-боты - прошлое. Будущее за роботами и физическим ИИ

NotebookLM: большой разбор инструмента (12 сценариев применения)

NotebookLM: большой разбор инструмента (12 сценариев применения)

DATA SCIENCE РОАДМАП 2026 — С НУЛЯ ДО MIDDLE

DATA SCIENCE РОАДМАП 2026 — С НУЛЯ ДО MIDDLE

Промты уже прошлое. 4 шага как обучиться работе с нейросетями за 7 дней

Промты уже прошлое. 4 шага как обучиться работе с нейросетями за 7 дней

Февраль 2026: как Claude обвалил рынок софта | skills для заработка

Февраль 2026: как Claude обвалил рынок софта | skills для заработка