DeepSeek R1 Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (paper explained)

Автор: AI Bites

Загружено: 2025-01-28

Просмотров: 4467

Описание: DeepSeek R1 Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (paper explained)

DeepSeek R1 is the latest model from DeepSeek. It is the first work to show that directly training with Reinforcement Learning is sufficient. We don't need the Supervised Fine-Tuning(SFT) step typically followed while training LLMs.

In this video, we read the paper and understand the model architecture, training approach, and the results.

RELATED LINKS
DeepSeep R1 release - https://api-docs.deepseek.com/news/ne...
Try DeepSeek - https://chat.deepseek.com
DeepSeek API docs - https://api-docs.deepseek.com
ArXiv paper - https://arxiv.org/pdf/2501.12948
DeepSeekMath - https://arxiv.org/pdf/2402.03300

⌚️ ⌚️ ⌚️ TIMESTAMPS ⌚️ ⌚️ ⌚️
0:00 - Intro
2:38 - Training LLMs
5:05 - DeepSeek R1 Zero Training
5:54 - Group Relative Policy Optimization
8:45 - Reward Modelling
10:21 - Training Performance
11:33 - Self-evolution
13:3 - DeepSeek R1
17:20 - Results

AI BITES KEY LINKS
Website: https://www.ai-bites.net
YouTube:    / @aibites
Twitter:   / ai_bites
Patreon:   / ai_bites
Github: https://github.com/ai-bites

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

DeepSeek R1 Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (paper explained)

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

DeepSeek Janus Pro 7b - Unified Vision and generation in one model (paper explained)

DeepSeek Janus Pro 7b - Unified Vision and generation in one model (paper explained)

Инженерные секреты DeepSeek | YC Decoded

Инженерные секреты DeepSeek | YC Decoded

How to Train LLMs to

How to Train LLMs to "Think" (o1 & DeepSeek-R1)

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

DeepSeek's GRPO (Group Relative Policy Optimization) | Reinforcement Learning for LLMs

DeepSeek's GRPO (Group Relative Policy Optimization) | Reinforcement Learning for LLMs

Навыки агента — полное руководство с практическими примерами.

Навыки агента — полное руководство с практическими примерами.

How DeepSeek Rewrote the Transformer [MLA]

How DeepSeek Rewrote the Transformer [MLA]

Reinforcement Learning from Human Feedback (RLHF) Explained

Reinforcement Learning from Human Feedback (RLHF) Explained

Обзор теории DeepSeek R1 | GRPO + RL + SFT

Обзор теории DeepSeek R1 | GRPO + RL + SFT

Голуби мира России

Голуби мира России

Почему программистов теперь заставят вычитывать код от ИИ

Почему программистов теперь заставят вычитывать код от ИИ

How does DeepSeek learn? GRPO explained with Triangle Creatures

How does DeepSeek learn? GRPO explained with Triangle Creatures

Мультивселенная существует. И это проблема

Мультивселенная существует. И это проблема

Paper: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Удобный сервис слежки за каждым: без суда и разрешений

Удобный сервис слежки за каждым: без суда и разрешений

Почему AI генерит мусор — и как заставить его писать нормальный код

Почему AI генерит мусор — и как заставить его писать нормальный код

Запустите Deepseek R1 дома на оборудовании стоимостью от 250 до 25 000 долларов: от установки до ...

Запустите Deepseek R1 дома на оборудовании стоимостью от 250 до 25 000 долларов: от установки до ...

The Unreasonable Effectiveness of Reasoning Distillation: using DeepSeek R1 to beat OpenAI o1

The Unreasonable Effectiveness of Reasoning Distillation: using DeepSeek R1 to beat OpenAI o1

Обучение с подкреплением в DeepSeek-R1 | Наглядное объяснение

Обучение с подкреплением в DeepSeek-R1 | Наглядное объяснение