Понимание рассуждений LLM (o1/o3, DeepSeek-R1, Gemini Thinking, Grok 3, Claude 3.7)

Автор: Donato Capitella

Загружено: 2025-03-15

Просмотров: 20952

Описание: Модели рассуждений LLM стали одной из самых обсуждаемых тем в GenAI. Модель o1 от OpenAI, запущенная в конце 2024 года, породила заявления о фундаментальном сдвиге в рассуждениях ИИ. Но вскоре последовали Gemini Thinking от Google, R1 от DeepSeek, Grok 3 от xAI, а теперь и Claude 3.7 от Anthropic.

Итак, o1 был настоящим прорывом или просто очередным шагом вперёд? В этом видео я разбираю модели рассуждений — что они собой представляют, как они обучаются и, что особенно важно, чем они принципиально не отличаются от универсальных LLM. Несмотря на улучшенную производительность при решении структурированных многошаговых задач, эти модели по-прежнему являются предикторами следующего токена, следуя тем же принципам, основанным на трансформаторах, что и другие LLM. Их преимущество заключается в специфических методах обучения, а не в прорыве в обработке информации.

Скачать холст/ментальную карту:
https://llm-chronicles.com/pdfs/llm-c...

⏱ Временные метки:
00:00 — Введение
02:42 — Что такое модели рассуждения?
03:56 - Четыре подхода к построению LLM-программ с «рассуждением»
04:31 - Масштабирование времени вывода
06:46 - Стандартный конвейер обучения LLM
08:26 - Чистое обучение с подкреплением (DeepSeek R1-Zero)
12:21 - Контролируемая тонкая настройка + обучение с подкреплением (DeepSeek R1)
17:20 - Краткое изложение подхода STF+RF (DeepSeek R1)
18:18 - Выжимка
21:55 - Ограничения и сложности LLM-программ с рассуждением

Сайт серии: https://llm-chronicles.com

Ссылки и источники:

Статья Себастьяна Рашки «Понимание рассуждений LLM»
https://sebastianraschka.com/blog/202...

DeepSeek R1 Обзор:
https://aipapersacademy.com/deepseek-r1/

Джереми Ховард о методе интерполяции LLM:
https://x.com/jeremyphoward/status/18...

Ограничения и сложности LLM:
• LLM Chronicles #5.6: Limitations & Challen...

Если это видео оказалось вам полезным, поставьте лайк, подпишитесь и оставьте комментарий. Это поможет продвинуть технические дискуссии об ИИ в сфере, где часто царит ажиотаж.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Понимание рассуждений LLM (o1/o3, DeepSeek-R1, Gemini Thinking, Grok 3, Claude 3.7)

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

LLM Chronicles #6.7: Проверка достоверности для конвейеров RAG (gpt4o-mini, Llama-index, RAGAS, A...

LLM Chronicles #6.7: Проверка достоверности для конвейеров RAG (gpt4o-mini, Llama-index, RAGAS, A...

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 6 - LLM Reasoning

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 6 - LLM Reasoning

Кластер Strix Halo с низкой задержкой, поддержкой RDMA (RoCE/Intel E810) и vLLM, настольные платы...

Кластер Strix Halo с низкой задержкой, поддержкой RDMA (RoCE/Intel E810) и vLLM, настольные платы...

Whether AI Will Take Your Jobs? | 📢 GLOBAL WEBINAR (FREE)

Whether AI Will Take Your Jobs? | 📢 GLOBAL WEBINAR (FREE)

How to Train LLMs to

How to Train LLMs to "Think" (o1 & DeepSeek-R1)

RFT, DPO, SFT: Fine-tuning with OpenAI — Ilan Bigio, OpenAI

RFT, DPO, SFT: Fine-tuning with OpenAI — Ilan Bigio, OpenAI

Тонкая настройка LLM на Strix Halo – Full, LoRA и QLoRA на Gemma-3, Qwen-3 и GPT-OSS-20B

Тонкая настройка LLM на Strix Halo – Full, LoRA и QLoRA на Gemma-3, Qwen-3 и GPT-OSS-20B

Объяснение mHC: как DeepSeek перестраивает программы магистратуры в области прикладных наук (LLM)...

Объяснение mHC: как DeepSeek перестраивает программы магистратуры в области прикладных наук (LLM)...

Глава AI Meta о крахе хайпа вокруг ChatGPT и тупике нейросетей

Глава AI Meta о крахе хайпа вокруг ChatGPT и тупике нейросетей

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

[GRPO Explained] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

[GRPO Explained] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Кто пишет код лучше всех? Сравнил GPT‑5.2, Opus 4.5, Sonnet 4.5, Gemini 3, Qwen 3 Max, Kimi, GLM

Кто пишет код лучше всех? Сравнил GPT‑5.2, Opus 4.5, Sonnet 4.5, Gemini 3, Qwen 3 Max, Kimi, GLM

Новая страна вступила в войну? / Первый удар нанесён

Новая страна вступила в войну? / Первый удар нанесён

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

ChatGPT vs Gemini vs Perplexity: Полный СРАВНИТЕЛЬНЫЙ АНАЛИЗ (Free vs Pro) | Как не платить за AI?

ChatGPT vs Gemini vs Perplexity: Полный СРАВНИТЕЛЬНЫЙ АНАЛИЗ (Free vs Pro) | Как не платить за AI?

Let's build GPT: from scratch, in code, spelled out.

Let's build GPT: from scratch, in code, spelled out.

Обзор теории DeepSeek R1 | GRPO + RL + SFT

Обзор теории DeepSeek R1 | GRPO + RL + SFT

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Предварительная подготовка LLM за 30 минут

Предварительная подготовка LLM за 30 минут

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?