The Unreasonable Effectiveness of Reasoning Distillation: using DeepSeek R1 to beat OpenAI o1

Автор: Latent Space

Загружено: 2025-01-24

Просмотров: 15755

Описание: https://www.bespokelabs.ai/blog/bespo...

We trained Bespoke-Stratos-32B, our reasoning model distilled from DeepSeek-R1 using Berkeley NovaSky’s Sky-T1 data pipeline. The model outperforms Sky-T1 and o1-preview in reasoning (Math and Code) benchmarks and almost reaches the performance of DeepSeek-R1-Distill-Qwen-32B while being trained on 47x fewer examples:

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

The Unreasonable Effectiveness of Reasoning Distillation: using DeepSeek R1 to beat OpenAI o1

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Beating OpenAI and Anthropic by Looking At Data: the new #1 on SWE-Bench w/ W&B CTO Shawn Lewis

Beating OpenAI and Anthropic by Looking At Data: the new #1 on SWE-Bench w/ W&B CTO Shawn Lewis

⚡️ Reverse Engineering OpenAI's Training Data — Pratyush Maini, Datology

⚡️ Reverse Engineering OpenAI's Training Data — Pratyush Maini, Datology

How DeepSeek Rewrote the Transformer [MLA]

How DeepSeek Rewrote the Transformer [MLA]

How AI Really Works: Algorithms, Big Data, Neural Networks & Ethics Explained

How AI Really Works: Algorithms, Big Data, Neural Networks & Ethics Explained

Запустите Deepseek R1 дома на оборудовании стоимостью от 250 до 25 000 долларов: от установки до ...

Запустите Deepseek R1 дома на оборудовании стоимостью от 250 до 25 000 долларов: от установки до ...

The State of Reasoning — from Nathan Lambert, Interconnects/AI2 [LS Live @ NeurIPS 2024]

The State of Reasoning — from Nathan Lambert, Interconnects/AI2 [LS Live @ NeurIPS 2024]

Как Создавать ИИ-Агентов: Полное Руководство для Начинающих

Как Создавать ИИ-Агентов: Полное Руководство для Начинающих

Двигатель Стирлинга: обогнать паровой век и покорить космос

Двигатель Стирлинга: обогнать паровой век и покорить космос

A Slightly Technical Breakdown of DeepSeek-R1

A Slightly Technical Breakdown of DeepSeek-R1

Физики никогда это не решат! Задача трёх тел. Есть ли решение?

Физики никогда это не решат! Задача трёх тел. Есть ли решение?

Почему AI генерит мусор — и как заставить его писать нормальный код

Почему AI генерит мусор — и как заставить его писать нормальный код

THIS is why large language models can understand the world

THIS is why large language models can understand the world

The AI Frontier: from Gemini 3 Deep Think distilling to Flash — Jeff Dean

The AI Frontier: from Gemini 3 Deep Think distilling to Flash — Jeff Dean

OpenAI o1 isn’t a chat model (and that’s the point)

OpenAI o1 isn’t a chat model (and that’s the point)

Deepseek R1 671b Running LOCAL AI LLM is a ChatGPT Killer!

Deepseek R1 671b Running LOCAL AI LLM is a ChatGPT Killer!

Дэйв Пламмер объясняет Deepseek R1

Дэйв Пламмер объясняет Deepseek R1

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Обзор теории DeepSeek R1 | GRPO + RL + SFT

Обзор теории DeepSeek R1 | GRPO + RL + SFT

MAMBA from Scratch: Neural Nets Better and Faster than Transformers

MAMBA from Scratch: Neural Nets Better and Faster than Transformers