Early stages of the reinforcement learning era of language models

Автор: Nathan Lambert

Загружено: 2025-03-10

Просмотров: 5284

Описание: Hey friends! This is a recent talk I gave at the UC Santa Cruz Silicon Valley Extension to their Natural Language Processing (NLP) masters students, doctoral students, alumni, and friends.

In this talk I cover the recent trend of reinforcement finetuning of language models, how it came about, technically how it is done, early experiments using it at Ai2 and recent mainstream releases utilizing it (DeepSeek R1, Claude 3.7, Grok 3, etc.). I conclude with a future of extensive RL training rather than just finetuning.

You can find the slides here: https://docs.google.com/presentation/...
Or, the full recording with talks from Alessio of Latent Space and Dylan of SemiAnalysis here: • Frontiers of AI: Language, Inference, and ...

Very related to a recent talk I gave on my primary Interconnects channel: • An Unexpected Reinforcement Learning Renai...

Thanks Sam & Jeff for hosting me! The next talk I post will include some more hot off the press RL research than this one :D

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Early stages of the reinforcement learning era of language models

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Experimenting with Reinforcement Learning with Verifiable Rewards (RLVR)

Experimenting with Reinforcement Learning with Verifiable Rewards (RLVR)

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Recapping Open Models in 2025

Recapping Open Models in 2025

Обучение с подкреплением и обратной связью с человеком (RLHF) — как обучать и настраивать модели ...

Обучение с подкреплением и обратной связью с человеком (RLHF) — как обучать и настраивать модели ...

How language model post-training is done today

How language model post-training is done today

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Как подходить к постобучению в приложениях искусственного интеллекта

Как подходить к постобучению в приложениях искусственного интеллекта

What If You Keep Slowing Down?

What If You Keep Slowing Down?

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Может ли у ИИ появиться сознание? — Семихатов, Анохин

Может ли у ИИ появиться сознание? — Семихатов, Анохин

The art of training a good (reasoning) language model

The art of training a good (reasoning) language model

The Big LLM Architecture Comparison

The Big LLM Architecture Comparison

Как происходит модернизация остаточных соединений [mHC]

Как происходит модернизация остаточных соединений [mHC]

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Everything You Wanted to Know About LLM Post-Training, with Nathan Lambert of Allen Institute for AI

Everything You Wanted to Know About LLM Post-Training, with Nathan Lambert of Allen Institute for AI

IREX 2025: Будущее уже здесь | Новейшие Технологии на Выставке в Японии

IREX 2025: Будущее уже здесь | Новейшие Технологии на Выставке в Японии

Gamification of Large Language Models | Michal Valko

Gamification of Large Language Models | Michal Valko

Andrej Karpathy: Software Is Changing (Again)

Andrej Karpathy: Software Is Changing (Again)