Building Reliable Agents with RL – Kyle Corbitt, CEO of OpenPipe

Автор: OpenPipe

Загружено: 2025-06-19

Просмотров: 3260

Описание: Why do AI agents still mess up the basics—and what can we do about it? In this talk, Kyle Corbitt breaks down how reinforcement learning (RL) can actually help us build agents that are way more reliable than just stacking prompts on prompts.

He shares real-world examples of where agents go wrong, how to train them to behave better over time, and what it takes to define rewards that actually guide the right behavior. From debugging brittle agents to fine-tuning open-source models in the wild, Kyle walks through the nitty-gritty of making AI agents that don't fall apart when things get a little weird.

Enterprise AI Agents Summit 2025 in Seattle. Hosted by OpenPipe + AWS on June 13, 2025.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Building Reliable Agents with RL – Kyle Corbitt, CEO of OpenPipe

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко...

Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко...

Training Agents with RL

Training Agents with RL

Why RL Won — Kyle Corbitt, OpenPipe (acq. CoreWeave)

Why RL Won — Kyle Corbitt, OpenPipe (acq. CoreWeave)

Will Brown: Abstractions for Agentic RL

Will Brown: Abstractions for Agentic RL

How FLORA is Reinventing Creative Design with AI

How FLORA is Reinventing Creative Design with AI

Глава Anthropic: как ИИ изменит бизнес за 18 месяцев

Глава Anthropic: как ИИ изменит бизнес за 18 месяцев

Panel: Lessons Learned from Building Enterprise AI Agents

Panel: Lessons Learned from Building Enterprise AI Agents

The Moltbook Situation

The Moltbook Situation

System Design Concepts Course and Interview Prep

System Design Concepts Course and Interview Prep

Optimizing Agents with RL gyms and Prompt Learning

Optimizing Agents with RL gyms and Prompt Learning

«Я выпускал код, который не понимаю, и уверен, что вы тоже» – Джейк Нейшнс, Netflix.

«Я выпускал код, который не понимаю, и уверен, что вы тоже» – Джейк Нейшнс, Netflix.

Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic

Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic

OpenPipe Co-Founder on Reinforcement Learning | David Corbitt

OpenPipe Co-Founder on Reinforcement Learning | David Corbitt

20 концепций искусственного интеллекта, объясненных за 40 минут

20 концепций искусственного интеллекта, объясненных за 40 минут

400 часов вайб-кодинга: всё, что нужно знать | Claude, GPT, агенты

400 часов вайб-кодинга: всё, что нужно знать | Claude, GPT, агенты

Три ингредиента для создания надежных корпоративных агентов — Харрисон Чейз, LangChain/LangGraph

Три ингредиента для создания надежных корпоративных агентов — Харрисон Чейз, LangChain/LangGraph

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Большинство разработчиков не понимают, как работают контекстные окна.

Большинство разработчиков не понимают, как работают контекстные окна.

От нуля до вашего первого ИИ-агента за 25 минут (без кодирования)

От нуля до вашего первого ИИ-агента за 25 минут (без кодирования)

Обучение веб-агентов LLM: статистический анализ того, что работает.

Обучение веб-агентов LLM: статистический анализ того, что работает.