Why Training an AI Model is More Like Parenting than Programming (Anthropic engineer reveals all)

Автор: Game Thinking TV

Загружено: 2025-10-16

Просмотров: 1092

Описание: What if I told you that training AI isn't about giving it the right answers—it's about giving it the right rewards? ⭐️⭐️⭐️⭐️⭐️

Recently, I sat down with Hansohl Kim, a reinforcement learning engineer at Anthropic who pulled back the curtain & showed us how AI models actually learn 🎓 to behave the way they do.

While most AI training uses supervised learning (basically: "here's the question, here's the correct answer"), reinforcement learning works more like raising a child. 👶 The model tries something, gets a reward or penalty, & gradually learns "good behavior" looks like—without ever being told the exact answer.

This is how Claude learned its personality.

In this conversation, Hansohl breaks down:

🔹 Why RL is essential for teaching AI systems values, not just facts
🔹 The challenge of getting models to stop doing harmful things
🔹 Whether AI models can actually "lie" or hide what they know
🔹 Why the future of AI isn't smarter models—it's agents that think, plan, & iterate over time

If you've ever wondered what really happens inside companies like Anthropic, or how engineers are trying to make sure AI stays aligned with human values ❤️ as it gets more powerful, this is the conversation for you.

CHAPTERS
00:00 Introduction
00:55 Journey into AI and Anthropic
03:17 From Inference to Reinforcement Learning
04:21 Understanding Reinforcement Learning
11:57 Setting Guardrails in AI
14:09 Anti-rewards are a very blunt approach
16:38 The first training environments were games
17:35 Behaviorism, Motivation & Why Models Can Lie
22:01 Beyond Reinforcement Learning
23:04 The Rise of AI Agents and Multi-Agent Systems
25:17 Conclusion and Final Thoughts

KEY INSIGHTS
🎯 Reinforcement learning focuses on feedback and alignment rather than right-or-wrong answers.
🎯 Designing high-quality environments is as crucial to RL as good data is to supervised learning.
🎯 AI models can display emergent behaviors — including self-correction, concealment, and strategic reasoning.

🔔 DON’T MISS OUT
Subscribe and hit the bell for more deep conversations on AI, innovation & the future of intelligent systems.

📌 RELATED LINKS
🌐 Anthropic – https://www.anthropic.com

💼 Hansohl Kim on LinkedIn –   / hansohlkim

#AI #reinforcementlearning #anthropic #artificialintelligence #machinelearning #gamethinking

------------------------------------------------------------------------------------

📚 ABOUT OUR CHANNEL📚
We deconstruct breakout AI tools to help you innovate smarter and find product/market fit. Hosted by Amy Jo Kim - Game Designer & Startup Coach - prev. Rock Band, The Sims, Covet Fashion Happify, Netflix.

Check out our channel here:
   / gamethinkingtv
🔔 Don’t forget to subscribe! 🔔

LEARN MORE ABOUT GAME THINKING
Check out our rapid innovation programs for product leaders.👍
https://www.gamethinking.io/programs

Join our free online community 📣 and get in on exclusive free events at
https://gamethinking.io/gschool

Read our Game Thinking book 📘 at
https://gamethinking.io/book/

FIND US AT 👇
https://gamethinking.io/

GET IN TOUCH 👍
[email protected]

FOLLOW US ON SOCIAL 📱
Get updates or reach out to Get updates on our Social Media Profiles!
https://x.com/amyjokim
  / amyjokim
  / amyjokim

Game Thinking TV

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Why Training an AI Model is More Like Parenting than Programming (Anthropic engineer reveals all)

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

20 концепций искусственного интеллекта, объясненных за 40 минут

20 концепций искусственного интеллекта, объясненных за 40 минут

Вы (пока) не отстаёте: как освоить ИИ за 17 минут

Вы (пока) не отстаёте: как освоить ИИ за 17 минут

Персонализация ИИ для бизнеса: превращение универсальных инструментов в индивидуальные решения.

Персонализация ИИ для бизнеса: превращение универсальных инструментов в индивидуальные решения.

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Лучший документальный фильм про создание ИИ

Лучший документальный фильм про создание ИИ

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

9 AI-навыков, которые должен освоить каждый в 2026 году

9 AI-навыков, которые должен освоить каждый в 2026 году

Главные изменения в AI: здоровье, роботы и новые устройства

Главные изменения в AI: здоровье, роботы и новые устройства

Non-Tech to Senior ML Scientist at Amazon: My Machine Learning Journey

Non-Tech to Senior ML Scientist at Amazon: My Machine Learning Journey

Anthropic Head of Pretraining on Scaling Laws, Compute, and the Future of AI

Anthropic Head of Pretraining on Scaling Laws, Compute, and the Future of AI

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Тренды в ИИ 2026. К чему готовиться каждому.

Тренды в ИИ 2026. К чему готовиться каждому.

Anthropic Co-founder: Building Claude Code, Lessons From GPT-3 & LLM System Design

Anthropic Co-founder: Building Claude Code, Lessons From GPT-3 & LLM System Design

Заработок на ИИ, дети и нейросети, AGI и будущее / отвечаю на ваши вопросы про ИИ

Заработок на ИИ, дети и нейросети, AGI и будущее / отвечаю на ваши вопросы про ИИ

Вы ОТСТОЙ в подсказках ИИ (Вот в чем секрет)

Вы ОТСТОЙ в подсказках ИИ (Вот в чем секрет)

Richard Sutton – Father of RL thinks LLMs are a dead end

Richard Sutton – Father of RL thinks LLMs are a dead end

Разработчик программного обеспечения, ориентированного на искусственный интеллект | Адди Османи

Разработчик программного обеспечения, ориентированного на искусственный интеллект | Адди Османи

ИИ в 2026: Как создать AI-бизнес в одиночку (без кода)

ИИ в 2026: Как создать AI-бизнес в одиночку (без кода)

Claude 4.5 просто изменил всё для педагогов

Claude 4.5 просто изменил всё для педагогов

Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic

Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic