ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Why AI evals are the hottest new skill for product builders | Hamel Husain & Shreya Shankar

Автор: Lenny's Podcast

Загружено: 2025-09-25

Просмотров: 73183

Описание: Hamel Husain and Shreya Shankar teach the world’s most popular course on AI evals and have trained over 2,000 PMs and engineers (including many teams at OpenAI and Anthropic). In this conversation, they demystify the process of developing effective evals, walk through real examples, and share practical techniques that’ll help you improve your AI product.

What you’ll learn:
1. WTF evals are
2. Why they’ve become the most important new skill for AI product builders
3. A step-by-step walkthrough of how to create an effective eval
4. A deep dive into error analysis, open coding, and axial coding
5. Code-based evals vs. LLM-as-judge
6. The most common pitfalls and how to avoid them
7. Practical tips for implementing evals with minimal time investment (30 minutes per week after initial setup)
8. Insight into the debate between “vibes” and systematic evals

Brought to you by:
Fin—The #1 AI agent for customer service: https://fin.ai/lenny
Dscout—The UX platform to capture insights at every stage: from ideation to production: https://www.dscout.com/
Mercury—The art of simplified finances: https://mercury.com/

Transcript: https://www.lennysnewsletter.com/p/wh...

My biggest takeaways (for paid newsletter subscribers): https://www.lennysnewsletter.com/i/17...

Where to find Shreya Shankar
• X: https://x.com/sh_reya
• LinkedIn:   / shrshnk  
• Website: https://www.sh-reya.com/
• Maven course: https://bit.ly/4myp27m

Where to find Hamel Husain
• X: https://x.com/HamelHusain
• LinkedIn:   / hamelhusain  
• Website: https://hamel.dev/
• Maven course: https://bit.ly/4myp27m

Where to find Lenny:
• Newsletter: https://www.lennysnewsletter.com
• X:   / lennysan  
• LinkedIn:   / lennyrachitsky  

In this episode, we cover:
(00:00) Introduction to Hamel and Shreya
(04:57) What are evals?
(09:56) Demo: Examining real traces from a property management AI assistant
(16:51) Writing notes on errors
(23:54) Why LLMs can’t replace humans in the initial error analysis
(25:16) The concept of a “benevolent dictator” in the eval process
(28:07) Theoretical saturation: when to stop
(31:39) Using axial codes to help categorize and synthesize error notes
(44:39) The results
(46:06) Building an LLM-as-judge to evaluate specific failure modes
(48:31) The difference between code-based evals and LLM-as-judge
(52:10) Example: LLM-as-judge
(54:45) Testing your LLM judge against human judgment
(01:00:51) Why evals are the new PRDs for AI products
(01:05:09) How many evals you actually need
(01:07:41) What comes after evals
(01:09:57) The great evals debate
(1:15:15) Why dogfooding isn’t enough for most AI products
(01:18:23) OpenAI’s Statsig acquisition
(1:23:02) The Claude Code controversy and the importance of context
(01:24:13) Common misconceptions around evals
(1:22:28) Tips and tricks for implementing evals effectively
(1:30:37) The time investment
(1:33:38) Overview of their comprehensive evals course
(1:37:57) Lightning round and final thoughts

LLM Log Open Codes Analysis Prompt:
Please analyze the following CSV file. There is a metadata field which has an nested field called z_note that contains open codes for analysis of LLM logs that we are conducting. Please extract all of the different open codes. From the _note field, propose 5-6 categories that we can create axial codes from.

Referenced:
• Building eval systems that improve your AI product: https://www.lennysnewsletter.com/p/bu...
• Mercor: https://mercor.com/
• Brendan Foody on LinkedIn:   / brendan-foody-2995ab10b  
• Nurture Boss: https://nurtureboss.io/
• Braintrust: https://www.braintrust.dev/
• Andrew Ng on X: https://x.com/andrewyng
• Carrying Out Error Analysis:    • Carrying Out Error Analysis (C3W2L01)  
• Julius AI: https://julius.ai/
• Brendan Foody on X—“evals are the new PRDs”: https://x.com/BrendanFoody/status/193...
...References continued at: https://www.lennysnewsletter.com/p/wh...

Recommended books:
• Pachinko: https://www.amazon.com/Pachinko-Natio...
• Apple in China: The Capture of the World’s Greatest Company: https://www.amazon.com/Apple-China-Ca...
• Machine Learning: https://www.amazon.com/Machine-Learni...
• Artificial Intelligence: A Modern Approach: https://www.amazon.com/Artificial-Int...

Production and marketing by https://penname.co/.
For inquiries about sponsoring the podcast, email [email protected].

Lenny may be an investor in the companies discussed.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Why AI evals are the hottest new skill for product builders | Hamel Husain & Shreya Shankar

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

НОВЫЙ агент Copilot Workflows автоматизирует вашу работу (полное руководство)

НОВЫЙ агент Copilot Workflows автоматизирует вашу работу (полное руководство)

Anthropic C.E.O.: Massive A.I. Spending Could Haunt Some Companies

Anthropic C.E.O.: Massive A.I. Spending Could Haunt Some Companies

The new AI growth playbook for 2026 | How Lovable hit $200M ARR in one year

The new AI growth playbook for 2026 | How Lovable hit $200M ARR in one year

The AI-native startup: 5 products, 7-figure revenue, 100% AI-written code. | Dan Shipper (Every)

The AI-native startup: 5 products, 7-figure revenue, 100% AI-written code. | Dan Shipper (Every)

Обязательный навык для менеджеров проектов в области ИИ: оценка ИИ (и как ее настроить)

Обязательный навык для менеджеров проектов в области ИИ: оценка ИИ (и как ее настроить)

Оценки ИИ: наглядное объяснение за 50 минут (реальный пример) | Хамель Хусейн

Оценки ИИ: наглядное объяснение за 50 минут (реальный пример) | Хамель Хусейн

NotebookLM тихо обновился. Как делать Инфографику, Презентации, Видеопересказ.

NotebookLM тихо обновился. Как делать Инфографику, Презентации, Видеопересказ.

Inside OpenAI: 2026 is the year of agents, AI’s biggest bottleneck, and why compute isn’t the issue

Inside OpenAI: 2026 is the year of agents, AI’s biggest bottleneck, and why compute isn’t the issue

From managing people to managing AI: The leadership skills everyone needs now | Julie Zhuo

From managing people to managing AI: The leadership skills everyone needs now | Julie Zhuo

Твой N8N Никогда Не Будет Прежним с Gemini CLI

Твой N8N Никогда Не Будет Прежним с Gemini CLI

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

Современные подсказки для агентов ИИ

Современные подсказки для агентов ИИ

Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic

Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic

Richard Sutton – Father of RL thinks LLMs are a dead end

Richard Sutton – Father of RL thinks LLMs are a dead end

Почему спагетти-код лучше чистой архитектуры

Почему спагетти-код лучше чистой архитектуры

AI prompt engineering in 2025: What works and what doesn’t | Sander Schulhoff

AI prompt engineering in 2025: What works and what doesn’t | Sander Schulhoff

Почему Азовское море — самое опасное в мире

Почему Азовское море — самое опасное в мире

5 потрясающих примеров использования навыков Клода

5 потрясающих примеров использования навыков Клода

The Godmother of AI on jobs, robots & why world models are next | Dr. Fei-Fei Li

The Godmother of AI on jobs, robots & why world models are next | Dr. Fei-Fei Li

Я создал 3 SaaS-приложения с ежемесячным доходом в 200 тыс. долларов: вот мой точный план действий

Я создал 3 SaaS-приложения с ежемесячным доходом в 200 тыс. долларов: вот мой точный план действий

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]