ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Braintrust and Box on AI agents and the future of AI observability

Автор: Box

Загружено: 2026-03-04

Просмотров: 5174

Описание: BrainTrust reveals the game-changing method to make AI agents perform under pressure.

Ben Kus, CTO at Box, sits down with Ankur Goyal, CEO of BrainTrust, to discuss the importance of AI agent evaluation and observability. They zoom in on how AI evals are used to test and ensure the accuracy of AI agents, especially in complex environments where non-determinism can complicate results.

Ankur shares his journey from developing AI solutions in document processing to building BrainTrust, a tool designed to address these challenges. The discussion also touches on the evolving role of product managers in guiding AI development through better evaluation practices, and how AI agents are becoming a critical part of enterprise systems.

Key Moments:
The evolution of AI evals: Transitioning from traditional benchmarks to AI-specific evaluations.
Non-determinism in AI: Why AI outputs can vary and how to measure accuracy in dynamic environments.
AI observability: A deep dive into how AI agents' behavior in production can be monitored and improved.
The role of product managers: Shifting from requirements documents to defining successful AI agent behavior.
Embracing failure: Why failing evals can be an opportunity to refine AI tools and models.
Testing AI agents in production: Practical strategies for evaluating agent performance in real-world enterprise environments.

Jump into the conversation:
(00:00) Introduction to evaluating AI agents and why LLMs help in evaluation
(00:39) Ankur Goyal shares his journey from AI document processing to BrainTrust
(02:31) Building BrainTrust to address common AI problems across companies
(03:01) Defining evals and how they work in AI, similar to traditional software benchmarking
(03:59) The challenge of accuracy in AI versus traditional software systems
(04:22) AI's non-determinism and how it affects the output's correctness
(05:11) The evolution of AI observability and how it differs from traditional methods
(06:43) Unexpected behavior in AI and its relationship to model drift
(07:03) Non-determinism and complexity in AI agents' decision-making
(07:57) The significance of AI evals as the new PRDs in product management
(09:10) Transitioning from simple automation to evaluating more complex AI behaviors
(10:32) Evaluating AI agents’ results similar to how people are tested
(12:03) AI output evaluation through comparisons, like the Magna Carta example
(13:12) Non-determinism's impact on enterprise AI use cases and the importance of careful validation
(15:12) Advice on handling non-determinism when working with financial data in AI
(17:40) Using multiple paths for validation and the importance of cross-checking results
(20:34) Distinguishing marketing evals from internal evals in AI product development
(22:12) The critical role of context in evaluating AI output accuracy
(24:05) Moving beyond golden datasets to more dynamic evaluation methods
(26:03) Internal evals as the cornerstone of reliable AI product development
(27:16) The challenge of defining "perfect" datasets and managing unpredictable outputs
(29:40) Applying eval principles to enterprise platforms and external AI tools
(32:16) Promoting transparency in AI evaluation with vendors and within teams
(34:45) Final advice for enterprises to avoid failure when deploying agentic capabilities

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Braintrust and Box on AI agents and the future of AI observability

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

How Teknita and the City of San Jose Are Powering an AI-Ready Government with Box

How Teknita and the City of San Jose Are Powering an AI-Ready Government with Box

Dlaczego strzelcy B-17 bali się wieży kulistej bardziej niż śmierci

Dlaczego strzelcy B-17 bali się wieży kulistej bardziej niż śmierci

Transforming federal investigations with responsible AI and secure content collaboration

Transforming federal investigations with responsible AI and secure content collaboration

Что происходит с малым бизнесом в регионах? Дефицит бюджета. Зарплаты бюджетников урежут? Зубаревич

Что происходит с малым бизнесом в регионах? Дефицит бюджета. Зарплаты бюджетников урежут? Зубаревич

066. Как AI меняет роль архитектора

066. Как AI меняет роль архитектора

Кто такой Сергей Брин? Гений, который сбежал от системы и подчинил себе весь интернет.

Кто такой Сергей Брин? Гений, который сбежал от системы и подчинил себе весь интернет.

Demystifying AI: Future-Proofing Government with AI-Driven Automation

Demystifying AI: Future-Proofing Government with AI-Driven Automation

Czarnek vs. Tusk: brutalna gra o głosy zakutych łbów | Salonik Polityczny Rafała Ziemkiewicza

Czarnek vs. Tusk: brutalna gra o głosy zakutych łbów | Salonik Polityczny Rafała Ziemkiewicza

Web Development Roadmap 2026 (No BS Guide!)

Web Development Roadmap 2026 (No BS Guide!)

Арестович: Украина против всех. Война в Иране, нейтрализация Китая.#украина #сша #россия #путин

Арестович: Украина против всех. Война в Иране, нейтрализация Китая.#украина #сша #россия #путин

⚡️ Срочный ответ Путина Трампу || Россия вступила войну ?

⚡️ Срочный ответ Путина Трампу || Россия вступила войну ?

Ziemkiewicz MIAŻDŻY Unię!

Ziemkiewicz MIAŻDŻY Unię! "To banda niekompetentnych idiotów". Tusk ulega Niemcom? | Gość Dzisiaj

Future-Proofing Federal IT: A Conversation with a Recent Federal CIO

Future-Proofing Federal IT: A Conversation with a Recent Federal CIO

Альфред Кох – Путин 1990-х, бандиты, НТВ, Навальный / вДудь

Альфред Кох – Путин 1990-х, бандиты, НТВ, Навальный / вДудь

NA ŻYWO: Trzeci lotniskowiec USA rusza na Bliski Wschód

NA ŻYWO: Trzeci lotniskowiec USA rusza na Bliski Wschód

Earning the right to automate with Box and RWS Global | Box AI-First Podcast EP 16

Earning the right to automate with Box and RWS Global | Box AI-First Podcast EP 16

[LIVE] Bez litości. Czarnek upokorzył Kaczyńskiego. Jan Piński i Tomasz Szwejgiert

[LIVE] Bez litości. Czarnek upokorzył Kaczyńskiego. Jan Piński i Tomasz Szwejgiert

Бомбы и институты: кто кого переживет

Бомбы и институты: кто кого переживет

Сергей Алексашенко* и Лиза Аникина. Цена вопроса / 04.03.26 @SergeyAleksashenkoSr​

Сергей Алексашенко* и Лиза Аникина. Цена вопроса / 04.03.26 @SergeyAleksashenkoSr​

Почему ситуация вокруг Ирана меняет мировой баланс сил | Ростислав Ищенко

Почему ситуация вокруг Ирана меняет мировой баланс сил | Ростислав Ищенко

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]