How We Evaluate Large Language Models | Patrycja Cieplicka | LLMday Warsaw 2026 Q1

Автор: LLMday

Загружено: 2026-03-03

Просмотров: 10

Описание: LLMday Warsaw 2026 Q1 - February 12
Grab your ticket for the next LLMday: https://www.llmday.com
Upcoming LLMday CFPs: https://cfp.ninja/?q=llmday&status=op...

Chapters
00:00 Welcome & Speaker Intro: Evaluating Large Language Models
00:11 Two Blocks Overview: What We Build for Clients
00:36 LLM Work in E‑commerce: Adaptation, Evaluation & Optimization
01:29 Four Ways to Measure LLM Performance (Metrics Landscape)
02:24 Pros/Cons of Each Evaluation Method
03:34 Using Open-Source Benchmarks the Right Way
04:34 Benchmark Pitfalls: Overfitting, Setup Differences & Comparability
06:25 Don’t Trust Tiny Gains: Statistical Significance Checks
07:18 Building Your Own Eval: Core Principles for Real-World Apps
09:26 Evaluation-Driven Development: Iterate Evals and Models Together
10:18 Tuning the Evaluator: Human-Labeled Test Sets & Validator Drift
13:43 LLM-as-a-Judge Methods: Scoring vs Pairwise Comparisons
14:34 Prompting Best Practices for LLM Judges (and Avoiding Bias)
19:15 Wrap-Up: Keep Evals Robust, Practical, and Business-Focused
20:06 Q&A: User Feedback in Eval Frameworks + E‑commerce Use Cases
22:25 Final Thanks & Closing

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

How We Evaluate Large Language Models | Patrycja Cieplicka | LLMday Warsaw 2026 Q1

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Agentic AI at Scale: Enterprise-Level Lessons | Agnieszka Niezgoda | LLMday Warsaw 2026 Q1

Agentic AI at Scale: Enterprise-Level Lessons | Agnieszka Niezgoda | LLMday Warsaw 2026 Q1

Борис Трушин: Красивые математические задачи с айтишных собеседований

Борис Трушин: Красивые математические задачи с айтишных собеседований

Agents Need to be Paged, Not Prompted if we Truly Want AIOps | Randy Bias | LLMday Warsaw 2026 Q1

Agents Need to be Paged, Not Prompted if we Truly Want AIOps | Randy Bias | LLMday Warsaw 2026 Q1

Как живет Германия — страна, которая началась заново

Как живет Германия — страна, которая началась заново

ИИ-агент для ресерча YouTube: Anti-Gravity + NotebookLM

ИИ-агент для ресерча YouTube: Anti-Gravity + NotebookLM

Ричард Фейнман: скорость света — это не просто скорость (и это меняет всё)

Ричард Фейнман: скорость света — это не просто скорость (и это меняет всё)

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Почему AI генерит мусор — и как заставить его писать нормальный код

Почему AI генерит мусор — и как заставить его писать нормальный код

10 Learnings from Launching an Agentic AI Product at Scale | Michael Matloka | LLMday Warsaw 2026 Q1

10 Learnings from Launching an Agentic AI Product at Scale | Michael Matloka | LLMday Warsaw 2026 Q1

Claude Code за 1 час: от установки до реального проекта (2026)

Claude Code за 1 час: от установки до реального проекта (2026)

Электричество НЕ течёт по проводам — тревожное открытие Ричарда Фейнмана

Электричество НЕ течёт по проводам — тревожное открытие Ричарда Фейнмана

Growing AI Projects: Science + Engineering | Maciej Rzasa & Aji Ghose | LLMday Warsaw 2026 Q1

Growing AI Projects: Science + Engineering | Maciej Rzasa & Aji Ghose | LLMday Warsaw 2026 Q1

No Cloud, No Problem: AI on Your Own Terms | Adrian Boguszewski | LLMday Warsaw 2026 Q1

No Cloud, No Problem: AI on Your Own Terms | Adrian Boguszewski | LLMday Warsaw 2026 Q1

Двигатель Стирлинга: обогнать паровой век и покорить космос

Двигатель Стирлинга: обогнать паровой век и покорить космос

9 AI-навыков, которые должен освоить каждый в 2026 году

9 AI-навыков, которые должен освоить каждый в 2026 году

Is Your GenAI System Ready for Production Reality? | Maish Saidel-Keesing | LLMday Warsaw 2026 Q1

Is Your GenAI System Ready for Production Reality? | Maish Saidel-Keesing | LLMday Warsaw 2026 Q1

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Google Stitch: дизайнеры больше не нужны? Смотрим как нейросеть генерит дизайн сайтов и приложений

Google Stitch: дизайнеры больше не нужны? Смотрим как нейросеть генерит дизайн сайтов и приложений

Beware of finetuning: weird generalizations in LLMs | Anna Sztyber-Betley | LLMday Warsaw 2026 Q1

Beware of finetuning: weird generalizations in LLMs | Anna Sztyber-Betley | LLMday Warsaw 2026 Q1

18 КРУТЫХ способов для ChatGPT (что кажется нелегально)

18 КРУТЫХ способов для ChatGPT (что кажется нелегально)