From BLEU to G-Eval: LLM-as-a-Judge Techniques & Limitations

Автор: deepsense

Загружено: 2025-11-25

Просмотров: 129

Описание: LLM-as-a-Judge is changing how we evaluate AI models but it’s far from magic.

In this talk, Maciej Kaczkowski, ML Engineer, walks through how using an LLM to grade other LLMs actually works in practice – from early metrics like BLEU to modern frameworks such as G-Eval and LLM-as-a-Judge.

🧑‍⚖️ You’ll learn:

🔸 why classic NLP metrics (BLEU, ROUGE, WER) fail on many GenAI tasks,
🔸 how LLM-as-a-Judge can score model outputs with human-like criteria,
🔸 single-output vs pairwise evaluation – and when to use each,
🔸 where things break: narcissistic bias, verbosity bias, and misaligned criteria,
🔸 why you must evaluate the whole system (RAG pipeline, data, rerankers, context) – not just the final answer.

If you’re building evaluation pipelines or trying to move beyond “it feels better”, this session gives you a practical toolbox for LLM-based evaluation in 2025 – including its very real limitations.

00:00 Intro & agenda
00:56 Why evaluation matters in GenAI projects
03:40 Metrics & human eval: why they fall short
07:53 Who judges the judges? G-Eval framework & criteria design
12:52 Single-output & pairwise evaluation in practice
18:11 Pitfalls & biases in LLM-as-a-Judge
22:34 System thinking, RAG pipelines & final takeaways

Check our website: https://deepsense.ai/
Linkedin: / applied-ai-insider

#LLMasAJudge #LLMevaluation #GEval #AIevaluation #LLMbenchmarks #GenAI #MachineLearning #MLOps #deepsenseAI

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

From BLEU to G-Eval: LLM-as-a-Judge Techniques & Limitations

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

World Models Explained: JEPA, Energy-Based Learning and the Limits of LLMs

World Models Explained: JEPA, Energy-Based Learning and the Limits of LLMs

Transforming Enterprise Data for LLMs: From Unstructured to AI-Ready

Transforming Enterprise Data for LLMs: From Unstructured to AI-Ready

Нейросети захватили соцсети: как казахстанский стартап взорвал все AI-тренды и стал единорогом

Нейросети захватили соцсети: как казахстанский стартап взорвал все AI-тренды и стал единорогом

2025 год в AGI: таймлайн до AGI и обзор основных работ - Татьяна Шаврина - семинар AGI

2025 год в AGI: таймлайн до AGI и обзор основных работ - Татьяна Шаврина - семинар AGI

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Все стратегии RAG объясняются за 13 минут (без лишних слов)

Все стратегии RAG объясняются за 13 минут (без лишних слов)

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Новый курс обучения DeepSeek LLM - Гиперсоединения с ограничениями многообразия (mHC)

Новый курс обучения DeepSeek LLM - Гиперсоединения с ограничениями многообразия (mHC)

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Разработка с помощью Gemini 3, AI Studio, Antigravity и Nano Banana | Подкаст Agent Factory

Разработка с помощью Gemini 3, AI Studio, Antigravity и Nano Banana | Подкаст Agent Factory

Что происходит с нейросетью во время обучения?

Что происходит с нейросетью во время обучения?

Ночные пробуждения в 3–4 часа: как найти причину и вернуть глубокий сон.

Ночные пробуждения в 3–4 часа: как найти причину и вернуть глубокий сон.

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Если у тебя спросили «Как твои дела?» — НЕ ГОВОРИ! Ты теряешь свою силу | Еврейская мудрость

Если у тебя спросили «Как твои дела?» — НЕ ГОВОРИ! Ты теряешь свою силу | Еврейская мудрость

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

AI-ассистент помнит ВСЁ — Second Brain сделал меня суперчеловеком

AI-ассистент помнит ВСЁ — Second Brain сделал меня суперчеловеком

Этот «блинчатый» двигатель может сделать электромобили невероятно быстрыми (Mercedes его купил).

Этот «блинчатый» двигатель может сделать электромобили невероятно быстрыми (Mercedes его купил).

⚡️ Президент объявил о прекращении огня || Решение Путина, Трампа и Зеленского

⚡️ Президент объявил о прекращении огня || Решение Путина, Трампа и Зеленского