SIGIR VF - RUBRIC: Evaluating Relevance for Information Retrieval and Generation (Laura Dietz)

Автор: SIGIR Virtual Forum

Загружено: 2025-04-25

Просмотров: 34

Описание: This work won the Best Paper Award at SIGIR 24, ICTIR 23, and obtained the "best in tau" performance in the LLM-judge challenge of the LLM4Eval workshop.

Title: RUBRIC: Evaluating Relevance for Information Retrieval and Generation

Abstract: RAG systems are notoriously difficult to evaluate, because their responses are slightly different every time. This makes research findings non-reproducible and datasets non-reusable. We believe that LLMs can help Auto-Grading what is relevant vs not, but we also believe it is important to incorporate human judges into this process. With RUBRIC ``Relevance Understanding by Breaking Responses Into Components'' we define what is relevant for a query via a set of question-style nuggets or relevance criteria. After this, an LLM can automatically scan all passages that are retrieved and/or generated for whether these answer the nugget questions or criteria. The evaluation score of a system is the higher, the more nuggets are covered in the system's response. Not only does this process obtain best performance on a range of datasets but it also offers a straight-forward path to integration of human judges into designing nuggets and overseeing the automatic grading process.

Bio: Laura Dietz is a Professor of Computer Science at the University of New Hampshire where she leads the TREMA lab on Text Retrieval, Extraction, Machine Learning, and Analytics. She was previously part of the DWS group at University of Mannheim, the CIIR lab at the University of Massachusetts, and the Max-Planck Institute for Informatics in Germany.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

SIGIR VF - RUBRIC: Evaluating Relevance for Information Retrieval and Generation (Laura Dietz)

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

State of the School Address | Brian Sullivan, Head of School | February 3, 2026

State of the School Address | Brian Sullivan, Head of School | February 3, 2026

Сбежала из Москвы и живёт в ГЛУХОЙ деревне на 30 тысяч в месяц

Сбежала из Москвы и живёт в ГЛУХОЙ деревне на 30 тысяч в месяц

ПОСЛЕ СМЕРТИ ВАС ВСТРЕТЯТ НЕ РОДСТВЕННИКИ, А.. ЖУТКОЕ ПРИЗНАНИЕ БЕХТЕРЕВОЙ. ПРАВДА КОТОРУЮ СКРЫВАЛИ

ПОСЛЕ СМЕРТИ ВАС ВСТРЕТЯТ НЕ РОДСТВЕННИКИ, А.. ЖУТКОЕ ПРИЗНАНИЕ БЕХТЕРЕВОЙ. ПРАВДА КОТОРУЮ СКРЫВАЛИ

Путин и лисий хвост. 2 млн потерь? Хуже может быть всегда. Трамп и Иран | Пастухов, Еловский

Путин и лисий хвост. 2 млн потерь? Хуже может быть всегда. Трамп и Иран | Пастухов, Еловский

Why Light Speed Is The LIMIT? What Feynman Uncovered Will COLLAPSE Your Mind

Why Light Speed Is The LIMIT? What Feynman Uncovered Will COLLAPSE Your Mind

Почему эти 5 растворителей должны быть у каждого

Почему эти 5 растворителей должны быть у каждого

КАК Япония Незаметно СТАЛА Мировой Станкостроительной ДЕРЖАВОЙ!

КАК Япония Незаметно СТАЛА Мировой Станкостроительной ДЕРЖАВОЙ!

Почему работает теория шести рукопожатий? [Veritasium]

Почему работает теория шести рукопожатий? [Veritasium]

Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток

Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток

Информация - это не то, что вы думаете. Физика против интуиции

Информация - это не то, что вы думаете. Физика против интуиции

География Уральских Пельменей - Зимбабве – Уральские Пельмени

География Уральских Пельменей - Зимбабве – Уральские Пельмени

Учебное пособие по ClickUp — Как использовать ClickUp для начинающих

Учебное пособие по ClickUp — Как использовать ClickUp для начинающих

ChatGPT in a kids robot does exactly what experts warned.

ChatGPT in a kids robot does exactly what experts warned.

США и Иран: что дальше? // “Бить по Ирану – себе дороже!” | ГЕВОРГЯН: про час Х и хаос по щелчку

США и Иран: что дальше? // “Бить по Ирану – себе дороже!” | ГЕВОРГЯН: про час Х и хаос по щелчку

Generative Retrieval as Multi-Vector Dense Retrieval - Shiguang Wu

Generative Retrieval as Multi-Vector Dense Retrieval - Shiguang Wu

Два последних мехкорпуса Сталина и ст.лейтенант Джугашвили /Второй Фронт. Часть 76

Два последних мехкорпуса Сталина и ст.лейтенант Джугашвили /Второй Фронт. Часть 76

Не наносить удары по энергетике Украины до 1 февраля — но есть нюансы! Украина в ответ — что?

Не наносить удары по энергетике Украины до 1 февраля — но есть нюансы! Украина в ответ — что?

Почему зарядка после 60 ускоряет потерю мышц? Парадокс сардинских долгожителей | ЗДОРОВЬЕ ДАРОМ

Почему зарядка после 60 ускоряет потерю мышц? Парадокс сардинских долгожителей | ЗДОРОВЬЕ ДАРОМ

Обвал цен на 90%, изменивший всё.

Обвал цен на 90%, изменивший всё.

Пропала в Гранд-Каньоне. Нашли через 5 лет в пещере: СЕДОЙ и НЕМОЙ!

Пропала в Гранд-Каньоне. Нашли через 5 лет в пещере: СЕДОЙ и НЕМОЙ!