LLM Chronicles #6.6: Hallucination Detection and Evaluation for RAG systems (RAGAS, Lynx)

Автор: Donato Capitella

Загружено: 2024-11-05

Просмотров: 25201

Описание: This episode covers LLM hallucinations — why they happen, how to detect them, and ways to reduce them in RAG pipelines. We'll discuss key tools like RAGAS metrics for measuring faithfulness, context relevance, and answer relevance, along with techniques like using LLMs as judges and embedding models to catch hallucinations. Plus, we'll discuss the Lynx model, a fine-tuned version of Llama-3 built to identify and limit hallucinations, making responses more accurate.

Canvas Download: https://llm-chronicles.com/pdfs/llm-c...

🕤 Timestamps:
00:07 - Overview of Contents
00:46 - Hallucinations Root Cause
01:55 - RAG Pipelines
03:16 - Faithfulness / Groundedness
03:54 - RAGAS Metrics
05:33 - Tools (Embeddings, LLM-as-Judge)
06:45 - Evaluating Faithfulness with Embeddings
06:45 - Evaluating Faithfulness with LLM-as-Judge (Lynx)
07:55 - Evaluating Faithfulness with RAGAS
08:33 - Evaluating Answer Relevance
09:16 - Evaluating Context Relevance
10:34 - How to use these metrics?
11:55 - Summary

References:

WIRED: Air Canada Has to Honor a Refund Policy Its Chatbot Made Up
https://www.wired.com/story/air-canad...

RAGAS: Automated Evaluation of Retrieval Augmented Generation
https://arxiv.org/abs/2309.15217

Lynx: An Open Source Hallucination Evaluation Model
https://arxiv.org/abs/2407.08488

Alex Razvant: How to evaluate your RAG using RAGAs Framework
/ how-to-evaluate-your-rag-using-ragas-frame...

Leonie Monigatti: Evaluating RAG Applications with RAGAs
https://towardsdatascience.com/evalua...

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

LLM Chronicles #6.6: Hallucination Detection and Evaluation for RAG systems (RAGAS, Lynx)

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

LLM Chronicles #6.3a: OpenAI CLIP for Zero-Shot Image Classification and Similarity

LLM Chronicles #6.3a: OpenAI CLIP for Zero-Shot Image Classification and Similarity

Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM.

Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM.

Новый курс обучения DeepSeek LLM - Гиперсоединения с ограничениями многообразия (mHC)

Новый курс обучения DeepSeek LLM - Гиперсоединения с ограничениями многообразия (mHC)

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Mitigating LLM Hallucinations with a Metrics-First Evaluation Framework

Mitigating LLM Hallucinations with a Metrics-First Evaluation Framework

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Graph RAG: Улучшение RAG с помощью графов знаний

Graph RAG: Улучшение RAG с помощью графов знаний

Все стратегии RAG объясняются за 13 минут (без лишних слов)

Все стратегии RAG объясняются за 13 минут (без лишних слов)

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Стратегии фрагментации в RAG: оптимизация данных для продвинутых ответов ИИ

Стратегии фрагментации в RAG: оптимизация данных для продвинутых ответов ИИ

Лучший документальный фильм про создание ИИ

Лучший документальный фильм про создание ИИ

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Понимание рассуждений LLM (o1/o3, DeepSeek-R1, Gemini Thinking, Grok 3, Claude 3.7)

Понимание рассуждений LLM (o1/o3, DeepSeek-R1, Gemini Thinking, Grok 3, Claude 3.7)

Как я автоматизировал NotebookLM с помощью Claude Code и Telegram

Как я автоматизировал NotebookLM с помощью Claude Code и Telegram

Do Reranking Models Actually Improve RAG?

Do Reranking Models Actually Improve RAG?

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

LLM Chronicles #6.4: LLM Agents с ReAct (Разум + Действие)

LLM Chronicles #6.4: LLM Agents с ReAct (Разум + Действие)

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Philosophy Eats AI: What Leaders Should Know

Philosophy Eats AI: What Leaders Should Know