ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Your AI Metrics Are LYING: Evaluation & Prompt Engineering Explained

Автор: Duniya Drift

Загружено: 2026-02-16

Просмотров: 22

Описание: A 99.9% accuracy score... that catches ZERO real cases. A perfect BLEU score... that produces gibberish. What if your AI metrics have been lying to you?

In this visual explainer, we break down every major evaluation metric — from Precision & Recall to BLEU & ROUGE — revealing when each one LIES. Then we explore prompt engineering, the revolutionary technique where changing HOW you ask can swing performance by 50%.

⏱️ TIMESTAMPS:
0:00 — The BLEU score that lied
0:15 — Why you need to watch this
0:45 — The two worlds of evaluation
1:30 — Chapter 1: Classification Metrics (Accuracy, Precision, Recall, F1)
3:00 — Chapter 2: Generation Metrics (BLEU, ROUGE, METEOR, Perplexity)
4:15 — Chapter 3: Prompt Engineering (Zero-Shot, Few-Shot, Instruction)
5:00 — THE TWIST: Chain-of-Thought & Goodhart's Law
6:30 — The Modern Evaluation Framework
7:00 — Unit 2 Complete — Your Journey So Far
7:30 — Next: Unit 3 — Advanced NLP Techniques

🔑 KEY CONCEPTS COVERED:
• Confusion Matrix — TP, FP, FN, TN explained visually
• Accuracy Trap — why 99.9% can mean nothing
• Precision vs Recall trade-off
• F1 Score — the harmonic mean
• BLEU — n-gram precision for translation
• ROUGE — recall for summarization
• METEOR — synonym-aware evaluation
• Perplexity — language model confidence
• Zero-Shot, Few-Shot, Instruction Prompting
• Chain-of-Thought (CoT) — "Let's think step by step"
• Goodhart's Law — when metrics become targets
• Modern Evaluation: Metrics + Human Ratings + Adversarial Testing

📚 This is Video 6 of Unit 2: Deep Learning for NLP (UNIT 2 FINALE)
Full playlist:   • Fundamentals & Advanced NLP –  Playlist  

Part of the complete AI/ML educational series:
• Unit 1: ML Foundations ✅
• Unit 2: Deep Learning for NLP ✅ (COMPLETE!)
• Unit 3: Advanced NLP Techniques (NEXT)
• Unit 4: Multimodal NLP & Ethics

🔗 RESOURCES:
• Papineni et al. (2002) — BLEU Score Paper
• Lin (2004) — ROUGE Paper
• Wei et al. (2022) — Chain-of-Thought Prompting
• Kojima et al. (2022) — "Let's Think Step by Step" (Zero-Shot CoT)

#ai #MachineLearning #PromptEngineering #NLP #BLEU #ROUGE #ChainOfThought #AIMetrics #Evaluation #DeepLearning

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Your AI Metrics Are LYING: Evaluation & Prompt Engineering Explained

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

"BERT vs GPT: Understanding Modern Language Models"

Я разобрал всю ИИ-экосистему Google — 7 ключевых инструментов

Я разобрал всю ИИ-экосистему Google — 7 ключевых инструментов

Способ увидеть невидимое: как создают суперлинзы из оптических метаматериалов

Способ увидеть невидимое: как создают суперлинзы из оптических метаматериалов

The Internet Was Weeks Away From Disaster and No One Knew

The Internet Was Weeks Away From Disaster and No One Knew

GLM-5 УНИЧТОЖИЛА DeepSeek! Бесплатная нейросеть БЕЗ ограничений. Полный тест 2026

GLM-5 УНИЧТОЖИЛА DeepSeek! Бесплатная нейросеть БЕЗ ограничений. Полный тест 2026

Information Extraction Explained: NER, Relations & Knowledge Graphs

Information Extraction Explained: NER, Relations & Knowledge Graphs

Как так быстро развились диффузионные LLM-технологии?

Как так быстро развились диффузионные LLM-технологии?

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

4 типа задач, которые нужно немедленно передать ИИ

4 типа задач, которые нужно немедленно передать ИИ

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

Learn with ZERO Examples? Few-Shot & Zero-Shot NLP Explained

Learn with ZERO Examples? Few-Shot & Zero-Shot NLP Explained

Что нового в Google Gemini 3.1 PRO

Что нового в Google Gemini 3.1 PRO

Опасности экспоненциального роста ИИ

Опасности экспоненциального роста ИИ

✓ Красивое уравнение | Всеукраїнська олімпіада | Ботай со мной #162 | Борис Трушин

✓ Красивое уравнение | Всеукраїнська олімпіада | Ботай со мной #162 | Борис Трушин

Тренды в ИИ 2026. К чему готовиться каждому.

Тренды в ИИ 2026. К чему готовиться каждому.

Лучший документальный фильм про создание ИИ

Лучший документальный фильм про создание ИИ

Создание и использование агентов в Microsoft 365 Copilot: полное руководство (2026)

Создание и использование агентов в Microsoft 365 Copilot: полное руководство (2026)

Я использовал Claude и Copilot на одной и той же модели Excel — огромная разница!

Я использовал Claude и Copilot на одной и той же модели Excel — огромная разница!

Понимание GD&T

Понимание GD&T

RNNs, LSTMs & GRUs Explained: How Neural Networks Remember Sequences

RNNs, LSTMs & GRUs Explained: How Neural Networks Remember Sequences

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]