Искусственный интеллект + Инженерия данных (Дорожная карта развития инженерии данных до 2026 года...
Автор: Chris Gambill | Data Engineering Strategy
Загружено: 2026-02-09
Просмотров: 1427
Описание:
Консалтинг: https://www.gambilldataengineering.co...
Коучинг: https://www.gambilldataengineering.co...
Лучшие курсы Udemy для начинающих инженеров данных: https://trk.udemy.com/zxYW9x
Бесплатный контрольный список по инженерии данных: https://www.gambilldataengineering.co...
Системы искусственного интеллекта, преобразующие текст в SQL, обещают превратить вашу степень магистра права в опытного аналитика данных. Но в реальности они терпят неудачу в 80-85% случаев при работе с реальными данными. В этом видео объясняется, почему бенчмарки неверны и как создавать системы, которые действительно работают в производственной среде.
Что вы узнаете:
• Как ИИ Zillow допустил ошибку на 562 миллиона долларов (и как этого избежать)
• Почему тесты Spider 1.0 не предсказывают реальную производительность
• Ловушка вентилятора: как ИИ может сообщать на 500% неверные данные о доходах
• Скрытый токен-налог, который обходится вам в тысячи долларов в месяц
• Семантическая архитектура брандмауэра, которая предотвращает галлюцинации ИИ
• Как снизить затраты на вывод ИИ на 80% с помощью семантического кэширования
Временные метки:
0:00 - Катастрофа Zillow с ИИ на 562 миллиона долларов
0:29 - Проблема вероятностного и детерминированного подходов
1:28 - Почему тесты преобразования текста в SQL вводят в заблуждение
2:10 - Spider 1.0 против реальных хранилищ данных
3:08 - LLM-ы являются вероятностными, базы данных - детерминированными
4:00 - Объяснение ловушки вентилятора: на 500% неверно Доход
5:20 - Токен-налог: скрытые издержки преобразования текста в SQL
6:25 - Решение: семантический брандмауэр
8:15 - MCP: новый стандарт доступа к данным для ИИ
8:50 - Семантическое кэширование: снижение затрат на 80%
Ключевые выводы:
• Точность бенчмарка 90% ≠ 90% точность в производственной среде
• Показатели успешности в реальных условиях: 15-20% без надлежащей архитектуры
• Токен-налог: 20 000 токенов только для объяснения вашей схемы
• Задержка в 10 секунд ухудшает пользовательский опыт
• Скрытые сбои хуже громких
Для кого это предназначено:
• Инженеры данных, создающие аналитику на основе ИИ
• Старшие инженеры, проектирующие производственные системы ИИ
• Команды, внедряющие решения LLM для работы с базами данных
• Все, кто устал от демонстраций ИИ, которые терпят неудачу в производственной среде
Главный вывод:
Перестаньте относиться к LLM как к DBA. Рассматривайте их как логические механизмы. Используйте семантические слои в качестве межсетевых экранов между ИИ и вашим хранилищем данных. Пусть LLM пишет вызовы API, а не SQL.
Следующие шаги:
Посмотрите весь плейлист, чтобы освоить антихрупкую инженерию данных и создавать системы, которые выдержат эксплуатацию. Не создавайте хрупкие демонстрационные версии — создавайте инфраструктуру, определяющую вашу карьеру.
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: