ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Зачем использовать DuckDB в ваших конвейерах данных (при участии Нильса Клэйса)

Автор: MotherDuck

Загружено: 2023-10-06

Просмотров: 33185

Описание: Доклад Нильса Клэйса (@Dataminded) на одной из встреч MotherDuck/DuckDB, которая прошла в сентябре в Лёвене, Бельгия.
Спасибо @dataroots за организацию!

☁️🦆 Начните использовать DuckDB в облаке БЕСПЛАТНО с MotherDuck: https://hubs.la/Q02QnFR40

Ссылки Нильса:
Linkedin:   / nielsclaeys  
Medium:   / niels.claeys  

➡️ Подписывайтесь на нас
LinkedIn:   / 8192.  .
Twitter:   / motherduck  
Блог: https://motherduck.com/blog/

#duckdb #motherduckdb #motherduckduckdb #dataengineering

В этой презентации рассматривается использование DuckDB в конвейерах данных как современной и эффективной альтернативы традиционным инструментам проектирования данных. Начнём с описания типичной архитектуры платформы пакетной обработки данных, где данные поступают в озеро данных (например, S3 или хранилище BLOB-объектов Azure) и обрабатываются с помощью Spark для всех задач ETL. Это подготавливает почву для распространённой проблемы: неэффективности использования распределённого движка, такого как Spark, в 80–90% случаев использования данных малого или среднего объёма, определяемого здесь как данные объёмом до 100 ГБ.

Мы предлагаем более эффективный технологический стек, объединяющий DBT и DuckDB, чтобы заменить Spark для большинства рабочих нагрузок по обработке данных. Такой подход позволяет аналитикам данных, владеющим SQL, создавать собственные конвейеры данных, освобождая специализированные команды по разработке данных. DBT привносит в SQL лучшие практики разработки программного обеспечения, такие как модуляризация и документирование, а DuckDB выступает в качестве высокопроизводительного внутрипроцессного SQL-движка, который превосходно выполняет запросы к данным непосредственно из файлов Parquet в озере данных, что делает его идеальным решением для аналитической разработки.

Узнайте о практической реализации с помощью адаптера `dbt-duckdb`, который обеспечивает бесперебойный рабочий процесс. Ключевой особенностью является возможность чтения из внешнего хранилища, что делает DBT с DuckDB готовой заменой существующих заданий Spark без изменения входных и выходных интерфейсов. Эта совместимость обеспечивает постепенную миграцию данных от случая к случаю, предлагая схожий опыт разработки как локально, так и в удаленных средах, таких как Kubernetes.

Наконец, мы подробно рассмотрим сравнение производительности DuckDB, Spark и Trino с использованием набора данных TPCDS объемом 100 ГБ. Результаты показывают, что для данных среднего объема DuckDB значительно быстрее и экономичнее, выполняя более половины запросов до того, как Spark завершит свой первый запрос, благодаря меньшим накладным расходам. Этот анализ подтверждает, что использование DBT с DuckDB является мощным и производительным решением для многих конвейеров данных, оставляя Spark для действительно масштабных или сложных задач обработки.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Зачем использовать DuckDB в ваших конвейерах данных (при участии Нильса Клэйса)

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

Analytics for not-so-big data with DuckDB - David Ostrovsky - NDC Oslo 2025

Analytics for not-so-big data with DuckDB - David Ostrovsky - NDC Oslo 2025

Hannes Mühleisen - Data Wrangling [for Python or R] Like a Boss With DuckDB

Hannes Mühleisen - Data Wrangling [for Python or R] Like a Boss With DuckDB

Using dbt And Snowflake To Develop And Deploy Analytics Code  | LAB

Using dbt And Snowflake To Develop And Deploy Analytics Code | LAB

Моделирование данных: одна большая таблица, Кимбалл и реляционные модели для инженеров данных

Моделирование данных: одна большая таблица, Кимбалл и реляционные модели для инженеров данных

Why DuckDB Is Great, Next-Gen Viz Tech, and Our War on Tableau (ft. Ryan Melehan)

Why DuckDB Is Great, Next-Gen Viz Tech, and Our War on Tableau (ft. Ryan Melehan)

Introducing DuckLake

Introducing DuckLake

DuckDB и MotherDuck для начинающих: ваше полное руководство

DuckDB и MotherDuck для начинающих: ваше полное руководство

Kubernetes — Простым Языком на Понятном Примере

Kubernetes — Простым Языком на Понятном Примере

Лучший Гайд по Kafka для Начинающих За 1 Час

Лучший Гайд по Kafka для Начинающих За 1 Час

Евгений Глотов — Spark — ВСЁ!

Евгений Глотов — Spark — ВСЁ!

Apache Iceberg: что это такое и почему все о нем говорят.

Apache Iceberg: что это такое и почему все о нем говорят.

Liberate Analytical Data Management with DuckDB

Liberate Analytical Data Management with DuckDB

Практический курс по SQL для начинающих - #1 Введение в PostgreSQL

Практический курс по SQL для начинающих - #1 Введение в PostgreSQL

DevOps Demo Practical Session | Part 2 | Real-Time End-to-End Practical Implementation for Beginners

DevOps Demo Practical Session | Part 2 | Real-Time End-to-End Practical Implementation for Beginners

Gábor Szárnyas - DuckDB: The Power of a Data Warehouse in your Python Process

Gábor Szárnyas - DuckDB: The Power of a Data Warehouse in your Python Process

Проектирование приложений с интенсивным использованием данных: главы 1 и 2

Проектирование приложений с интенсивным использованием данных: главы 1 и 2

DuckDB: Обработка данных где угодно, от ноутбуков до серверов • Габор Сарняс • GOTO 2024

DuckDB: Обработка данных где угодно, от ноутбуков до серверов • Габор Сарняс • GOTO 2024

Understanding DuckLake: A Table Format with a Modern Architecture

Understanding DuckLake: A Table Format with a Modern Architecture

DuckDB: How to Build 100x Faster Analytics Databases (with Co-Creator Hannes Mühleisen)

DuckDB: How to Build 100x Faster Analytics Databases (with Co-Creator Hannes Mühleisen)

Создание хранилища данных Postgres с использованием DuckDB

Создание хранилища данных Postgres с использованием DuckDB

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]