Fast Copy-On-Write in Apache Parquet for Data Lakehouse Upserts

Автор: Databricks

Загружено: 2024-07-23

Просмотров: 999

Описание: Efficient table ACID upsert is essential for today’s Lakehouse. Important use cases, such as GDPR Right to be Forgotten and Change Data Capture, rely heavily on it. While Apache Delta Lake, Iceberg, and Hudi are widely adopted, the slowness of upserts is seen when the data volume scales up, particularly for copy-on-write mode. Sometimes, the slow upserts become a blocker to finishing compliance requirements on time. We introduced partial copy-on-write within Parquet with row-level index to skip unnecessary column chunks efficiently. The term partial here means only performing copy-on-write for the needed chunks but skipping unrelated ones. Generally, only a small portion of the file needs to be updated, and most of the data chunks can be skipped. We have observed an increased speed of up to 20x compared to existing upserts.

Talk By: Mingmin Chen, Director of Engineering, Uber Technologies, Inc ; Xinli Shang, Engineering Manager, Uber

Here's more to explore:
Rise of the Data Lakehouse: https://dbricks.co/3NHT7CD
Lakehouse Fundamentals Training: https://dbricks.co/44ancQs

Connect with us: Website: https://databricks.com
Twitter:   / databricks
LinkedIn:   / data…
Instagram:   / databricksinc
Facebook:   / databricksinc

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Fast Copy-On-Write in Apache Parquet for Data Lakehouse Upserts

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

The Parquet Format and Performance Optimization Opportunities Boudewijn Braams (Databricks)

The Parquet Format and Performance Optimization Opportunities Boudewijn Braams (Databricks)

Хранилище данных против озера данных против хранилища данных | ETL, OLAP против OLTP

Хранилище данных против озера данных против хранилища данных | ETL, OLAP против OLTP

Apache Kafka Architecture

Apache Kafka Architecture

Введение в паркет Apache

Введение в паркет Apache

LakeBase from Databricks Is Changing Everything and People Are Mad!

LakeBase from Databricks Is Changing Everything and People Are Mad!

Apache Iceberg 101

Apache Iceberg 101

Хранилище данных, озеро данных и Лейкхаус данных | В чём разница? (2025)

Хранилище данных, озеро данных и Лейкхаус данных | В чём разница? (2025)

Apache Iceberg Tutorial: Copy-on-Write vs Merge-on-Read | Dremio

Apache Iceberg Tutorial: Copy-on-Write vs Merge-on-Read | Dremio

ОБЫЧНЫЙ VPN УМЕР: Чем обходить блокировки в 2026

ОБЫЧНЫЙ VPN УМЕР: Чем обходить блокировки в 2026

Формат файла Parquet — объяснение пятилетнему ребенку!

Формат файла Parquet — объяснение пятилетнему ребенку!

Accelerating LLM Inference with vLLM

Accelerating LLM Inference with vLLM

How to Query and Ingest Parquet Files with ClickHouse

How to Query and Ingest Parquet Files with ClickHouse

Optimizing Apache Spark SQL Joins: Spark Summit East talk by Vida Ha

Optimizing Apache Spark SQL Joins: Spark Summit East talk by Vida Ha

База данных, хранилище данных и озеро данных | В чем разница?

База данных, хранилище данных и озеро данных | В чем разница?

Тканевый паркет и столы Delta — Сезон 7, Эпизод 2

Тканевый паркет и столы Delta — Сезон 7, Эпизод 2

InfluxDB IOx Tech Talks: Catalogs - Turning a Set of Parquet Files into a Data Set

InfluxDB IOx Tech Talks: Catalogs - Turning a Set of Parquet Files into a Data Set

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

(Не)удар по Ирану и усиление ВВС Израиля

(Не)удар по Ирану и усиление ВВС Израиля

Reading and Writing Data Guidance for Azure Databricks

Reading and Writing Data Guidance for Azure Databricks

Intro to Data Lakehouse

Intro to Data Lakehouse