Backfill Streaming Data Pipelines in Kappa Architecture

Автор: Databricks

Загружено: 2022-07-19

Просмотров: 7675

Описание: Streaming data pipelines can fail due to various reasons. Since the source data, such as Kafka topics, often have limited retention, prolonged job failures can lead to data loss. Thus, streaming jobs need to be backfillable at all times to prevent data loss in case of failures.
One solution is to increase the source's retention so that backfilling is simply replaying source streams, but extending Kafka retention is very costly for Netflix's data sizes. Another solution is to utilize source data stored in DWH, commonly known as the Lambda architecture. However, this method introduces significant code duplication, as it requires engineers to maintain a separate equivalent batch job.
At Netflix, we have created the Iceberg Source Connector to provide backfilling capabilities to Flink streaming applications. It allows Flink to stream data stored in Apache Iceberg while mirroring Kafka's ordering semantics, enabling us to backfill large-scale stateful Flink pipelines at low retention cost.

Connect with us:
Website: https://databricks.com
Facebook:   / databricksinc
Twitter:   / databricks
LinkedIn:   / data.  .
Instagram:   / databricksinc

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Backfill Streaming Data Pipelines in Kappa Architecture

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Delta Live Tables A to Z: Best Practices for Modern Data Pipelines

Delta Live Tables A to Z: Best Practices for Modern Data Pipelines

MLOps on Databricks: A How-To Guide

MLOps on Databricks: A How-To Guide

A Deep Dive into Stateful Stream Processing in Structured Streaming 2018 Part 2 (Tathagata Das)

A Deep Dive into Stateful Stream Processing in Structured Streaming 2018 Part 2 (Tathagata Das)

Kappa vs Lambda Architectures and Technology Comparison

Kappa vs Lambda Architectures and Technology Comparison

Watermarks: Time and Progress in Apache Beam and Beyond

Watermarks: Time and Progress in Apache Beam and Beyond

Как ответить на вопросы про Kafka на интервью? Полный разбор

Как ответить на вопросы про Kafka на интервью? Полный разбор

Алексей Чернобровов - Как архитектура DWH влияет на Data Quality

Алексей Чернобровов - Как архитектура DWH влияет на Data Quality

Data Warehousing on the Lakehouse

Data Warehousing on the Lakehouse

Apache Spark Vs Apache Flink – Looking Through How Different Companies Approach Spark And Flink

Apache Spark Vs Apache Flink – Looking Through How Different Companies Approach Spark And Flink

Designing ETL Pipelines with Structured Streaming and Delta Lake— How to Architect Things Right

Designing ETL Pipelines with Structured Streaming and Delta Lake— How to Architect Things Right

Моделирование данных: одна большая таблица, Кимбалл и реляционные модели для инженеров данных

Моделирование данных: одна большая таблица, Кимбалл и реляционные модели для инженеров данных

Productizing Structured Streaming Jobs Burak Yavuz Databricks

Productizing Structured Streaming Jobs Burak Yavuz Databricks

The Parquet Format and Performance Optimization Opportunities Boudewijn Braams (Databricks)

The Parquet Format and Performance Optimization Opportunities Boudewijn Braams (Databricks)

Как PostgreSQL может сделать больно, когда не ожидаешь — Михаил Жилин

Как PostgreSQL может сделать больно, когда не ожидаешь — Михаил Жилин

Apache Spark был сложным, пока я не изучил эти 30 концепций!

Apache Spark был сложным, пока я не изучил эти 30 концепций!

Shift Left Stream Processing for Better Data Governance and Quality | Life Is But A Stream Podcast

Shift Left Stream Processing for Better Data Governance and Quality | Life Is But A Stream Podcast

Netflix Data Engineering Tech Talks - The Netflix Data Engineering Stack

Netflix Data Engineering Tech Talks - The Netflix Data Engineering Stack

Streaming from Apache Iceberg - Building Low-Latency and Cost-Effective Data Pipelines

Streaming from Apache Iceberg - Building Low-Latency and Cost-Effective Data Pipelines

Designing Structured Streaming Pipelines—How to Architect Things Right - Tathagata Das Databricks

Designing Structured Streaming Pipelines—How to Architect Things Right - Tathagata Das Databricks

Confluent Keynote: Reimagining Data Pipelines for the Streaming Era | Current 2022

Confluent Keynote: Reimagining Data Pipelines for the Streaming Era | Current 2022