Exploiter la puissance de DuckDB - C.Vlaminck, P.Courvoisier - Sopht
Автор: ForwardDataConf
Загружено: 2026-02-01
Просмотров: 61
Описание:
🔥 Comment justifier DuckDB face à Postgres/Trino pour un data lake on‑prem et multi‑formats ?
🔥 Comment gérer 1,5 M lignes/jour sur 4 ans (milliards de lignes) sans exploser le partitioning ?
🔥 Quels garde‑fous en prod Kubernetes (memory_limit, exit 137) et en qualité (450 TU, 90% coverage) ?
Pierre Courvoisier et Cyril Vlaminck, data chez Sopht, racontent un an de DuckDB en prod pour mesurer l’empreinte carbone IT.
40 To, 1,5 M lignes/jour, 4 ans de rétention, 450 tests (90%), et un bug « 23h » dû au partitioning. Pourquoi DuckDB, comment scaler, quels pièges éviter?
🤔 Savez-vous que leur pipeline n’affichait plus que 23h par jour à cause d’un type VARCHAR auto‑détecté via le partitioning ?
___________________________
🤘🤘🤘FWD designed, built and organized with 🧡 by @hymaia (https://www.hymaia.com )
— with @blef_ & @moderndatanetwork4589
___________________________
🌐🌐🌐 PLUS DE CONTENU DATA sur Nos réseaux :
➜ LinkedIn : / 104059598
➜ Twitter : https://x.com/ForwardDataconf
➜ Instagram : / forwarddataconf
➜ TikTok : / hymaiafr
💻 Notre site internet : https://www.forward-data-conference.com/
🔥🔥🔥 Nos Sponsors 2025:
Omni, Sifflet, Mirakl, Tangram-os.ai, starlake, synq, clickhouse, Nao, DataBricks,
🎬CHAPITRES
00:00:00 Introduction
00:00:19 Contexte Sopht & contraintes clients (sécurité, on‑prem)
00:03:21 Pourquoi DuckDB: formats, Pandas, in‑process
00:04:38 Volumétrie & partitioning: 1,5 M/jour, 4 ans de rétention
00:09:16 Tests & qualité: Testcontainers/MinIO, 450 TU, 90% coverage
00:11:19 Prod Kubernetes: memory_limit, exit 137, delete via S3
© 2025 Hymaïa - Cabinet de conseil et Formation Product, Data & IA
TITRES ET HASHTAGS ===
1. DuckDB en prod chez Sopht: volumes réels, tests, Kubernetes et pièges Hashtags : #DuckDB #DataEngineering #Kubernetes #Parquet #DataLake
2. Pourquoi DuckDB pour un data lake on‑prem? REX Sopht (40 To, 1,5 M/jour) Hashtags : #OnPrem #DuckDB #Partitioning #S3 #Security
3. Partitioning, Pandas, S3: un an d’ingénierie data pour décarboner l’IT Hashtags : #Pandas #Parquet #MinIO #UnitTesting #GreenIT
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: