Episode 226 : Starlake.AI avec Hayssam Saleh
Автор: BigData Hebdo
Загружено: 2026-02-20
Просмотров: 28
Описание:
Vincent Heuschling reçoit Hayssam Saleh, créateur de **Starlake**, une plateforme data open source française née de la factorisation de projets clients depuis 2017-2018. L'épisode intervient dans un contexte de consolidation du marché (rachat de DBT et de SQLMesh par Fivetran), qui invite à challenger les solutions établies.
Starlake se distingue par une approche *entièrement déclarative* (YAML + SQL natif, sans Jinja) couvrant toute la chaîne data engineering : ingestion, transformation, orchestration et qualité des données. L'outil s'appuie sur les moteurs sous-jacents des plateformes cibles (Snowflake, BigQuery, Spark) et génère automatiquement les DAGs pour les orchestrateurs du marché (Airflow, Dagster, Snowflake Tasks).
Parmi les fonctionnalités marquantes : le *data branching* (branches de données à la manière de Git), l'inférence automatique de schémas YAML à partir de fichiers sources, un *transpiler SQL* multi-plateformes, et l'extraction du lineage depuis du SQL brut sans annotation. L'intégration récente de *DuckLake* ouvre la voie à des architectures on-premise souveraines à coût maîtrisé (sous 300 €/mois sur OVH, Scaleway, Clever Cloud).
Le modèle économique repose sur le support, la formation, et le consulting : Starlake s'installe dans le cloud du client, avec mise à jour automatique gérée par l'équipe, sans accès aux données.
*Chapitres*
*00:00:27* – Introduction : consolidation du marché data (rachat de DBT et SQLMesh par Fivetran) et présentation de l'épisode
*00:03:13* – Hayssam et la genèse de Starlake : parcours Spark/Scala, POC à 4 000 formats de fichiers (2017-2018)
*00:09:51* – Architecture et philosophie : load, transform, orchestration unifiés en déclaratif (YAML + SQL natif, pas de Jinja)
*00:00:18:18* – Starlake vs DBT : différences philosophiques, composabilité, fonctionnalités 100 % open source
*00:00:22:20* – Data branching, Starlake Labs (pipe syntax, transpiler SQL, lineage) et expérience développeur (DuckDB local, UI point-and-click)
*00:36:35* – Modèle open source et économique : licence Apache, support, formation, marketplace cloud souveraine
*00:43:42* – DuckLake : alternative on-premise/cloud souverain (OVH, Scaleway, Clever Cloud) et comment contribuer / démarrer
*Le BigdataHebdo*
Le BigdataHebdo est le podcast Francophone de la Data et de l'IA.
Retrouvez plus de 200 épisodes https://bigdatahebdo.com
Rejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo...
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: