Edition 2025 25mn platform-analytics-engineering

Row level lineage at Carbonfact

Time 11:00 → 11:25
Room gulbenkian
Language EN

Speakers

Max Halford

Max Halford

Head of Data @Carbonfact

Alexis Cruveiller

Alexis Cruveiller

Data Scientist @Carbonfact

Description

L'une des activités de Carbonfact est de produire des rapports environnementaux annuels pour nos clients. Ces rapports sont audités par de grandes firmes de conseil. La diligence raisonnable nécessite de comprendre exactement d'où vient chaque point de données. Cela peut être délicat, car nos clients ont de nombreux fichiers éparpillés dans leur paysage IT. Nous avons développé un système de lignage de données au niveau des lignes, en Python, qui nous permet de répondre rapidement à de telles demandes. Cela nous permet également de compiler des rapports de qualité des données, en indiquant combien de points de données proviennent de sources de données primaires, vs heuristiques et machine learning. Nous avons développé un petit module en interne car nous n'avons rien trouvé de simple qui convenait à nos besoins. Maintenant nous voulons partager nos apprentissages ! Cette présentation détaille l'architecture technique, les défis rencontrés, et les solutions développées pour tracer précisément l'origine de chaque donnée dans les rapports environnementaux complexes.