Détail du talk
Row level lineage at Carbonfact
L'une des activités de Carbonfact est de produire des rapports environnementaux annuels pour nos clients. Ces rapports sont audités par de grandes firmes de conseil. La diligence raisonnable nécessite de comprendre exactement d'où vient chaque point de données. Cela peut être délicat, car nos clients ont de nombreux fichiers éparpillés dans leur paysage IT. Nous avons développé un système de lignage de données au niveau des lignes, en Python, qui nous permet de répondre rapidement à de telles demandes. Cela nous permet également de compiler des rapports de qualité des données, en indiquant combien de points de données proviennent de sources de données primaires, vs heuristiques et machine learning. Nous avons développé un petit module en interne car nous n'avons rien trouvé de simple qui convenait à nos besoins. Maintenant nous voulons partager nos apprentissages ! Cette présentation détaille l'architecture technique, les défis rencontrés, et les solutions développées pour tracer précisément l'origine de chaque donnée dans les rapports environnementaux complexes.

