Jeremy Chia Copy

Senior Analytics Engineer @Vinted

Jeremy started his career as an accountant before turning to data, recognizing the value of combining finance and data to solve complex problems. With experience as a Finance and Data Analyst, Solutions Consultant, and Analytics Engineer, he has hands-on expertise in building data pipelines, improving data quality, and making data-driven business decisions. He also sits on the board of a nonprofit organization, using data to maximize social impact.

His background gives him a unique perspective at the intersection of finance and data, with a proven ability to collaborate with different teams - from finance to engineering - in fast-paced international environments. Having worked in Berlin, Hong Kong, Paris, and Singapore, Jeremy brings a broad understanding of diverse data-related challenges and team work dynamics.

At the Forward Data Conference, he will share practical and actionable insights on data quality and testing, drawn from his hands-on experience with operational financial data pipelines.

Talk

FR
EN

Test Smarter, Not Harder: Risk-Based Data Quality Without Pipeline Paralysis

Vinted Go est le service de livraison interne de Vinted opérant dans plusieurs pays, coordonnant un réseau de partenaires transporteurs pour gérer et exécuter les expéditions de colis efficacement. Un reporting précis des coûts d'expédition et des données opérationnelles est essentiel pour la transparence financière, l'optimisation des accords de transporteurs, et le support de la prise de décision stratégique. Notre pipeline de données intègre les données de factures de transporteurs, les enregistrements d'expéditions, et les détails de prix de diverses sources externes, rendant la haute qualité des données critique pour un reporting de coûts fiable et des insights opérationnels. Assurer une haute qualité des données tout en respectant des SLAs stricts est un défi commun dans les plateformes de données modernes. Début 2024, quand nous avons introduit les capacités de test natives de dbt dans notre pipeline Vinted Go Finance, nous avons initialement inclus tous les tests directement dans le processus de build. Bien que cela ait amélioré la visibilité sur les problèmes de qualité des données, cela a causé des échecs fréquents de pipeline sur des erreurs non-critiques, menant à des taux de respect des SLAs entre 77% et 87%. Cela a miné la confiance des parties prenantes, retardé la disponibilité des données, et généré de la fatigue d'alerte. De plus, le coût de faire tourner tous les tests — incluant des temps d'exécution plus longs et la consommation de ressources — est devenu insoutenable. Pour adresser ces problèmes, nous avons développé une stratégie de test basée sur les risques ancrée dans des frameworks établis de gestion des risques et de qualité des données. Nous classifions les tests basés sur l'impact financier des erreurs potentielles, la fréquence des échecs, et le coût opérationnel de les faire tourner. Les tests à fort impact et fréquents restent dans le pipeline principal, tandis que les tests à faible impact ou peu fréquents sont exécutés séparément sur des workflows programmés. Cette approche réduit les échecs de build inutiles, diminue les coûts d'exécution et de ressources, et minimise la fatigue d'alerte. Nous partagerons des frameworks pratiques et des principes directeurs sur comment décider quels tests implémenter et prioriser, équilibrant la rigueur avec l'efficacité opérationnelle. Nous fournirons des exemples concrets de tests que nous exécutons — couvrant les validations de clés de jointure, valeurs acceptées, complétude des factures, et détection d'anomalies pour les montants de factures. Nous expliquerons également comment nous taguons les tests, organisons les workflows, et déléguons la responsabilité pour adresser les échecs entre les équipes finance et data. En adoptant cette approche de test consciente des risques, nous avons amélioré le respect des SLAs à plus de 97% en 30 jours sans compromettre la qualité des données.

Tu veux participer en 2025 ? C'est le 24 novembre :

Devenez sponsor

bronze partner

2 invitations
Votre logo sur notre site, page Linkedin et les vidéos en replay
Likes et partages de vos propres posts

silver partner

4 invitations
Votre logo sur notre site, page Linkedin et les vidéos en replay
Short Youtube sous-forme de remerciement
Likes et partages de vos propres posts

gold partner

6 Invitations
Votre logo sur notre site, page Linkedin et les vidéos en replay
Short Youtube sous-forme de remerciement
Temps de parole sur la scène principale (5mn) ou table ronde (45mn) dans un de nos espaces dédiés (30 participants environ)
Liste des partcipants (conformité RGPD)
sponsoring