Détail du talk
From Product Images to Structured Data: VLMs at Marketplace Scale
Les budgets GPU ne sont pas nécessairement proportionnels au nombre d'images traitées. Chez Mirakl, nous avons développé une architecture d'inférence native du cloud pour notre Catalog Transformer. Celle-ci traite les images de produits à grande échelle et extrait des informations structurées pour des cas d'utilisation en aval, comme le tri des images et la suppression de l'arrière-plan.
Les catalogues contenant des milliers de produits sont prétraités avec Apache Spark, puis diffusés via des modèles de langage visuel sur KServe avec un backend vLLM. Ils sont optimisés grâce à des LoRA finement paramétrés et leur coût est amorti par la mise en cache.
Nous détaillerons les composants essentiels que nous avons choisis et les compromis rencontrés en production, afin de proposer un modèle réutilisable par d'autres équipes. Nous conclurons en présentant deux piliers opérationnels pour la mise à l'échelle : la parallélisation et la régulation du trafic grâce à des files d'attente événementielles, et l'intégration d'une passerelle IA dans notre feuille de route.
