Au pays des volcans, 800 professionnels de Michelin puisent dans un lac de données, accessible à la demande, les rapports et tableaux de bord d’activités pouvant générer davantage de valeur.
En deux ans, le géant du pneu de Clermont-Ferrand a déployé un datalake as a service dont bénéficient déjà 800 utilisateurs. Ces professionnels affinent ainsi leur propre compréhension de leur environnement pour prendre de meilleures décisions. Grâce à son Corporate Data Lake, Michelin parvient à créer de nouvelles applications plus proches du temps réel, optimisées pour la finance, la production, la logistique ou les Ressources humaines.
« Le Lakehouse s’inscrit dans une logique de plateforme et d’écosystème associant les producteurs de données aux utilisateurs métiers », explique l’architecte de Michelin Julien Gagnet, venu témoigner avec le Product Owner Jean-François Duteyrat lors d’un atelier du salon Big Data & IA 2021 de Paris, le 29 septembre dernier.
Un lac de données en service managé
Michelin peut ainsi examiner sa production de pneus, surveiller la reprise sur incident de pièces manufacturière et optimiser sa logistique. Son Corporate Data Lake exploite le framework de calculs répartis Apache Spark, les outils ETL et de stockage de Microsoft (Azure Data Factory et Azure Databricks en service managé) ainsi que les outils notebooks Scala et Python pour créer et partager des codes d’analyses rapides. De nombreuses sources de données hétérogènes peuvent ainsi être agrégées pour restituer, à la demande, des tableaux de bord et des rapports pertinents pour les métiers.
En s’appuyant sur les derniers frameworks d’IA, de Machine Learning et sur les plateformes cloud, « le Lakehouse de Databricks peut accélérer l’innovation pour plusieurs métiers et servir des objectifs distincts », confirme Nicolas Maillard, manager des architectes de solutions Databricks en France et en Europe depuis janvier 2019. Dans ce podcast, il partage, les clés de succès d’une plateforme de services analytiques délivrés à la demande.
Une co-innovation autour de la data
Derrière la notion de Lakehouse, Databricks tente de combiner le meilleur des deux mondes du datalake et du datawarehouse, pour mener des analyses de données massives dans le cloud. Souvent, il s’agit de gagner en productivité, d’améliorer des processus ou de prendre des parts de marché en améliorant la connaissance des clients.
« La maturité de l’analytique s’exprime autour des termes DevOps et MLOps. Après de bonnes bases technologiques et de production, il faut ajouter des bases métiers amenant l’utilisateur à prendre de bonnes décisions. Toute l’entreprise doit réfléchir à la façon de se servir des données dans la prise de décision, le challenge de la décision, le changement de direction et le rattrapage d’erreurs », préconise-t-il.
Il ajoute qu’ensemble le cloud et l’IA peuvent accélérer l’innovation et contribuer à valider son impact sur les activités métiers. Pour l’entreprise utilisatrice, il s’agit d’activer plusieurs usages distincts autour d’une grande variété de données. Comment s’y prendre, concrètement ? En sortant d’un long héritage informatique SQL trop rigide, pour créer une nouvelle plateforme analytique unifiée, cloud native, autrement dit un Lakehouse, une contraction de datalake et de datawarehouse où seuls les avantages des deux référentiels de données seront retenus. En pratique, les structures et la gestion des données sont proches de celles d’un entrepôt de données mais bâties sur le modèle de stockage du lac de données, moins coûteux.
Gouverner ses ressources de bout en bout
Encore faut-il adopter une conduite des ressources analytiques de bout en bout, recommande-t-il : « Notre travail consiste à permettre aux métiers, aux développeurs et aux experts de la donnée de pouvoir exprimer leur logique de calcul ou de décision, quel que soit le langage, sur une couche d’infrastructure aussi abstraite que possible. C’est à notre plateforme de choisir la meilleure VM, les meilleurs CPU et disques pour faire tourner cette logique le plus efficacement et à moindre coût. »
De fait, dans le cas de Michelin, le Corporate Data Lake exécute les applications d’analyse de données proches du temps réel, où qu’elles résident, sur une infrastructure composée de clusters Azure.
Parmi les clouds partenaires de Databricks, on retrouve Microsoft, AWS et Google, les trois géants ayant choisi d’investir dans l’éditeur de San Francisco, lors de son dernier tour de table. Sans doute pas un hasard.