ExpertiseInside Luckycart

Data engineer, analyst et scientist : les 3 rôles clés

11 minutes

Julien Guitard,  VP Engineering & Science et son équipe Data chez Lucky cart. 13.09.2022

Concept d’IA, apprentissage profond. Apprentissage automatique

L’équipe data de Lucky cart est composée d’une douzaine de personnes, 1/3 pour chaque fonction : data scientist.e.s, data ingénieur.e.s et data analystes et elle a pour but de concevoir, développer, opérer et entretenir l’usine algorithmique de notre solution.

Cette usine algorithmique fournit en permanence à notre API (Interface de programmation d’application) tous les éléments (chiffres, paramètres, règles) pour proposer des solutions de promotions qui soient personnalisées, mesurées et optimisées vis-à-vis d’un critère business.

La mission de la data et son positionnement au sein de Lucky cart

Ces éléments chiffrés sont par nature complexes à déterminer car nous travaillons avec une triple exigence :
> Mesurer de manière scientifique l’effet de nos activations, sans confondre corrélation et causalité (par exemple en déterminant si une augmentation des ventes est liée à nous ou si elle aurait eu lieu de toute façon).

> Travailler au niveau de l’individu et non pas au segment et cela sans données sociodémographiques que nous ne collectons pas.

> Être efficace mais garder une part d’interprétabilité pour nous-même et nos clients dans une logique ‘whitebox’, qui combine la puissance prédictive d’algorithmes ‘blackbox’ avec cette interprétabilité (ce concept rejoint le concept d’IA de confiance).

Cette mission nous pousse à travailler en interaction permanente avec les équipes Produit et Tech, puisque nous développons la partie quantitative de la solution tout en nous en distinguant :
> Par l’utilisation intensive de mathématiques appliquées (c’est là que l’on trouve la data science et l’IA) et d’économie en plus de l’informatique traditionnelle.

> Par une adaptation de la méthode agile au caractère plus exploratoire de la méthode agile : on s’autorise notamment à investiguer plusieurs pistes de recherche pour un même besoin car il y a une incertitude fondamentale sur ce qui va aboutir, et on distingue ce qui est utilisable (qui répond au besoin comme du code) de ce qui est innovant (qui répond en besoin en apportant aussi des propriétés inédites).

De la data mais pas uniquement : garder la vue d’ensemble en termes business, scientifiques et technologiques

Concernant l’utilisation intensive de mathématiques appliquées et de la théorie économique, elles recouvre bien entendu ce que l’on appelle souvent la data science ou l’IA (apprentissage automatisée) mais plus généralement un certain nombre de techniques d’ingénierie au sens large du terme, par exemple de l’optimisation sous contrainte ou d’algèbres appliquées à l’informatique.

Cette curiosité s’applique aussi à nos outils et nos méthodes technologiques : les plateformes, les frameworks, les langages et systèmes de bases de données bien sûr, mais aussi la façon de penser l’information et la donnée. Nous avons par exemple été amené à emprunter des éléments de la théorie et des pratiques issus des systèmes experts dans nos algorithmes qui sont par ailleurs construits sur une stack de data science comme présenté plus haut.

Enfin cette curiosité va aussi avec un nécessaire sens de la pédagogie et un sens critique à la fois dans l’équipe, chez Lucky cart et bien entendu vis à vis de nos clients. Aucune zone d’ombre ne doit subsister et aucune idée communément admise ne doit être considérée comme vraie par défaut.

Ces trois éléments (champ scientifique large, ouverture technologique et pédagogie ou sens critique) font précisément de notre mission une mission d’ingénierie : concevoir, développer et opérer une technologie en répondant aux besoins, et en se pliant aux contraintes, de nos clients et de nos utilisateurs.

Le périmètre des missions, des rôles et des compétences de chaque membre de l’équipe est donc bien plus large que simplement la data.

Les 3 rôles – Les data scientist.e.s

Les data scientist.e.s ont pour rôle la conception, le développement, l’entraînement et l’évaluation des modèles mathématiques ou des algorithmes d’apprentissage automatique. Elles possèdent une expertise dans les domaines de la statistique ainsi que du machine learning (incluant l’apprentissage profond ou Deep Learning), et le recul nécessaire pour analyser ces résultats et proposer des axes d’amélioration.

Pour mettre en place des modèles prédictifs robustes, offrant un niveau de performances accru sur des grandes masses de données, les data scientist.e.s doivent : 
> Définir quelles sont les meilleures métriques pour optimiser et évaluer le modèle.

> Déterminer (ou adapter) les modèles les plus prometteurs selon le type, la forme et les propriétés des données.

> Créer et tester différentes variables explicatives également connu sous le terme de feature engineering.

> Trouver les meilleurs hyperparamètres permettant d’optimiser les performances des modèles.

> Une fois les modèles validés, ces derniers peuvent alors être mis en production au sein de la plateforme cloud de l’entreprise avec l’aide des data ingénieur.e.s.

Les applications de ces modèles sont multiples, allant de la recherche opérationnelle, évoquée plus haut, à la détection de la fraude, en passant par les systèmes de recommandation.

Les data scientist.e.s sont également garant de la veille scientifique concernant l’état de l’art des méthodes afin de permettre à l’entreprise de proposer des fonctionnalités à la pointe des connaissances scientifiques.

Les 3 rôles – Les data analystes

Les data analystes font le lien entre les sujets quantitatifs traités par la data et les sujets business travaillés par notre équipe de Business Insight.

Les données traitées automatiquement viennent nourrir notre API en optimisant sa performance et en personnalisant l’expérience shopper mais n’apportent pas d’interprétation business exploitable par des humains. C’est ainsi aux data analystes qu’il incombe de faire parler la donnée.

Pour cela, ils doivent d’abord recueillir et reformuler en termes techniques les besoins des autres équipes (commerciale, marketing, finance) via l’équipe Business Insight, notamment par la définition d’indicateurs de performance ou d’analyse.. Besoin en main, ils extraient, nettoient, explorent, interprètent et présentent leurs conclusions à cette même équipe.

Ils travaillent sur des volumes importants de données complexes (des centaines de téraoctets, soit plusieurs dizaines de milliards d’enregistrements), avec une responsabilité sur la qualité des chiffres présentés. Les rapports des data analystes sont utilisés pour faciliter la prise de décision, dégager des observations business et définir les stratégies marketing les plus adaptées. Les présentations des data analystes ont donc souvent de fortes implications, il est donc impératif qu’en plus de leurs compétences techniques, ils possèdent de solides compétences en communication.

Les data analystes travaillent aussi en coordination avec les data ingénieur.e.s, il s’occupe de la vérification et du nettoyage des données. Ils sont donc garant de la qualité et de la cohérence des données ingérées dans les bases de données de l’entreprise. Ils peuvent aussi participer aux tâches de data science, notamment dans la partie features engineering : leurs connaissances en termes de nettoyage et de traitement de données vont permettre une construction des features de manière propre et complète, ce qui facilitera par la suite le travail des data scientist.e.s.

Les 3 rôles – Les data ingénieur.e.s

Les data ingénieur.e.s sont responsables de l’opérationnalisation de notre usine algorithmique en termes de :
> Gestion des sources, qualité de la donnée et disponibilité des flux : la donnée est généralement récupérée dans des environnements variés et éloignés de l’équipe data (sites ou applications marchandes des distributeurs, base de données de produits ou encore des données géolocalisées). Chaque source nécessite des traitements différents, que cela soit en termes de standardisation/normalisation, nettoyage, mise à disposition et documentation. Cette partie peut se faire étroitement avec les data analystes qui vont signaler des axes d’amélioration du flux.

> ccessibilité à la puissance de calcul nécessaire au traitement de la donnée et l’entraînement de modèle. Rendre la donnée disponible est une chose, la rendre requêtable efficacement en est une autre. Pour cela, les data ingénieur.e.s peuvent s’appuyer sur des technologies Cloud ou internes. L’hébergement des données afin que les calculs soient réalisables dans la minute par n’importe quel collaborateur est un sujet récurrent. Mais certaines configurations sont plus complexes. Des clusters puissants pour mettre en place un entraînement de modèle en parallèle via un notebook de façon totalement transparente pour un data scientist par exemple.

> Production de prédiction et d’application à destination de notre API et d’autres équipes de Lucky cart : les data ingénieur.e.s sont l’interface de l’équipe data avec les développeurs ainsi que le produit. Ce sont eux qui vont développer pour automatiser et industrialiser les applications data. Un graphique souvent produit par les data analystes pourrait se rendre disponible automatiquement sur une interface web. Un modèle performant développé par les data scientist.e.s devra probablement prédire régulièrement et avoir un impact en production, entraînant des questions d’interfaçage dev/data et de passage à l’échelle.

Travailler ensemble

Si les différences entre les 3 rôles dans leurs descriptions et les compétences requises sont nettes, une culture commune et des interactions entre chacun des rôles sont nécessaires.

Tout d’abord, nous avons construit une ambition et une culture commune :
> L’ambition de construire l’usine algorithmique évoquée plus haut dans un contexte où cette innovation permet à Lucky cart de façonner les habitudes et les marchés d’une industrie clé et sous tension de nos économies : la distribution alimentaire et de biens de consommation courante.

> La culture scientifique et technologique et de curiosité ou le sens critique dont nous avons déjà parlé aussi.

Ces deux facteurs communs nous permettent justement de bien travailler ensemble et de s’assurer que chacun prenne en compte les objectifs et les contraintes de l’autre :
> Les data scientist.e.s en pensant dès la conception au passage à l’échelle des méthodes mathématiques qu’ils développent afin de préparer au mieux le travail des data ingénieur.e.s.

> Les data ingénieur.e.s en créant l’environnement de calcul le plus adapté au développements scientifiques des data scientist.e.s et aux objectifs business portés par les data analystes.

> Les data analystes et la data scientist.e.s en partageant le même schéma de données et la même vision métier si bien que les modèles des seconds sont le prolongement naturel des indicateurs des premiers et que ces modèles puissent s’étendre naturellement à tout nouvel indicateur.

Cette culture commune et le bon équilibre entre les rôles repose aussi sur les Chief Data Officer qui doivent s’assurer que de telles conditions sont bien réunies, montrer l’exemple (par exemple les CDO issu.e.s de la data science devront faire particulière attention aux data ingénieur.e.s et aux data analystes) et sans cesse coacher les collaborateurs pour garantir le succès de l’équipe et l’épanouissement de chacun.

Au-delà des titres et des modes, notre expérience nous pousse à penser que la construction, le développement et les succès d’une équipe data se fondent sur une prise de hauteur sur les objectifs commerciaux, les enjeux technologiques et les méthodes scientifiques ainsi que le respect d’équilibre entre l’attention respective apportée à chacune de ces trois dimensions (commerce, technologie, science) et ce qui en découle pour les talents de l’équipe, dans leurs rôles respectifs.

CONTACTEZ-NOUS

Plus d’articles