Expertise

Pourquoi l’A/B test est-il particulièrement pertinent pour le E-Retail Media ?

8 minutes

Alexandra Caillet, Head of Business Insights and Measurement chez Lucky cart. 17.06.2022

E-Retail Media

Sur un marché en plein boom avec un nombre croissant de campagnes menées sur les sites e-Commerce de la grande distribution française, l’importance de la mesure de la performance des différentes campagnes est clé pour évaluer l’efficacité et surtout, la rentabilité de l’investissement réalisé.

Pour mesurer la performance d’une campagne menée, différentes méthodes existent, en particulier sur ce marché : la comparaison de périodes et l’A/B test étant les deux mesures les plus utilisées.

La méthode des comparaisons de périodes dans l’A/B test

La comparaison de périodes consiste à regarder les chiffres observés sur la période de la campagne, et de les comparer avec une autre période, qui sert de référence. La période de comparaison utilisée peut varier entre différentes options : période précédant la campagne de la même durée que la campagne ; période de campagne sur l’année passée ; observation sur une durée plus longue et moyennisée pour lisser d’éventuels effets de fluctuations…

Le principal biais avec cette méthode est lié au fait que l’on compare potentiellement des événements non comparables entre eux. Non comparables car les deux périodes comparées et analysées peuvent inclure des effets non identifiables et non isolables statistiquement (par exemple : effets promotionnels, saisonnalité des produits, pression média, voire simplement la distribution…). Cette méthode peut donc donner quelques éléments d’explication sur des variations liées à la campagne, mais reste limitante si l’on souhaite pousser l’exercice plus loin. En effet, la méthode permet d’identifier des pistes sur les possibles hypothèses explicatives, mais ne permet pas concrètement d’isoler les faits spécifiquement et directement liés à la campagne en elle-même.

Si on prend un exemple illustratif concret : dans le cadre des différents confinements liés au Covid et au boom sur le Drive qui en a résulté, on comprend rapidement que la comparaison de périodes introduit un biais important non négligeable dans les variations observées. La période spécifique de la Covid est un exemple parmi tant d’autres, mais on peut tout à fait avoir des périodes dans lesquelles il y a eu des variations exogènes. Autant d’éléments dont la mesure reste difficile à évaluer si l’on se cantonne à cette simple comparaison.

La méthode de l’A/B test

Reste donc à explorer la piste de la mesure de performance via la méthode de l’AB test.

Quand on cherche la définition de ce à quoi correspond la méthode de l’A/B test on trouve l’explication suivante : « Le test A/B est une technique de marketing qui consiste à proposer plusieurs variantes d’un même objet qui diffèrent selon un seul critère afin de déterminer la version qui donne les meilleurs résultats auprès des consommateurs » (source Wikipédia). Au-delà de la mesure utilisée dans un cadre purement marketing, il s’agit également d’une méthode utilisée dans un spectre plus large, avec une véritable caution scientifique, et ce, depuis de nombreuses années. Il s’agit entre autres de la méthode qui se cache derrière le fameux “effet placebo” lors de tests scientifiques, car il permet d’affirmer que toute chose est égale par ailleurs.

Concrètement, comment cela se traduit-il dans la pratique et quelles sont les implications, notamment sur le marché spécifique du E-Retail Media ?

Si l’on se réfère uniquement à la définition marketing et littéraire de l’A/B test, et que nous l’appliquons au marché du E-Retail Media, on se rend rapidement compte que la « variante » utilisée correspond au fait d’exposer ou de ne pas exposer un shopper sur une campagne donnée. Le « même objet » étant ici la campagne que l’on active durant une certaine période de temps donnée. La principale différence avec la méthode décrite précédemment, est que dans ce cadre là, on va pouvoir comparer des éléments au sein d’une seule et même période.

Ceci étant dit, et quand on se penche davantage sur les implications statistiques de cette méthode d’exposés/non-exposés, cette exposition aléatoire peut introduire des biais au moment d’analyser les résultats remontés après la campagne. En effet, il est tout à fait possible que les différences observées entre les deux populations étudiées ne soient pas directement liées au fait d’avoir été exposé ou non à la campagne. Cela peut venir du fait que les deux populations avaient initialement des comportements complètement différents au départ. En outre, le choix fait entre les acheteurs que l’on choisit d’exposer ou non, est réalisé tel un “tirage au sort”, et donc ne prend en aucun cas en considération les différences entre ces acheteurs en amont. Si par exemple, on choisit de ne pas exposer 5% des shoppers, on se rend rapidement compte que cet échantillon n’est pas significatif pour représenter un benchmark de comparaison solide, avec l’ensemble des biais que cela induit. Cet aspect de significativité est principalement porté par l’introduction d’une différence entre les consommateurs qui n’est pas maîtrisée en amont de la sélection.

Ainsi, pour réussir à avoir une méthode d’A/B test la plus fiable et la moins biaisée, il faut que ces populations exposées ou non soient les plus similaires possibles, et ce, dans le temps. Pourquoi ? Dans le but d’éviter du bruit statistique non maîtrisé et ainsi avoir des résultats qui soient effectivement les plus comparables et similaires après la campagne, pour mesurer au plus près l’impact de cette dernière.

L’utilisation d’un A/B test poussé chez Lucky cart

Dans ce cadre, comment Lucky cart exploite les sources de données auxquelles elle a accès pour déterminer ces populations ?

L’approche définie est d’utiliser l’historique d’achats, sur la base des tickets de caisse remontés par les Drives partenaires, pour chacune des populations auxquelles on va exposer ou non la campagne.

Pourquoi cet historique permet d’éliminer une partie très significative des biais ?

Les achats passés effectués par chacune des populations permettent de déterminer en amont si les comportements sont similaires ou non. Le fait que les populations identifiées soient les plus proches possibles en termes de consommation, en amont de la campagne, permet en effet de justifier si un écart est ensuite observé auprès de la population qui a été exposée à la campagne. On s’attache donc à avoir des profils jumeaux, car leur comportement d’achats a été identifié comme identique en centième de centimes près. Un historique d’achats identique, à la fois sur les références mises en avant durant la campagne, mais également sur un cadre plus large en termes d’achats catégoriels par exemple. Des tests et calage statistiques sont ensuite opérés afin de s’assurer que leurs comportements sont effectivement restés identiques sur la longueur, et ne soient pas simplement le fruit du hasard à un instant T.

Puisqu’au départ les deux groupes avaient des comportements d’achats identiques, si on observe une différence dans les achats après l’exposition à la campagne, on peut statistiquement dire que le fait d’avoir été exposé a eu une réelle influence, solidement mesurée, par rapport au fait de ne pas avoir été exposé.

Pour correspondre aux besoins du Machine Learning

Dans ce cadre là, on mesure l’importance du niveau de qualité de la donnée remontée. L’utilisation de l’historique d’achats est la clé de voûte pour éliminer les biais. Avec cet accès aux données d’achats des shoppers, on peut faire varier le spectre des possibles dans un champ large. On peut en effet jouer sur des paramètres hyper spécifiques, avec de la personnalisation au niveau de l’individu lui-même, jusqu’à un effet de masse beaucoup plus large, car l’on peut s’adresser à une audience massive.

Les possibilités très puissantes de variations d’échelle sont rendues possibles grâce au processus itératif basé sur du machine learning, créé et développé par les équipes Data de Lucky cart.

Par conséquent, plus la qualité de la donnée à laquelle nous avons accès est élevée, plus l’apprentissage et la réduction des biais seront bonnes. Ce sont tous ces éléments mis ensemble qui vont rendre le machine learning efficace et efficient, et in fine, la mesure de la performance la plus précise et fiable possible.

CONTACTEZ-NOUS

Plus d’articles