Tribune
Comme dans le film «Un jour sans fin», les entreprises doivent résister à la tentation de collecter plus de données et revenir à sa proportionnalité entre la collecte et son utilisation raisonnée.

Dans le film «Un jour sans fin» («Groundhog Day», en anglais), Phil Connors, interprété par Bill Murray, est un présentateur météo bloqué dans une boucle temporelle, le Jour de la Marmotte (la Chandeleur). Il est donc obligé de revivre indéfiniment la même journée. Et ce, jusqu’à ce qu’il fasse un certain nombre d’actions et séduise la ravissante Andrew Mc Dowell. Il aura besoin de 12 000 jours pour trouver la solution.

Son défi, c’est de trouver la bonne combinaison d’actions à faire en 24 heures. Le problème de Bill Murray est en fait un problème complexe réputé en informatique : le problème du commis voyageur. Étant donné une liste de villes, des distances entre elles, comment déterminer un plus court chemin qui visite chaque ville une et une seule fois, et qui termine dans la ville de départ ? Bill Murray, c’est un voyageur de commerce cinématographique qui doit trouver la bonne combinaison d’actions à faire en moins d’une journée. Et il faut environ 70 actions, soit une complexité de 10^100 combinaisons potentielles. Avec la puissance des ordinateurs actuels, le temps de calcul dépasserait l'âge de l'Univers. Autant dire que la tâche est impossible.

Alors comment fait Bill Murray ? Il fait comme vous et moi tous les jours, il applique des algorithmes mathématiques connus et réputés ; il teste, expérimente, collecte des expériences et des données d’apprentissages.

Sur-apprentissage et overdose de données

Le premier algorithme qu’il utilise est le hasard. En informatique, on appelle cela l’algorithme randomisé, qui constitue parfois une manière efficace de résoudre des problèmes très complexes. Murray tente des idées saugrenues, y compris le suicide. Mais ça ne marche pas. Le deuxième algorithme est le Hill Climbing, un algorithme itératif qui démarre arbitrairement et cherche de façon incrémentale une meilleure solution. Murray opère des actions bienveillantes (aider une vieille personne à retrouver son chemin, éviter un accident…) qui maximisent la fonction du bien social. S’il s’améliore en permanence (ses algorithmes sont de plus en plus complexes puisqu’il colle à la seconde près à tous les faits de la journée vu qu’il les a déjà vécus des milliers de fois), il devrait parvenir à séduire la belle McDowell et donc trouver la solution ? Pas du tout.

Bill Murray se retrouve en plein sur-apprentissage et overdose de données. En fait, il aide tout le monde, sculpte sur glace, apprend l’italien, mais ne prête plus attention aux bonnes données… En statistique, le sur-apprentissage est une prédiction qui correspond trop exactement à un ensemble de données et ne parvient plus à intégrer des données supplémentaires pour envisager correctement le futur. De par sa trop grande confiance à stocker des informations, un modèle en sur-apprentissage ne pourra généraliser les caractéristiques des données sur d’autres environnements. L’algorithme perd alors paradoxalement ses pouvoirs de prédiction sur de nouveaux échantillons. Cela peut sembler contre-intuitif mais une entreprise qui écouterait trop ses clients actuels pourrait ignorer ses futurs clients aux attentes bien différentes. Et dans notre monde digital alimenté par ces données numériques, nous faisons peut-être trop attention aux données que nous avons collectées en ignorant les masses de données que nous ne possédons pas.

Revenir à la juste mesure de la donnée

La leçon est claire : il ne faut pas succomber à l’idolâtrie de la data. L’enjeu est de regarder au-delà des données et d’avoir une vue globale sur le problème : ne pas attendre les calculs de la machine mais se poser les bonnes questions sur la nature des données. En mathématiques statistiques, on appelle cela régulariser, rajouter des informations qui prennent généralement la forme d’une pénalité envers la complexité du modèle, pénaliser les valeurs extrêmes, ajouter du bruit ou du hasard dans un jeu de données. Mais aussi se poser les bonnes questions métiers pour éviter de collecter systématiquement des données qui ne seraient pas pertinentes parce qu’on aurait la possibilité technique ou réglementaire de les collecter...

L’efficacité de la régularisation nous suggère que nous prenons de bien meilleures décisions en réfléchissant délibérément moins. On a peut-être oublié que dans le digital, ce n’est pas parce qu’on peut collecter qu’on doit systématiquement le faire. Il s’agit de revenir à la juste mesure de la donnée, de sa proportionnalité entre la collecte et son utilisation raisonnée.

La simplicité du digital et donc son efficacité, c’est de résister à la tentation de collecter plus, et de pénaliser sciemment la complexité. C’est cela l’intuition digitale, la réintroduction jusque dans nos algorithmes d’une forme de parcimonie. Face à la tentation de se laisser aller à la déduction par les données numériques, retrouvons notre logique inductive. En fait, comme Bill Murray dans «Un jour sans fin». A l’issue de ces 12 000 journées déductives, il se résout à ne plus tenter de tout contrôler, de lâcher prise. Et une journée parfaite plus tard, il séduit enfin McDowell. Et la boucle temporelle est brisée. 

Suivez dans Mon Stratégies les thématiques associées.

Vous pouvez sélectionner un tag en cliquant sur le drapeau.