»Toute la beauté des données«
BI-Spektrum s’est entretenu avec Jörg Vogler, Associé de TOLERANT Software, sur la manière de saisir et d’entretenir les données de manière qualitative afin qu’elles puissent être bien utilisées pour l’analytique et l’intelligence artificielle, ainsi que sur ce que certaines entreprises américaines ont de plus que les nôtres.
L’interview a été réalisée par Christoph Witte, rédacteur en chef de BI-Spektrum.
BI-Spektrum: Les entreprises sont plus avides de données que jamais. La Business Intelligence et l’Analytics ont besoin de données exploitables et les applications d’intelligence artificielle demandent elles aussi toujours plus de données. Les entreprises peuvent-elles vraiment assouvir cette soif de données ?
Vogler: Elles peuvent l’assouvir si elles font preuve de discipline dans la collecte des données. Il est vraiment important que les entreprises veillent à la qualité et à l’exhaustivité des données dès leur collecte. Si ces critères sont remplis et que la collecte des données est légale, il est possible d’assouvir cette soif de données. Cela signifie que dès les premiers contacts avec les clients, les obligations d’information correspondantes sont respectées à leur égard, afin que les données que l’on aimerait utiliser puissent l’être. C’est le deuxième grand chantier que nous voyons. Les entreprises partent trop souvent implicitement du principe que leurs données sont correctement saisies, que les champs de données sont correctement remplis. Elles remarquent souvent trop tard – par exemple lorsque les données sont mises à la disposition d’une application analytique ou qu’elles doivent alimenter une IA – que les champs ne sont pas correctement remplis, que les données présentent des lacunes ou des incohérences.
BI-Spektrum: Pourquoi la qualité de la saisie est-elle si importante ?
Vogler: Les entreprises collectent souvent les données afin de pouvoir s’adresser correctement aux clients, et pas seulement pour évaluer les données par la suite. Si les données ne sont pas correctement saisies, je ne peux pas m’adresser correctement au client et je ne sais pas à quel groupe cible il appartient. En outre, la qualité est importante lorsque des informations sur les clients provenant de différentes sources sont rassemblées. Pour cela aussi, j’ai besoin de caractéristiques fiables. Celles-ci existent déjà depuis des années et sont soutenues par exemple par le Master Data Record Management. Mais nous constatons toujours des écarts considérables entre l’idéal et la réalité.
BI-Spektrum: Le thème de la qualité des données est problématisé depuis que l’informatique existe. Pourquoi ne parvient-on pas à maîtriser ce sujet ?
Vogler: D’une part, il existe de très bonnes approches, connues depuis longtemps, comme le Data Steward. Mais les processus de gestion de la qualité des données sont malheureusement encore relégués au second plan dans de nombreuses entreprises. C’est perçu comme une corvée, d’autant plus que le travail est de plus en plus condensé. Un commercial qui s’occupe en fait des clients gère la saisie des données de manière à ce que cela suffise tout juste et ne lui prenne pas trop de temps. Mais nous avons aussi des clients qui vivent de et avec des données, des agences de crédit par exemple. Ils maîtrisent leurs données. Ils disposent des points de mesure appropriés pour vérifier la qualité des données entrantes, ils ont des routines de règles pour remédier aux faiblesses et ils investissent beaucoup dans le suivi et le diagnostic. Toutefois, nous constatons depuis peu que la qualité des données est devenue un sujet plus important en raison de la protection des données. Cela peut paraître surprenant, mais c’est lié au devoir d’attention des entreprises vis-à-vis des données. Ce n’est que lorsque les données sont correctement saisies et que j’ai obtenu les autorisations nécessaires qu’elles peuvent être utilisées correctement. Mais dans l’ensemble, on constate que la qualité des données n’est pas encore suffisamment prise en charge par le système et que les processus correspondants ne sont pas encore appliqués de manière cohérente.
BI-Spektrum: Mais au vu du manque de qualité des données, vous devez avoir de la peine pour les personnes qui doivent veiller à ce que les entreprises prennent des décisions basées sur les données et soient globalement plus axées sur les données.
Vogler: En tant que professionnels de la qualité des données, nous essayons bien sûr d’aider les entreprises. Pour ce faire, nous devons également agir en tant que catalyseur pour la communication interdépartementale, surtout entre l’informatique, qui doit mettre à disposition les systèmes correspondants, et les départements spécialisés qui veulent travailler avec les données. À cela s’ajoutent les directives de protection des données et de conformité qui définissent ce qui peut être fait avec les données.
BI-Spektrum: Ne vous surestimez-vous pas si, en tant que fournisseur d’outils de qualité de données, vous voulez aussi vous occuper de la communication? C’est en fait un tout autre sujet.
Vogler: Bien sûr, nous ne nous occupons pas des processus de communication eux-mêmes. Mais nous aidons à faire prendre conscience de ce qui est possible et de ce qui ne l’est pas – par exemple lorsqu’une initiative d’IA est lancée dans l’entreprise et que l’on demande au service informatique de mettre en place un modèle d’IA. Ils le font, mais constatent très vite que les données sont ce qu’elles sont. C’est là que nous pouvons aider à assurer la transparence, à faire comprendre pourquoi il manque des données et à vérifier la qualité des données existantes, à expliquer comment améliorer les données existantes et comment accéder à celles qui manquent encore. Nous apportons ainsi un peu plus de réalisme dans les entreprises. Souvent, les cadres supérieurs ne sont pas du tout conscients de l’importance de la qualité des données.
BI-Spektrum: Les entreprises pourraient donc profiter davantage de l’IA si les données étaient plus propres ?
Vogler: Oui, surtout si elles maîtrisaient leurs processus d’entrée de données. Il existe des exemples d’entreprises informatiques américaines qui sont dans ce cas. On peut bien sûr faire quelque chose pour améliorer la qualité des données a posteriori, mais pour pouvoir vraiment exploiter les potentiels, comme cela se fait en partie aux États-Unis, il faut améliorer la qualité de l’entrée. La structure historique des systèmes informatiques dans les entreprises, avec leurs différents modèles de données, leurs beautés et leurs faiblesses, ne facilite pas non plus forcément la tâche.
BI-Spektrum: Pourquoi les Américains sont-ils bien meilleurs dans ce domaine ?
Vogler: Les grands modèles comme Google ou Amazon ont justement l’avantage évident de disposer de toutes les données clients au même endroit, dans un environnement relativement homogène. D’une part, ils n’ont pas la problématique des anciens systèmes et ils se sont dotés d’une architecture de service très claire avec des points de transfert bien définis où ils reçoivent proprement les données dans leur main. En outre, ils ont compris bien plus tôt le rôle central des données et leur valeur. Les grandes entreprises américaines ont développé très tôt cette compréhension, y compris en ce qui concerne la valeur des « données accessoires ».
BI-Spektrum: Des données accessoires ??
Vogler: On entend par là les données d’utilisation qui sont générées lors de l’utilisation de systèmes et d’appareils. Lorsque vous lisez un livre électronique, par exemple, on note les pages que vous avez déjà lues, où vous vous êtes arrêté en dernier et à quelle vitesse vous lisez. Ces informations permettent d’une part de tirer des conclusions sur le comportement du lecteur, mais aussi d’optimiser le livre électronique lui-même et de donner des conseils aux autres lecteurs. Les Américains ont remarqué très tôt à quel point de telles données pouvaient être précieuses. Les données sur la taille du marché et les prix, les produits demandés et les comportements d’achat qu’Amazon obtient simplement en ouvrant sa plate-forme à d’autres commerçants sont extrêmement précieuses.
BI-Spektrum: La qualité élevée des données d’Amazon ne s’explique-t-elle pas aussi par le fait que ce ne sont pas les employés qui doivent s’acquitter de cette tâche fastidieuse qu’est la saisie des données, mais les clients qui le font eux-mêmes ?
Vogler: En partie, mais ils ont aussi des routines de contrôle très ordonnées en arrière-plan et savent exactement ce qu’ils peuvent demander à leurs clients. En outre, elles ne vérifient pas seulement les données automatiquement, mais les ensembles de données suspects sont également vérifiés par des personnes, et c’est dans cette combinaison d’automatisation et de vérification humaine que réside une grande force de ces entreprises. Cela vaut aussi pour les outils que nous proposons. Ils trouvent certes beaucoup de choses, mais ils ne deviennent parfaits que lorsqu’ils sont associés à une vérification humaine.
BI-Spektrum: Vous avez mentionné la possibilité de réparer des données saisies de manière erronée ou lacunaire. Qu’est-ce qui est possible ?
Vogler: Nous avons bien sûr des possibilités en ce qui concerne l’occupation des champs de données, l’harmonisation des données de base comme le numéro de téléphone, l’e-mail, etc. On peut bien sûr veiller à standardiser la saisie, on peut vérifier sémantiquement si, par exemple, les noms sont inscrits dans les bons champs, si les sexes sont correctement indiqués ou autre chose. On peut déjà lisser beaucoup de choses automatiquement. Nous pouvons vérifier les déménagements ou corriger beaucoup de choses dans l’environnement des entreprises, car nous avons de nombreuses références externes. Nous proposons en outre la détection et l’élimination des doublons. La difficulté ne réside pas tant dans la détection que dans la fusion avec les historiques de commande correspondants. Nous pouvons donc vérifier les champs de données, nous pouvons compléter les données et nous pouvons tester leur actualité. En outre, nous pouvons valider des ensembles de données pour nos clients.
BI-Spektrum: Donnez encore trois conseils aux entreprises qui veulent avoir des données propres.
Vogler: C’est en fait comme chez le médecin : il faut d’abord établir un diagnostic, je dois proposer des mesures de traitement et je dois pouvoir dire comment éviter à l’avenir les « maladies des données », c’est-à-dire faire des propositions de prévention. En outre, je dois ancrer un principe important dans l’entreprise : toute la beauté des données n’est possible que si elles sont correctement gérées.
L’interview est parue dans le magazine BI-Spektrum, numéro 3/2019, p. 30-32.