Comment une demi-pomme devient une pomme entière

Podcast avec Stefan Sedlacek, directeur de TOLERANT Software

Dans une interview podcast, Stefan Sedlacek, directeur de TOLERANT Software, a révélé le fonctionnement de la recherche tolérante aux pannes dans les outils de qualité des données et la technologie qui la sous-tend. L’interview podcast a été réalisée par Ashley Steele. Vous pouvez écouter le podcast en allemand ici.

Ashley Steele : TOLERANT Software – une entreprise bien établie avec une vision claire. Adressez-vous correctement aux bons clients. L’assurance qualité des données clients est l’activité principale de TOLERANT Software. Actuellement, le thème de l' »intelligence artificielle » est très actuel et fait souvent l’objet de discussions. Mais qu’est-ce que l’intelligence artificielle ? Quelles sont les technologies utilisées ? Et quelles sont les chances et les risques ? Le directeur général Stefan Sedlacek nous donne aujourd’hui un aperçu de ce sujet et nous explique comment et depuis quand TOLERANT Software utilise l’intelligence artificielle pour résoudre la problématique de la qualité des données clients.

Ashley Steele : Bonjour Stefan, comment vas-tu aujourd’hui ?

Stefan Sedlacek : Bonjour Ashley. Je vous remercie beaucoup. Je vais très bien. Merci.

Ashley Steele : Je suis ravie. C’est un thème très intéressant que nous avons choisi aujourd’hui.

Stefan Sedlacek : Oh, oui, je le pense aussi.

Ashley Steele : D’une part, le thème de l’intelligence artificielle en général, comme je l’ai dit dans l’intro. C’est très actuel en ce moment. On en parle souvent. Et puis d’un autre côté, TOLERANT Match, la qualité des données clients et l’utilisation de l’intelligence artificielle dans vos produits. C’est donc un sujet vaste et passionnant. Mais commençons d’abord par le thème de l’intelligence artificielle en général. Quelles sont les motivations dans le cadre de l’intelligence artificielle ? Que se passe-t-il actuellement et qu’est-ce qui se cache derrière l’engouement actuel pour l’intelligence artificielle ?

Stefan Sedlacek : Oui, qu’est-ce qui motive les gens dans le cadre de l’IA ? C’est une bonne question. Je pense que le sujet ne fait bouger les gens que depuis quelques années. Le développement existe en effet depuis plus longtemps. Mais au début, cela n’intéressait pas grand monde, parce qu’au début, les développements se faisaient encore dans le domaine de la recherche et dans le domaine académique. Depuis relativement peu de temps, disons depuis trois ou quatre ans, les applications ont quitté le domaine de la recherche et sont devenues accessibles à un public plus large. Je citerais par exemple DeepL. Tout le monde connaît cet outil de traduction, je crois. Le fait que l’on dispose d’un moteur de traduction qui fonctionne bien mieux que ce que Google a mis à disposition a déjà fait sensation.

Ashley Steele : Et ChatGPT est l’autre mot-clé ou l’application qui est relativement nouvelle sur le marché et qui est utilisée par un large public.

Stefan Sedlacek : Exactement. Depuis environ un an, il y a vraiment des applications encore plus intéressantes, comme ChatGPT, comme tu l’as déjà dit. Une machine qui peut répondre à des questions comme un être humain. Cela éveille naturellement la curiosité des gens. Ou encore des générateurs d’images qui peuvent créer des images artistiques à partir d’un texte de description. Aujourd’hui, il n’est plus nécessaire d’avoir des « compétences » particulières pour produire de belles images. Il suffit de quelques mots et de connaissances en matière d’IA pour obtenir de très bons résultats.

Ashley Steele : C’est impressionnant ce que l’on voit dans ce domaine.

Stefan Sedlacek : Oui, c’est extrêmement impressionnant. Et les gens se demandent naturellement jusqu’où cela peut aller. Dans quelle mesure puis-je en profiter personnellement ? Quels sont les risques pour moi et mon entourage ?

Ashley Steele : Oui, j’allais justement poser la question. D’un côté, il s’agit de générer une image, par exemple une colline avec des fleurs et un cheval. Et cela est ensuite généré. Ou bien on donne à ChatGPT un texte ou un CV et il est ensuite amélioré. Ce sont des choses qui sont également utiles pour le consommateur lambda (si je peux m’exprimer ainsi). Ici, il s’agit précisément du point que tu as mentionné. Quels sont les dangers qui se cachent derrière l’intelligence artificielle ? Vais-je perdre mon emploi ? Y a-t-il un changement sur le marché du travail ? Ou y a-t-il d’autres dangers ?

Stefan Sedlacek : Je pense qu’on est encore en train d’évaluer les dangers. Il existe de nombreuses théories sur la perte d’emploi. Certaines études partent du principe que l’utilisation de l’IA et de la robotique peut automatiser de nombreux métiers et qu’il en résultera des pertes d’emploi importantes. On peut critiquer cela en disant qu’il s’agit de considérations essentiellement théoriques. Cela ne signifie pas nécessairement qu’il y aura vraiment une perte d’emploi par l’utilisation d’un nouvel outil. Cela peut aussi signifier qu’avec le nouvel outil, donc avec l’IA, on peut créer plus de travail en moins de temps. Et plus d’efficacité. L’efficacité de l’IA et la quantité de travail en volume sont indéterminées, cela ne veut pas dire qu’il doit y avoir une quantité finie de travail. Par conséquent, en ce qui concerne la question de la perte d’emploi, le risque est peut-être présent dans certains domaines, mais il ne faut pas surestimer ce risque.

Ashley Steele : Il y aura peut-être un changement, mais la question se pose alors : si l’on s’éloigne de ces dangers, quelles opportunités l’intelligence artificielle apporte-t-elle ? Quel changement y aura-t-il ?

Stefan Sedlacek : Oui, il faut bien sûr voir les opportunités derrière les nouveaux champs d’application que l’on peut ouvrir avec l’IA. En fait, la reconnaissance vocale et la synthèse vocale ne pourraient pas fonctionner aussi bien qu’elles le font actuellement sans la technologie de l’IA. Nous avons ici un tout nouveau champ d’application. En ce qui concerne la création d’images, l’IA m’aide personnellement en tant qu’artiste ou utilisateur, par exemple dans le domaine du prototypage. Cela n’existait pas encore il y a peu. L’IA est un outil formidable qui permet de produire des résultats rapidement et en peu de temps. On peut bien sûr aussi générer plus de chiffre d’affaires si l’on peut travailler plus rapidement.

Ashley Steele : Et cela s’inscrit aussi dans ce thème général de l’agilité et du prototypage et ainsi de suite. Essayer rapidement des choses. Demander le feedback des clients. Cela aide certainement dans ce domaine. Mais alors peut-être une question provocatrice de ma part. Ou deux questions. Nous connaissons notre forme de vie. L’IA peut-elle devenir une forme de vie ? L’IA peut-elle devenir intelligente ? L’IA peut-elle être plus intelligente que nous, les humains ? L’IA peut-elle mieux penser ? Ce danger existe-t-il ou non ?

Stefan Sedlacek : C’est vraiment une question passionnante. Si on lit effectivement les titres parfois dans les journaux, il y a aussi des gens qui mettent en garde contre le fait que l’IA peut se développer en une forme de vie. Pour l’instant, je dirais simplement que tout ce qui va dans ce sens, et toutes les réflexions qui vont dans ce sens, sont un peu du marketing. Même les déclarations des développeurs selon lesquelles l’IA peut être pire qu’une bombe atomique doivent à mon avis vraiment être considérées comme relevant du marketing. Les gens veulent nous faire savoir que ce qu’ils ont créé est tellement génial que tout le monde devrait vraiment y jeter un coup d’œil et y jeter un coup d’œil. En me basant sur la technologie actuelle, je dirais qu’une IA ne peut pas évoluer vers une forme de vie.

Ashley Steele : Je n’ai donc pas besoin d’avoir peur pour le moment.

Stefan Sedlacek : Non, n’ayez pas peur. Un outil aussi typique que ChatGPT est toujours déclenché de l’extérieur avant d’arriver à un résultat. ChatGPT fonctionne donc de manière très déterministe et ne s’autoréfléchit pas. On pourrait bien sûr réfléchir à la possibilité de doter un tel modèle linguistique de fonctions autoréflexives, de sorte qu’il s’interroge, s’élargisse et s’améliore. Cela a déjà été fait en partie, mais même de telles fonctions n’insuffleraient pas de conscience à un réseau neuronal comme ChatGPT.

Ashley Steele : Laisse-moi m’arrêter un instant sur ce point, s’il te plaît. Tu as mentionné quelques mots-clés, comme ChatGPT. Tu as parlé de modèles linguistiques. Et tu as parlé de réseaux neuronaux. Faisons trois pas en arrière. ChatGPT est-il une application ou une technologie ? Et si ChatGPT est une application, quelles sont les technologies qui se cachent derrière ? Tu viens de citer quelques mots-clés. Peux-tu expliquer un peu comment fonctionnent les modèles linguistiques et les réseaux neuronaux du point de vue technologique ? Peut-être à l’aide d’un exemple de ChatGPT ou d’un autre exemple.

Stefan Sedlacek : Ok, donc ChatGPT est bien sûr une application. Ce n’est pas une technologie en soi. Derrière ChatGPT, il y a des modèles de langage qui sont couplés à des réseaux neuronaux. Alors, maintenant la question : qu’est-ce qu’un modèle de langage ? Un modèle linguistique est – en principe – un programme informatique qui comprend des questions naturelles et qui peut aussi en générer lui-même. Il est basé sur un modèle statistique qui reconnaît des modèles dans les données textuelles et linguistiques et qui utilise ensuite ces modèles pour évaluer les textes et prédire les futurs textes ou données linguistiques. Avec cette analyse issue de ces modèles linguistiques, ChatGPT saute dans ses réseaux neuronaux pré-entraînés. Maintenant, la question est : qu’est-ce qu’un réseau neuronal ?

Ashley Steele : Exactement. Tu viens de lire dans mes pensées, Stefan. Exactement. Qu’est-ce que les réseaux neuronaux ?

Stefan Sedlacek : C’est aussi un terme informatique qui désigne le fait de bien évaluer de grandes quantités de données non structurées. Les réseaux neuronaux sont en effet capables d’évaluer de telles quantités et d’y trouver des modèles. Les données non structurées typiques sont les images, les vidéos, les sons, c’est-à-dire toutes les données que nous produisons nous-mêmes en grande quantité dans notre vie quotidienne. Et le terme « réseaux neuronaux » est emprunté à la biologie. Nous avons quelque chose de similaire dans le cerveau humain, c’est-à-dire un neurone, c’est-à-dire une cellule nerveuse qui est reliée à d’autres cellules nerveuses et qui, selon son interconnexion, transmet des signaux aux autres neurones ou cellules nerveuses. Un réseau neuronal artificiel fonctionne de manière très similaire. Il y a ici un neurone simulé sous la forme d’une formule mathématique qui traite une entrée et génère une sortie à l’extérieur. De nombreux neurones artificiels travaillent ensemble et forment ainsi un réseau neuronal artificiel. On peut dire qu’un nœud du réseau neuronal réagit à une valeur ou à un stimulus venant de l’extérieur. Selon une certaine règle de calcul, il transmet alors une nouvelle valeur. De nombreuses valeurs et nœuds de ce type donnent alors un résultat global qui nous permet de décider en fin de compte si une image affichée est une pomme ou une poire.

Ashley Steele : Aha, ok, j’ai compris. Tu as super bien expliqué. J’ai compris qu’il y a plus qu’un modèle linguistique et plus qu’un réseau neuronal. Mais il s’agit aussi de mémoire associative. Cela joue aussi un rôle dans l’IA, si j’ai bien compris. Qu’est-ce qu’une mémoire associative ? Est-ce que c’est mieux ? Est-ce que c’est moins bien ? Est-ce que c’est autre chose ? Ou est-ce que les trois choses sont combinées ensemble ? Peux-tu expliquer un peu comment ces trois termes sont liés ?

Stefan Sedlacek : Exactement, il existe d’autres procédés dans le domaine de l’IA, en plus des thèmes à la mode que sont les « réseaux neuronaux » et les « modèles linguistiques ». L’un des thèmes est celui de la mémoire associative. Elle fonctionne un peu plus simplement qu’un réseau neuronal. Une mémoire associative est une mémoire adressable par le contenu. Il s’agit donc d’une forme de mémoire dans laquelle on travaille avec des associations de contenus pour accéder aux différents contenus de la mémoire. Une autre description serait de dire que l’accès à un contenu de mémoire se fait par l’entrée d’une valeur de mémoire ou d’une adresse de mémoire. C’est un peu trop informatique, mais je vais vous expliquer l’avantage de cette technologie. L’avantage de cette technologie, telle qu’elle est utilisée par le logiciel TOLERANT, est que l’on peut déjà accéder aux résultats, même si les données d’entrée ne sont pas complètes. Même si, pour reprendre l’exemple de la pomme, on n’avait qu’une moitié de pomme, le système en déduirait qu’il y a une pomme entière derrière.

Ashley Steele : D’accord, alors peut-être que nous allons développer un peu plus cet exemple avec TOLERANT Match. Si je comprends bien, TOLERANT Match utilise une mémoire associative.

Stefan Sedlacek : C’est exact. Exactement. TOLERANT Match lui-même a pour base technologique la mémoire associative. Pour nous, cette technologie a un objectif d’application légèrement différent de celui des réseaux neuronaux par exemple. Chaque technologie a ses propres points forts pour son propre domaine d’application. La technologie de la mémoire associative – telle que nous l’utilisons – convient très bien aux données structurées.

Ashley Steele : Désolé, puis-je t’interrompre un instant ? TOLERANT Match concerne la qualité des données clients, des données d’adresses ? Par exemple : Mon prénom s’écrit-il A-S-H-L-E-Y ou A-S-C-H-L-E-Y ? Les orthographes sont similaires, mais pas identiques. Grâce à l’utilisation de l’IA basée sur la mémoire associative, ces incohérences, c’est-à-dire les correspondances qui ne correspondent pas à 100 %, sont détectées puis effectivement trouvées. Est-ce que j’ai bien compris ?

Stefan Sedlacek : Tu as très bien expliqué cela. C’est effectivement le cas. Le problème de base est toujours que l’on veut trouver les informations appropriées à une demande dans un grand pot de données. C’est alors une question partielle du genre : « Quelle est l’adresse correcte pour une adresse recherchée ? » Ou : « Une personne est-elle identique à une grande liste d’hommes politiques ? » Ou encore : « Quelle est la désignation correcte du constructeur d’un véhicule lorsque quelqu’un saisit ‘BMW série 3 2 portes 2007’ dans un formulaire Internet ? » La technologie de mémoire associative accède alors à de grandes données structurées en arrière-plan et peut alors effectivement générer la bonne réponse à partir de ces demandes très simples.

Ashley Steele : Cela signifie donc qu’avec la technologie d’IA de TL Match, les résultats sont meilleurs ? La probabilité que les demandes des clients soient correctement interprétées, même en cas d’erreurs d’écriture, est-elle donc plus élevée avec TL Match ?

Stefan Sedlacek : C’est exact.

Ashley Steele : Mais alors, une question à ce sujet : comment un système d’IA apprend-il ? Comment peut-on vérifier si les résultats du système d’IA sont bons ou mauvais ? Comment fonctionne le processus d’apprentissage d’un système d’IA ? Quel processus se cache derrière ? Pouvez-vous vraiment être sûr que les résultats fournis par TOLERANT Match sont corrects ?

Stefan Sedlacek : C’est une très bonne question. Dans les systèmes d’IA traditionnels avec les réseaux neuronaux, il faut insérer un nombre relativement important de phases d’entraînement. Pour cela, on soumet au système des données dont le type et la structure sont déjà connus. Le résultat est en principe prédéfini. On laisse ainsi le système apprendre comment traiter les données. Si le système crache ensuite des résultats erronés, un feedback approprié permet d’adapter la fonction de traitement dans les différents nœuds.
Avec TOLERANT Match, c’est un peu plus simple. Nous n’avons qu’une seule étape d’entraînement. Nous prenons les données que nous recevons sous forme structurée et, à l’aide d’une formule de calcul mathématique, nous décomposons les informations que nous recevons de manière à ce qu’elles entrent dans notre matrice de mémoire associative. Il s’agit certes aussi d’une étape d’entraînement, mais elle ne doit être effectuée qu’une seule fois. Dans le cas des réseaux neuronaux, les étapes d’entraînement sont beaucoup plus longues.
Comment savoir si les résultats sont bons ou non ? C’est effectivement un projet qui en est encore au stade de la recherche en informatique. On ne le sait pas vraiment, parce que les nombreuses étapes d’entraînement dans les systèmes d’IA modifient les nœuds de telle sorte que les résultats ne sont ni prévisibles ni compréhensibles. Il faut donc tester le système. On doit être sûr que ces tests sont suffisamment précis pour pouvoir dire à la fin que le système est correctement configuré.

Ashley Steele : C’est donc toujours un processus en cours. On ne teste donc pas qu’une seule fois. Ok, tu as dit au début de l’intro que l’engouement pour l’IA ne date que de 2-3 ans. Depuis quand utilisez-vous l’intelligence artificielle dans TOLERANT Match ? Depuis 2 ou 3 ans seulement ? Est-ce que vous faisiez autre chose avant et que vous vous êtes mis à surfer sur la vague de l’IA ? Comment avez-vous fait ?

Stefan Sedlacek : Non, nous avons effectivement ce sujet à l’esprit depuis longtemps. Nous l’utilisons depuis la création de l’entreprise, c’est-à-dire depuis 2009.

Ashley Steele : Depuis 2009 ? Vous avez donc été des pionniers dans l’utilisation de ces technologies ici.

Stefan Sedlacek : Oui, en quelque sorte. Nous avions encore une entreprise précédente qui faisait quelque chose de similaire. Le thème s’est imposé par la force des choses. J’ai été en contact avec le sujet pour la première fois lorsque les codes postaux ont été changés en Allemagne. C’était il y a longtemps. C’était en 1992/1993. À l’époque aussi, on disposait déjà de nombreux systèmes d’adresses et on se posait la question suivante : « Comment passer maintenant d’un code postal à 4 chiffres à un code postal à 5 chiffres ? » C’était effectivement un changement difficile pour de nombreuses entreprises à l’époque. Sur le plan technologique, beaucoup de choses ont bien sûr évolué depuis, mais à l’époque, on se battait beaucoup avec cela. Et c’est là que ce thème est apparu pour la première fois. C’est à ce moment-là que j’ai été confronté pour la première fois à ce problème.

Ashley Steele : Si je réfléchis un peu, c’est un sujet très compliqué. Tu as – de mon point de vue – bien expliqué ce qu’il y a derrière. J’espère que les auditeurs sont du même avis. Ce que j’ai trouvé intéressant à la fin, c’est que vous n’avez pas attendu 2020 pour utiliser la technologie, mais que vous utilisez l’IA depuis le développement des produits TOLERANT Match et TOLERANT Move, c’est-à-dire depuis 2009, comme tu l’as dit. Vous êtes vraiment des précurseurs. Je pense aussi – on le voit bien avec vos clients – que c’était la bonne décision de miser sur une telle technologie et de l’intégrer dans le logiciel.

Stefan Sedlacek : Oui, nous en sommes très fiers.

Ashley Steele : Stefan, merci beaucoup. C’était un sujet très technique et compliqué. Mais tu l’as vraiment bien expliqué et de manière compréhensible. Je vais donc rester comme ça. Alors à dans quelques jours et au prochain sujet TOLERANT dont nous pourrons parler.

Stefan Sedlacek : Merci, Ashley, je me réjouis de notre prochain sujet.

Ashley Steele : Merci, Stefan, bonne chance.

Stefan Sedlacek : Au revoir, à bientôt.