Wie aus einem halben Apfel ein ganzer wird

Podcast mit TOLERANT Software-Geschäftsführer Stefan Sedlacek

In einem Podcast-Interview verriet TOLERANT Software-Geschäftsführer Stefan Sedlacek, wie die fehlertolerante Suche in Datenqualitätstools funktioniert und welche Technologie dahintersteht. Das Podcast-Interview führte Ashley Steele. Das Interview können Sie hier nachlesen.

Ashley Steele: TOLERANT Software – ein etabliertes Unternehmen mit einer klaren Vision. Sprechen Sie die richtigen Kunden richtig an. Die Qualitätssicherung von Kundendaten ist das Kerngeschäft von TOLERANT Software. Zurzeit ist das Thema „Künstliche Intelligenz“ sehr aktuell und wird häufig diskutiert. Aber was ist eigentlich Künstliche Intelligenz? Welche Technologien werden verwendet? Und welche Chancen bzw. Risiken gibt es? Geschäftsführer Stefan Sedlacek gibt heute einen Einblick in dieses Thema und berichtet, wie und seit wann TOLERANT Software Künstliche Intelligenz einsetzt, um die Problematik der Qualität von Kundendaten zu lösen.

Ashley Steele: Hallo Stefan, wie geht’s dir heute?

Stefan Sedlacek: Hallo Ashley. Vielen Dank. Mir geht es sehr gut. Danke.

Ashley Steele: Freut mich. Ein sehr interessantes Thema haben wir heute ausgewählt.

Stefan Sedlacek: Oh, ja, das denke ich auch.

Ashley Steele: Auf der einen Seite allgemein das Thema Künstliche Intelligenz, wie ich im Intro gesagt habe. Das ist momentan sehr aktuell. Das wird häufig diskutiert. Und dann auf der anderen Seite TOLERANT Match, Kundendatenqualität und der Einsatz von künstlicher Intelligenz in euren Produkten. Ein breites, spannendes Thema also. Aber lass‘ uns erstmal allgemein mit dem Thema Künstliche Intelligenz anfangen. Was sind die Beweggründe im Rahmen von Künstlicher Intelligenz? Was passiert eigentlich momentan und was steckt hinter dem aktuellen Hype um die Künstliche Intelligenz?

Stefan Sedlacek: Ja, was bewegt die Leute im Rahmen von KI? Eine gute Frage. Ich denke, dass das Thema die Leute erst seit wenigen Jahren bewegt. Die Entwicklung gibt es ja schon länger. Die wenigsten Leute hat das jedoch am Anfang interessiert, weil sich die Entwicklungen am Anfang noch im Forschungsbereich und im akademischen Bereich abgespielt haben. Seit relativ kurzer Zeit, sagen wir seit drei oder vier Jahren, haben die Anwendungen den Forschungsbereich verlassen und sind einem breiteren Publikum zugänglich geworden. Beispielhaft würde ich da jetzt mal DeepL nennen. Das Übersetzungswerkzeug kennt, glaube ich, jeder. Das hat ja schon für Aufsehen gesorgt, dass man da eine Übersetzungsmaschine hat, die wesentlich besser funktioniert als das, was Google zur Verfügung gestellt hat.

Ashley Steele: Und ChatGPT ist das andere Schlagwort bzw. die Anwendung, die relativ neu auf dem Markt ist und von einem breiten Publikum angewendet wird.

Stefan Sedlacek: Genau. Seit ca. einem Jahr sind da wirklich noch interessantere Anwendungen hinzugekommen, wie z.B. ChatGPT, wie du schon gesagt hast. Eine Maschine, die Fragen wie ein Mensch beantworten kann. Da werden die Leute natürlich neugierig. Oder auch Bildgeneratoren, die aus Beschreibungstext kunstvolle Bilder erstellen können. Man braucht heute keinen besonderen „Skill“ mehr, um schöne Bilder herzustellen. Da kann man mit wenigen Wörtern und Kenntnissen im Umgang mit KI wirklich tolle Ergebnisse erzielen.

Ashley Steele: Das ist schon beeindruckend, was man da sieht in dem Bereich.

Stefan Sedlacek: Ja, das ist extrem beeindruckend. Und da fragen sich die Leute natürlich jetzt, wie weit das noch gehen kann. Inwieweit kann ich persönlich davon profitieren? Welche Gefahren ergeben sich dadurch für mich und mein Umfeld?

Ashley Steele: Ja, das wollte ich gerade fragen. Auf der einen Seite geht es darum, ein Bild zu generieren, z.B. einen Hügel mit Blumen und einem Pferd. Und das wird dann generiert. Oder man gibt ChatGPT einen Text oder einen Lebenslauf und der wird dann verbessert. Das sind so Sachen, die auch für den Otto-Normal-Verbraucher (wenn ich das so ausdrücken darf) von Vorteil sind. Hier geht es genau um den Punkt, den du erwähnt hast. Welche Gefahren verbergen sich hinter Künstlicher Intelligenz? Werde ich meinen Job verlieren? Gibt es einen Wandel auf dem Arbeitsmarkt? Oder gibt es andere Gefahren?

Stefan Sedlacek: Ich glaube, dass man momentan noch dabei ist, die Gefahren zu evaluieren. Da gibt es ziemlich viele Theorien gerade zum Thema Beschäftigungsverlust. Einige Studien gehen davon aus, dass der Einsatz von KI und Robotik viele Berufe automatisieren kann und dass es damit zu hohen Beschäftigungsverlusten kommen wird. Das kann man kritisieren, dass das vorwiegend theoretische Überlegungen sind. Es muss nicht unbedingt bedeuten, dass es wirklich zu einem Beschäftigungsverlust kommt, dadurch, dass man ein neues Werkzeug einsetzt. Es kann auch heißen, dass man mit dem neuen Werkzeug, also mit der KI, mehr Arbeit in kürzerer Zeit schaffen kann. Und mehr Effizienz. Wie effizient KI ist und um wieviel Arbeit es im Volumen gibt, ist ja unbestimmt, das heißt ja nicht, dass es wirklich eine endliche Menge an Arbeit geben muss. Insofern, was die Frage nach dem Beschäftigungsverlust betrifft, so ist die Gefahr vielleicht in gewissen Bereichen da, aber man darf das nicht überbewerten.

Ashley Steele: Es wird vielleicht einen Wandel geben, aber dann stellt sich auch die Frage: Wenn man weg von diesen Gefahren geht, welche Chancen bringt Künstliche Intelligenz mit sich? Welchen Wandel wird es da geben?

Stefan Sedlacek: Ja, die Chancen sind natürlich hinter den neuen Anwendungsfeldern zu sehen, die man mit der KI erschließen kann. Es ist tatsächlich so, dass die Spracherkennung und die Sprachausgabe so gut, wie sie momentan funktionieren, ohne die KI-Technologie gar nicht möglich wären. Hier haben wir wirklich ein ganz neues Anwendungsfeld. Bei der Bilderzeugung hilft die KI mir persönlich als Künstler oder Anwender weiter, gerade z.B. im Bereich des Prototyping. Das gab es so vor kurzem noch nicht. KI ist ein ganz tolles Werkzeug, um schnell und in kurzer Zeit Ergebnisse zu produzieren. Man kann dadurch natürlich auch mehr Umsatz generieren, wenn man schneller arbeiten kann.

Ashley Steele: Und das passt auch in dieses allgemeine Thema Agilität und Prototyping und so weiter. Schnell Sachen ausprobieren. Kundenfeedback einholen. Das hilft sicherlich in dem Bereich. Aber dann vielleicht eine provokative Frage von meiner Seite. Oder zwei Fragen. Wir kennen unsere Lebensform. Kann KI zu einer Lebensform werden? Wie clever kann KI werden? Kann KI cleverer sein als wir Menschen? Kann KI besser denken? Gibt es diese Gefahr oder nicht?

Stefan Sedlacek: Das ist wirklich eine ganz spannende Frage. Es gibt ja, wenn man tatsächlich die Überschriften manchmal in den Zeitungen liest, auch Leute, die davor warnen, dass sich die KI zu einer Lebensform entwickeln kann. Im Moment würde ich einfach sagen, dass alles, was in die Richtung geht, und alle Überlegungen, die in diese Richtung gehen, ein Stück weit Marketing sind. Auch Aussagen von Entwicklern, die KI kann schlimmer als eine Atombombe sein, muss man meiner Ansicht nach wirklich im Bereich Marketing sehen. Die Leute wollen uns mitteilen, dass das, was sie geschaffen haben, so bombastisch ist, dass da wirklich jeder einmal draufschauen sollte und sich das anschauen sollte. Ausgehend von der aktuellen Technologie würde ich sagen, dass sich eine KI nicht zu einer Lebensform entwickeln kann.

Ashley Steele: Dann brauche ich also momentan keine Angst zu haben.

Stefan Sedlacek: Nein, keine Angst. So ein typisches Werkzeug wie ChatGPT wird ja auch immer von außen getriggert, bis es zu einem Ergebnis kommt. ChatGPT arbeitet also sehr deterministisch und ist nicht selbstreflektierend. Jetzt könnte man natürlich mal überlegen, ob man so einem Sprachmodell auch selbstreflektierende Funktionen mitgeben soll, so dass es sich selber fragt und erweitert und verbessert. Das hat man teilweise wohl auch schon gemacht, aber selbst solche Funktionen würden einem neuronalen Netzwerk wie ChatGPT kein Bewusstsein einhauchen.

Ashley Steele: Lass mich an dieser Stelle bitte kurz unterbrechen. Du hast ein paar Schlagwörter genannt, wie ChatGPT. Du hast von Sprachmodellen gesprochen. Und du hast von neuronalen Netzen gesprochen. Machen wir mal drei Schritte zurück. Ist ChatGPT eine Anwendung oder eine Technologie? Und wenn ChatGPT eine Anwendung ist, welche Technologien stecken dann dahinter? Du hast gerade ein paar Schlagwörter genannt. Kannst du bitte ein bisschen erklären, wie Sprachmodelle und neuronale Netzwerke von der technologischen Seite aus funktionieren? Vielleicht anhand eines Beispiels von ChatGPT oder anhand eines anderen Beispiels.

Stefan Sedlacek: Okay, also ChatGPT ist natürlich eine Anwendung. Es ist keine Technologie an sich. Hinter ChatGPT stecken Sprachmodelle, die mit neuronalen Netzen gekoppelt sind. So, und jetzt die Frage: Was ist ein Sprachmodell? Ein Sprachmodell ist – grundsätzlich gesagt – ein Computerprogramm, das natürliche Fragen versteht und auch selber erzeugen kann. Es basiert auf einem statistischen Modell, das Muster in Text- und Sprachdaten erkennt und das diese Muster dann verwendet, um die Texte zu bewerten und um zukünftige Texte oder Sprachdaten vorherzusagen. Mit dieser Analyse aus diesen Sprachmodellen springt ChatGPT in seine vortrainierten neuronalen Netze. Jetzt die Frage: Was ist denn ein neuronales Netz?

Ashley Steele: Genau. Du hast gerade meine Gedanken gelesen, Stefan. Genau. Was sind neuronale Netze?

Stefan Sedlacek: Das ist auch ein Begriff aus der IT, bei dem es darum geht, große Mengen an unstrukturierten Daten gut auszuwerten. Neuronale Netze sind tatsächlich dazu in der Lage, solch großen Mengen auszuwerten und Muster darin zu finden. Typische unstrukturierte Daten sind Bilder, Videos, Töne, also all jene Daten, die wir in unserem Alltag selbst in großer Menge produzieren. Und der Begriff „neuronale Netze“ ist aus der Biologie ausgeliehen. Wir haben im menschlichen Gehirn so etwas Ähnliches, d.h. ein Neuron, also eine Nervenzelle, die mit anderen Nervenzellen verbunden ist und je nach Verschaltung Signale an die anderen Neuronen bzw. Nervenzellen weitergibt. Ein künstliches neuronales Netz funktioniert ganz ähnlich. Hier gibt es ein simuliertes Neuron in Form einer mathematischen Formel, die einen Input verarbeitet und draußen Output generiert. Dabei arbeiten viele künstliche Neuronen zusammen und ergeben so ein künstliches neuronales Netz. Man kann sagen, dass ein Knoten im neuronalen Netz auf einen Wert reagiert, oder auf einen Reiz, der von außen kommt. Nach einer bestimmten Berechnungsvorschrift gibt er dann einen neuen Wert weiter. Viele solcher Werte und Knoten ergeben dann ein Gesamtergebnis, das uns zum Schluss entscheiden lässt, ob ein gezeigtes Bild ein Apfel oder eine Birne ist.

Ashley Steele: Aha, okay, verstanden. Das hast du super erklärt. Ich habe verstanden, dass es mehr als nur ein Sprachmodell und mehr als nur ein neuronales Netz gibt. Es geht aber auch um assoziative Speicher. Das spielt auch eine Rolle bei der KI, wenn ich das richtig verstanden habe. Was ist ein Assoziativspeicher? Ist es besser? Ist es schlechter? Ist es etwas anderes? Oder werden die drei Sachen zusammen kombiniert? Kannst du ein bisschen erklären, wie diese drei Begriffe miteinander in Verbindung stehen?

Stefan Sedlacek: Genau, es gibt neben den Hype-Themen „neuronale Netze“ und „Sprachmodelle“ noch andere Verfahren im KI-Bereich. Ein Thema ist das der Assoziativspeicher. Der funktioniert etwas einfacher als ein neuronales Netz. Ein Assoziativspeicher ist ein inhaltsadressierbarer Speicher. Also eine Speicherform, bei der mit Assoziationen von Inhalten gearbeitet wird, um auf einzelne Speicherinhalte zuzugreifen. Eine weitere Umschreibung wäre, dass man sagt, dass der Zugriff auf einen Speicherinhalt über die Eingabe eines Speicherwerts oder eine Speicheradresse erfolgt. Das ist jetzt ziemlich Informatik lastig, aber ich will einmal erklären, was der Vorteil ist. Der Vorteil dieser Technologie, so wie sie bei TOLERANT Software verwendet wird, ist, dass man schon auf Ergebnisse zugreifen kann, auch wenn die Eingangsdaten nicht vollständig sind. Selbst wenn man – um bei dem Apfelbeispiel zu bleiben – nur einen halben Apfel haben würde, dann würde das System daraus ableiten, dass da ein ganzer Apfel dahintersteckt.

Ashley Steele: Okay, dann bauen wir doch dieses Beispiel vielleicht anhand von TOLERANT Match ein bisschen weiter aus. Wenn ich das richtig verstanden habe, dann wird bei TOLERANT Match ein Assoziativspeicher eingesetzt.

Stefan Sedlacek: Richtig. Genau. TOLERANT Match selbst hat den assoziativen Speicher als technologische Grundlage. Für uns hat diese Technologie einen etwas anderen Anwendungszweck, als es beispielsweise mit neuronalen Netzwerken umgesetzt wird. Jede Technologie hat ihre eigenen Stärken für ihren eigenen Anwendungsbereich. Die Technologie des Assoziativspeichers – so wie wir ihn verwenden – passt sehr gut zu strukturierten Daten.

Ashley Steele: Sorry, darf ich dich da nochmal kurz unterbrechen? Bei TOLERANT Match geht es um die Qualität von Kundendaten, von Adressdaten? Zum Beispiel: Wird mein Vorname A-S-H-L-E-Y geschrieben oder A-S-C-H-L-E-Y? Die Schreibweisen sind ähnlich, aber nicht gleich. Dank des Einsatzes von KI, die auf dem Assoziativspeicher basiert, werden solche Ungereimtheiten, also die Matches, die nicht zu 100 Prozent übereinstimmen, erkannt und dann tatsächlich gefunden. Habe ich das so richtig verstanden?

Stefan Sedlacek: Das hast du sehr gut erklärt. Das ist tatsächlich so. Die Grundproblematik ist immer, dass man aus einem großen Datentopf die passenden Informationen zu einer Anfrage heraussuchen möchte. Das ist dann so eine Teilfragestellung: „Was ist die richtige Adresse zu einer gesuchten Adresse?“ Oder: „Ist eine Person identisch zu einer großen Liste von Politikern?“ Oder: „Was ist die korrekte Herstellerbezeichnung zu einem Fahrzeug, wenn jemand in einem Internetformular ‚3er BMW 2-Türer 2007‘ eingibt?“ Da greift dann die Assoziativspeichertechnologie auf große strukturierte Daten im Hintergrund zu und kann dann aus diesen sehr einfach gestellten Anfragen tatsächlich auch die richtige Antwort generieren.

Ashley Steele: Das heißt also mit der TL Match-KI-Technologie werden die Ergebnisse besser? Ist die Wahrscheinlichkeit, dass die Kundenanfragen auch bei Schreibfehlern richtig interpretiert werden, mit TL Match also höher?

Stefan Sedlacek: Richtig.

Ashley Steele: Aber dann dazu eine Frage: Wie lernt ein KI-System? Wie kann man überprüfen, ob die Ergebnisse des KI-Systems gut oder schlecht sind? Wie funktioniert der Lernprozess eines KI-Systems? Welcher Prozess steckt da dahinter? Könnt ihr wirklich sicher sein, dass die Ergebnisse, die mit TOLERANT Match liefert, richtig sind?

Stefan Sedlacek: Das ist eine sehr gute Frage. Bei den herkömmlichen KI-Systemen mit den neuronalen Netzen müssen relativ viele Trainingsabschnitten eingelegt werden. Dazu legt man dem System Daten vor, deren Typ und Struktur bereits bekannt ist. Das Ergebnis ist im Prinzip vordefiniert. Damit lässt man das System lernen, wie man Daten verarbeitet. Wenn das System dann falsche Ergebnisse ausspuckt, wird durch ein entsprechendes Feedback die Verarbeitungsfunktion in den einzelnen Knoten angepasst.
Bei TOLERANT Match ist es ein bisschen einfacher. Wir haben nur einen Trainingsschritt. Wir nehmen die Daten her, die wir strukturiert bekommen, und zerlegen die Information, die wir bekommen, durch eine mathematische Berechnungsformel so, dass sie in unsere Assoziativspeichermatrix passt. Das ist zwar auch ein Trainingsschritt, dieser muss jedoch nur einmal durchgeführt werden. Bei den neuronalen Netzen hat man wesentlich längere Trainingsabschnitte.
Woher weiß man nun, ob die Ergebnisse gut sind oder nicht? Das ist tatsächlich ein Projekt, das sich in der Informatik immer noch im Forschungsstadium befindet. Man weiß es nicht so genau, weil die vielen Trainingsabschnitte in den KI-Systemen die Knoten so verändern, dass die Ergebnisse weder vorhersehbar noch nachvollziehbar sind. Insofern muss man das System testen. Man muss sich darauf verlassen, dass diese Tests so genau sind, dass man am Ende sagen kann, dass das System richtig konfiguriert ist.

Ashley Steele: Das ist also immer noch ein Ongoing Process. Man testet also nicht nur einmal. Okay, du hattest am Anfang in der Intro gesagt, dass der KI-Hype erst seit 2-3 Jahren aktuell ist. Seit wann setzt ihr denn künstliche Intelligenz bei TOLERANT Match ein? Auch erst seit 2-3 Jahren? Habt ihr dann vorher etwas anderes gemacht und seid dann auf den KI-Hype aufgesprungen? Wie habt ihr das gemacht?

Stefan Sedlacek: Nein, wir haben das Thema tatsächlich schon länger auf dem Schirm. Wir setzen das seit der Firmengründung ein, also seit 2009.

Ashley Steele: Seit 2009? Dann wart ihr hier also Vorreiter bei der Nutzung von diesen Technologien.

Stefan Sedlacek: Ja, sozusagen. Wir hatten noch eine Vorgängerfirma, die etwas Ähnliches gemacht hat. Gezwungenermaßen hat sich das Thema ergeben. Ich kam zum ersten Mal mit dem Thema in Berührung, als in Deutschland die Postleitzahlen umgestellt wurden. Das ist schon lange her. Das war 1992/1993. Auch damals hatte man schon viele Adresssysteme und stellte sich die Frage: „Wie komme ich jetzt von einer 4-stelligen auf eine 5-stellige Postleitzahl?“ Das war tatsächlich eine harte Umstellung für viele Firmen zu der Zeit. Technologisch ist seitdem natürlich viel passiert, aber damals hat man damit sehr gekämpft. Und da kam dieses Thema zum ersten Mal auf. Da bin ich zum ersten Mal damit in Berührung gekommen.

Ashley Steele: Wenn ich ein bisschen reflektiere, dann ist das ein sehr kompliziertes Thema. Du hast – aus meiner Sicht – gut erklärt, was dahintersteckt. Ich hoffe, dass das die Zuhörer auch so sehen. Was ich zum Schluss interessant fand, ist, dass ihr nicht bis 2020 gewartet habt, um die Technologie einzusetzen, sondern setzt KI schon seit der Entwicklung der Produkte TOLERANT Match und TOLERANT Move ein, also seit 2009, wie du sagtest. Da seid ihr wirklich Vorreiter. Ich glaube auch – das sieht man ja anhand eurer Kunden – dass es die richtige Entscheidung war, auf so eine Technologie zu setzen und sie in die Software zu integrieren.

Stefan Sedlacek: Ja, da sind wir auch sehr stolz darauf.

Ashley Steele: Stefan, vielen herzlichen Dank. Das war ein sehr technisches und kompliziertes Thema. Aber du hast das wirklich gut und verständlich erklärt. Dann würde ich mal so verbleiben. Dann bis die Tage und bis zum nächsten TOLERANT-Thema, über das wir uns unterhalten können.

Stefan Sedlacek: Danke, Ashley, ich freue mich auf unser nächstes Thema.

Ashley Steele: Danke, Stefan, alles Gute.

Stefan Sedlacek: Alles Gute, mach’s gut.