»All das Schöne mit Daten«

BI-Spektrum sprach mit Jörg Vogler, Gesellschafter von TOLERANT Software, darüber, wie sich Daten qualitativ so erfassen und pflegen lassen, dass sie gut für Analytics und Künstliche Intelligenz eingesetzt werden können, sowie darüber, was einige US-Unternehmen den hiesigen voraushaben.

Das Interview führte Christoph Witte, Chefredakteur BI-Spektrum.

BI-Spektrum: Unternehmen sind datenhungriger als jemals zuvor. Business Intelligence und Analytics brauchen verwertbare Daten und auch Applikationen der Künstlichen Intelligenz verlangen nach immer mehr Daten. Können Unternehmen diesen Datenhunger eigentlich stillen?

Vogler: Sie können ihn stillen, wenn sie bei Datenerhebung diszipliniert vorgehen. Wirklich wichtig ist, dass die Unternehmen schon bei der Erhebung der Daten auf Qualität und Vollständigkeit achten. Wenn diese Kriterien erfüllt sind und solange die Datenerhebung rechtlich zulässig ist, kann man diesen Datenhunger sicher stillen. Das heißt, dass schon bei den ersten Kontakten mit den Kunden die entsprechenden Informationspflichten ihnen gegenüber eingehalten werden, damit die Daten, die man gern verwenden möchte, auch verwendet werden dürfen. Das ist die zweite große Baustelle, die wir sehen. Unternehmen gehen zu oft stillschweigend davon aus, dass ihre Daten korrekt erfasst sind, dass die Datenfelder richtig ausgefüllt sind. Sie bemerken oft zu spät – zum Beispiel, wenn die Daten einer Analytics-Applikation zur Verfügung gestellt werden oder ein KI damit betankt werden soll –, dass Felder nicht korrekt ausgefüllt sind, Daten Lücken haben oder Inkonsistenzen aufweisen.

BI-Spektrum: Warum ist die Qualität der Erfassung so wichtig?

Vogler: Unternehmen erfassen die Daten oft deshalb, um die Kunden richtig ansprechen zu können, nicht nur um die Daten später auszuwerten. Wenn die Daten nicht richtig erfasst sind, kann ich den Kunden nicht richtig ansprechen und weiß nicht, zu welcher Zielgruppe er gehört. Außerdem ist die Qualität wichtig, wenn Kundeninformationen aus verschiedenen Quellen zusammengeführt werden. Auch dafür brauche ich verlässliche Merkmale. Die gibt es schon seit Jahren und sie werden unterstützt mit zum Beispiel Master Data Record Management. Aber wir sehen da nach wie vor erhebliche Diskrepanzen zwischen Ideal und Wirklichkeit.

BI-Spektrum: Das Thema Datenqualität wird schon problematisiert, seit es die IT gibt. Warum bekommt man das Thema nicht in den Griff?

Vogler: Einerseits gibt es sehr gute und bereits seit langem bekannte Ansätze wie den Data Steward. Aber die Prozesse zum Datenqualitätsmanagement werden leider immer noch in vielen Unternehmen hintenangestellt. Das wird als lästige Pflicht begriffen, vor allem auch weil die Arbeit immer stärker verdichtet wird. Ein Vertriebsmitarbeiter, der eigentlich Kunden betreut, betreibt die Datenerfassung so, dass es gerade mal reicht und ihn nicht zu viel Zeit kostet. Wir haben allerdings auch Kunden, die von und mit Daten leben, Auskunfteien zum Beispiel. Die haben ihre Daten im Griff. Sie verfügen über die entsprechenden Messpunkte, um die Dateneingangsqualität zu überprüfen, sie haben Regelroutinen zu Behebung von Schwächen und sie investieren viel in Monitoring und Diagnose. In jüngerer Zeit bemerken wir allerdings, dass das Thema Datenqualität durch den Datenschutz einen höheren Stellenwert bekommt. Das klingt vielleicht überraschend, hat aber mit der Fürsorgepflicht der Unternehmen für die Daten zu tun. Nur wenn die Daten richtig erfasst sind und ich die entsprechenden Genehmigungen eingeholt habe, können sie auch ordnungsgemäß verwendet werden. Insgesamt ist aber festzuhalten, dass Datenqualität systemseitig noch nicht ausreichend unterstützt und die entsprechenden Prozesse noch nicht konsequent gelebt werden.

BI-Spektrum: Aber angesichts der fehlenden Datenqualität müssen Sie doch Mitleid bekommen mit den Leuten, die in den Unternehmen für datenbasierte Entscheidungen und insgesamt mehr Datengetriebenheit sorgen sollen.

Vogler: Als Datenqualitätsprofis versuchen wir natürlich die Unternehmen zu unterstützen. Dabei müssen wir auch als Katalysator für die abteilungsübergreifende Kommunikation agieren, vor allem zwischen der IT, die entsprechende Systeme bereitstellen soll, und den Fachabteilungen, die mit den Daten arbeiten wollen. Hinzu kommen die Datenschutz- und Compliance-Richtlinien, die festlegen, was mit den Daten gemacht werden darf.

BI-Spektrum: Übernehmen Sie sich nicht, wenn Sie als Anbieter für Datenqualitäts-Tools sich auch noch um Kommunikation kümmern wollen? Das ist doch eigentlich ein ganz anderes Thema.

Vogler: Natürlich kümmern wir uns nicht um die Kommunikationsprozesse selbst. Aber wir helfen dabei, ein Bewusstsein für das zu schaffen, was geht und was eben nicht geht – wenn zum Beispiel im Unternehmen eine KI-Initiative gestartet und die IT-Abteilung gebeten wird, ein KI-Modell aufzubauen. Die machen das dann, stellen aber sehr schnell fest, dass die Daten eben so sind, wie sie sind. Da können wir helfen, für Transparenz zu sorgen, bewusst machen, wieso Daten fehlen und die vorhandenen auf Qualität zu prüfen, erklären, wie die vorhandenen verbessert werden können und wie man an die Daten herankommt, die noch fehlen. Wir bringen dabei etwas mehr Realitätssinn in die Unternehmen. Oft ist gerade im höheren Management gar kein Bewusstsein für die Bedeutung von Datenqualität da.

BI-Spektrum: Also könnten Unternehmen viel stärker von KI profitieren, wenn die Daten sauberer wären?

Vogler: Ja, vor allem, wenn sie ihre Dateneingangsprozesse im Griff hätten. Es gibt ja durchaus Beispiele von IT-Unternehmen in den USA, bei denen das der Fall ist. Man kann natürlich einiges tun, um die Datenqualität im Nachhinein zu verbessern, aber um wirklich die Potenziale heben zu können, wie das teilweise in den USA gemacht wird, muss die Eingangsqualität verbessert werden. Die historisch gewachsene Struktur der IT-Systeme in Unternehmen mit unterschiedlichen Datenmodellen und deren Schönheiten und Schwächen erleichtert die Aufgabe auch nicht unbedingt.

BI-Spektrum: Warum sind die Amerikaner da so viel besser?

Vogler: Gerade die großen Vorbilder wie Google oder Amazon haben den klaren Vorteil, dass sie alle Kundendaten in einem relativ homogenen Umfeld an einer Stelle haben. Die haben zum einen die Problematik der Altsysteme nicht und sie haben sich eine ganz klare Service-Architektur gegeben mit genau definierten Übergabepunkten, an denen sie die Daten sauber in die Hand bekommen. Außerdem haben sie deutlich früher verstanden, welche zentrale Rolle Daten spielen und welchen Wert sie haben. Dieses Verständnis, auch was den Wert von „Beifang-Daten“ betrifft, haben die großen amerikanischen Unternehmen sehr früh entwickelt.

BI-Spektrum: Daten-Beifang?

Vogler: Damit sind die Nutzungsdaten gemeint, die beim Gebrauch von Systemen und Geräten entstehen. Wenn Sie zum Beispiel ein E-Book lesen, wird vermerkt, welche Seiten sie schon gelesen haben, wo Sie zuletzt stehen geblieben sind und wie schnell Sie lesen. Aus diesen Informationen lassen sich zum einen Rückschlüsse auf das Leserverhalten ziehen, es können aber auch für das E-Book selbst Optimierungen und Hinweise für andere Leser abgeleitet werden. Wie wertvoll solche Daten sein können, haben die Amerikaner schon sehr früh bemerkt. Die Daten über Marktgröße und Preise, nachgefragte Produkte und Kaufverhalten, die Amazon allein durch die Öffnung seiner Plattform für andere Händler erhält, sind ungeheuer wertvoll.

BI-Spektrum: Ist ein Grund für die hohe Datenqualität bei Amazon nicht auch die, dass nicht Mitarbeiter diese lästige Pflicht der Dateneingabe erledigen müssen, sondern die Kunden das selbst machen?

Vogler: Teilweise, aber sie haben auch sehr ordentliche Prüfroutinen im Hintergrund und wissen genau, was sie ihren Kunden zumuten können. Außerdem prüfen sie die Daten nicht nur automatisch, sondern verdächtige Datensätze werden auch von Menschen überprüft, und in dieser Kombination aus Automatisierung und menschlicher Überprüfung liegt bei diesen Unternehmen eine große Stärke. Das gilt auch für die Werkzeuge, die wir anbieten. Die finden zwar vieles, aber perfekt werden sie erst im Zusammenspiel mit menschlicher Überprüfung.

BI-Spektrum: Sie haben erwähnt, dass man falsch oder lückenhaft erfasste Daten reparieren kann. Was geht denn da?

Vogler: Wir haben natürlich Möglichkeiten, was die Datenfeldbelegung betrifft, die Harmonisierung von Stammdaten wie Telefonnummer, E-Mail etc. Man kann natürlich schauen, dass man die Erfassung standardisiert, man kann semantisch prüfen, ob zum Beispiel die Namen in den richtigen Feldern eingetragen, die Geschlechter richtig angegeben sind oder Ähnliches. Man kann schon vieles automatisch glattziehen. Wir können Umzüge prüfen oder auch im Unternehmensumfeld vieles korrigieren, weil wir da etliche externe Referenzen haben. Darüber hinaus bieten wir Dublettenerkennung und -bereinigung an. Da liegt die Schwierigkeit nicht so sehr in der Erkennung, sondern in der Zusammenführung mit den entsprechenden Auftragshistorien. Wir können also Datenfelder prüfen, wir können Daten vervollständigen und wir können sie auf Aktualität testen. Darüber hinaus können wir Datensätze für unsere Kunden validieren.

BI-Spektrum: Geben Sie noch drei Tipps für Unternehmen, die saubere Daten haben wollen.

Vogler: Es ist im Grunde wie beim Arzt: Zunächst muss eine Diagnose gestellt werden, ich muss Behandlungsmaßnahmen vorschlagen und ich muss sagen können, wie man in Zukunft „Datenkrankheiten“ vermeidet, also Vorschläge zur Prävention machen. Außerdem muss ich einen wichtigen Grundsatz im Unternehmen verankern: All das Schöne mit Daten geht nur, wenn sie ordentlich gepflegt werden.

Das Interview erschien in der Zeitschrift BI-Spektrum, Ausgabe 3/2019, S. 30-32.