Wie entstehen Dubletten?

In Waschmaschinen verschwinden Socken, in Computern entstehen Dubletten. Das geisterhafte Eigenleben der Materie ist wohl eines der letzten großen Rätsel des Daseins. Doch während fehlende Socken meist für alle Zeiten im Orkus des Unergründlichen verschwunden bleiben, kann die moderne Wissenschaft das Erscheinen von Dubletten bereits recht gut verstehen.

Das Auftreten von Dubletten hat oft mit der Herkunft der Adressen zu tun. Die meisten Datenbestände werden aus drei Quellen gespeist:

  • Anwender erfassen Adressen einzeln (z.B. Webshop oder Erfassungsdialog)
  • Prozesse, die regelmäßig für eine Aktualisierung des Datenbestands sorgen sollen
    (z.B. Abgleich gegen Umzugsdaten oder Aktualitäts-Check von Straße, Postleitzahl oder Ort)
  • Drittbestände, die per Dateiabgleich in den Datenbestand übernommen werden
    (z.B. Kauf von Fremdadressen oder Übernahme aus anderen Systemen)

Beginnen wir mit dem Anwender. Häufig entstehen Dubletten, weil die Anwender nicht zielgerichtet nach vorhandenen Dubletten suchen – sei es aus Bequemlichkeit, oder weil die notwendigen intelligenten Suchverfahren fehlen. Beispiel telefonische Auftragsannahme:
Ein langjähriger Kunde ruft an, nennen wir ihn Kowalczik. Sein Name wird nicht richtig verstanden oder falsch erfasst. Das System vergleicht die Eingabe mit dem Adressbestand und meldet: kein Treffer. So bekommt der reale Kunde einen virtuellen, von niemandem bemerkten Doppelgänger, und das Unheil nimmt seinen Lauf …

Datenbestände veralten. Wer sie nicht pflegt, gerät rasch in einen verhängnisvollen Wirrwarr aus halb richtigen, halb falschen Informationen. Wenn etwa eine Kommune Straßennamen ändert, erscheinen neue Postanschriften – und ein schon lange bekannter und erfasster Kunde erhält irrtümlich einen elektronischen Doppelgänger.

Oder, ähnlich vertrackt: Jemand zieht um, informiert seine Geschäftspartner, und die legen seine Daten irrtümlich in der Rubrik »Neukunde« an. Kommt dazu noch ein automatisch generierter Datensatz aus einem Umzugsabgleich, existiert der Betreffende schon dreimal in derselben Datenbank. Das resultierende Chaos mag man sich lieber erst gar nicht vorstellen.

Vermeiden lässt sich das Problem nur durch den Einsatz einer unscharfen Suche und regelmäßige Dublettenabgleiche des gesamten Adressbestands, insbesondere nach jeder Aktualisierung durch externe Referenzdaten wie Straßenverzeichnisse oder Umzugsdaten.
Das Schöne daran: Sie müssen das nicht alleine hinbekommen – unsere Software übernimmt den größten Teil der Arbeit.