Duplikatsuche 

Mit Hilfe unserer Algorithmen lassen sich nicht nur Duplikate finden, die zu 100% übereinstimmen. Durch Verändern weniger Parameter können auch Mehrfacheinträge gefunden werden, die das gleiche Objekt beschreiben, jedoch nur ähnliche Werte in der Datenbank aufweisen.

Am Beispiel einer Adressdatenbank lassen sich solche Einträge am besten beschreiben:

  • "Michael Mustermann", "Berliner Straße 13", "10178 Berlin"
  • "M. Mustermann", "Berliner Straße 13", "10178 Berlin"
  • "Mustermann, Michael", "Berliner-Str. 13", "D-10178 Berlin

Alle Einträge beschreiben die selbe Person, können aber von herkömmlichen Algorithmen nur schwer als Duplikate erkannt werden. Die von uns entwickelten Algorithmen arbeiten mit Ähnlichkeitssuche und können so z.B. alle im obigen Beispiel genannten Duplikate identifizieren.

Das zweite wichtige Merkmal unserer Algorithmen ist die Geschwindigkeit. Gerade bei großen Datenmengen von mehreren Hunderttausenden oder Millionen von Datensätzen spielt es eine entscheidende Rolle, da hier nur noch linear wachsende Algorithmen nutzbar sind. Dieses Ziel haben wir erreicht, d.h. die Geschwindigkeit der Suche hängt bei uns linear von der Anzahl der Einträge in der Datenbank ab.

Referenzkunden/-projekte

  • Transformal GmbH - Projekt Kundendatenbank
    Duplikaterkennung bei der Integration mehrerer Kundendatenbanken,
    Anzahl der Datensätze: ca. 500.000
    Implementation der Algorithmen in Perl und SQL
    Datenbank: mySQL unter Linux