HomeProdukteLösungenDownloadPartnerKontakt
EnglischDeutsch

Infonyte GmbH

Data-Cleansing mit XML-Technologie

Niedrige Informationsqualität ist eine der größten Herausforderungen bei der unternehmensweiten Datenverarbeitung. Aktuelle Studien von IDC belegen, dass 20% aller Daten von unzureichender Qualität für die zu verarbeitenden Prozesse sind. Typische Probleme von so genannten schmutzigen Daten sind fehlerhafte Einträge, doppelte Datensätze, unterschiedliche Wertebereiche von Feldern sowie die Missachtung unternehmensweiter oder internationaler Standards. Der Begriff Data-Cleansing (deutsch: Datenbereinigung) umfasst eine Reihe von Methoden, um bestehendes Datenmaterial auf Inkonsistenzen zu untersuchen und in eine homogene Datenbasis zu überführen.

Eine Befragung von 1648 Unternehmen durch IDC-Analysten ergab, dass Datenbereinigung und Datenqualität das zweitwichtigste IT-Problem im Jahr 2003 (hinter Budgetkürzungen) ist. Nach einer Untersuchung des Cutter-Konsortiums setzen 77% der Unternehmen Eigenentwicklungen dafür ein. Diese Eigenentwicklungen sind in der Regel eng zugeschnitten auf einen speziellen Bereinigungsvorgang. Solche Lösungen sind wenig zukunftssicher, wartungsintensiv und unverhältnismäßig teuer.

Die Verwendung von XML bietet neue Perspektiven, um die Datenbereinigung zu vereinfachen. Durch die Ausdrucksmächtigkeit von XML können bestehende Datenformate wie relationale Daten, EDI-Formate etc. direkt und ohne Informationsverlust in einheitlicher Syntax dargestellt und nach Bedarf in mehreren Stufen bereinigt, angereichert und kombiniert werden. Dabei stellt jede Stufe eine eigenständige logische Einheit dar, die als XSL-Transformation entwickelt und unabhängig gewartet werden kann. Das Produkt Infonyte-DB ist speziell für diesen mehrstufigen Ansatz ausgelegt (Abbildung).

Im ersten Schritt werden die Daten verlustfrei, also ohne strukturelle oder inhaltliche Änderungen, nach XML konvertiert und importiert. Infonyte hat speziell auf XML-Daten ausgelegte interne Index- und Speicherungsstrukturen, die neben schnellen Ladezeiten auch den Umgang mit beliebigen schemalosen XML-Daten ermöglichen. Damit werden Entwicklungszeiten für Konvertierungen verkürzt und die Wartung bei Formatänderungen der Datenquellen stark vereinfacht. In den nachfolgenden Schritten des Bereinigungsprozesses agiert Infonyte-DB als ein von den innerbetrieblichen Prozessen entkoppeltes XML-Warehouse.

Nachfolgende Bereinigungs- und Anreicherungsschritte wie Formatkonvertierungen, Duplikatbeseitigung oder Referenzprüfungen unterstützt Infonyte-DB mit einem persistenten XSLT-Prozessor. Im Gegensatz zu hauptspeicherbasierten XSLT-Lösungen gibt es keine praktischen Beschränkungen bezüglich der Größe der zu verarbeitenden XML-Daten. Aufwändige Verknüpfungen, die das mehrfache Durchsuchen der Daten erfordern (komplexe Join-Operationen) können gezielt über Indexstrukturen beschleunigt werden.

Sind die Daten der einzelnen Quellen aufbereitet, können quellübergreifende Bereinigungen und Anreicherungen, beispielsweise die Vervollständigung von Verweisen zwischen Quellen, durchgeführt werden. Ebenso ermöglicht Infonyte-DB die Integration der Daten zur Unterstützung komplexer Migrationsprozesse. Durch Erweiterungen der schon vorhandenen XML-Abfrage- und XML-Transformationsstandards lassen sich besonders komplexe Bereinigungs- und Verknüpfungsoperationen wie Gruppierungen realisieren, die bisher OLAP-fähigen Datenbanken vorbehalten waren.

Gegenüber den in der Praxis üblichen "All in one step"-Programmen ermöglicht der Infonyte-Ansatz geringere Entwicklungskosten durch eine hohe Wiederverwendbarkeit der Bereinigungsschritte aber auch wesentlich geringere Wartungskosten durch Modularität und die Verwendung von offenen Standards.

Infonyte-DB integriert sich durch seinen modularen Aufbau, seiner Implementierung in 100% Java sowie seiner Webservice Schnittstelle nahtlos in existierende IT-Architekturen. Es unterstützt die wesentlichen Standards zur Verarbeitung von XML skalierbar und robust und bietet somit eine zukunftssichere Lösung zum Aufbau von Datenbereinigungsprozessen.

Kontakt: info@infonyte.de


© 2004 Infonyte GmbH. Alle Rechte vorbehalten. Letzte Änderung: 15. August 2008 . Impressum