Ad-hoc-Datentransformationen für Analytische Informationssysteme von Christian Lüpkes | ISBN 9783955990053

Ad-hoc-Datentransformationen für Analytische Informationssysteme

von Christian Lüpkes
Buchcover Ad-hoc-Datentransformationen für Analytische Informationssysteme | Christian Lüpkes | EAN 9783955990053 | ISBN 3-95599-005-2 | ISBN 978-3-95599-005-3
Softwareentwickler, Datenbankentwickler, Softwarehäuser, IT-Abteilungen, Wissenschaft

Ad-hoc-Datentransformationen für Analytische Informationssysteme

von Christian Lüpkes
Beim Betrieb von Data Warehouses kann es aufgrund „äußerer Einflüsse“ in der durch ein Data Warehouse modellierten Realwelt zu semantischen Inkonsistenzen („Semantic Shift“) kommen, wenn sich in diesem Data Warehouse die Bedeutung von Dimensionselementen über die Zeit ändert. Bei Nichtbeachtung dieser Veränderungen kann es zu Informationsverlust und/oder inkorrekten Analyseergebnissen kommen. Im Rahmen der vorgelegten Dissertation wird ein Lösungsansatz zur Verhinderung semantischer Inkonsistenzen für auf einem multidimensionalen Modell basierende Analytische Informationssysteme vorgeschlagen. Dieser Ansatz macht die Änderungen der Daten für einen Analysten transparent und kommt ohne nachträgliche – potentiell mit Informationsverlust behaftete – Datenadaptionen aus. Dafür wird unter Berücksichtigung der analytischen Ausrichtung der Daten das multidimensionale Modell auf mögliche Änderungen untersucht und es werden Regeln aufgestellt, wie sich diese Änderungen abbilden und konsistent auswerten lassen. Die zentrale Fragestellung der beschriebenen Problemstellung lautet:
„Wie lassen sich Dimensionsänderungen in Analytischen Informationssystemen so fortschreiben, dass implizitesWissen sichtbar und für Auswertungen ohne zusätzlichen Informationsverlust nutzbar gemacht werden kann?“
Der Vorschlag zur Beantwortung dieser Fragestellung ist ein GrAHD – Graphenbasierte Ad-hoc-Datentransformation genannter Ansatz, der Änderungen in den Dimensionen visualisiert und für Auswertungen verwendbar macht. Datenänderungen können dabei sowohl syntaktischer als auch semantischer Natur sein und werden als verbindende Kanten zwischen verschiedenen Versionen einer Dimension modelliert, wobei diese Dimensionen als Graphenstruktur aufgefasst werden. Durch die Interpretation der Verbindungen zum Zeitpunkt einer Analyseanfrage werden die möglichen Evolutionspfade identifiziert, die aus Mengen von verbundenen Dimensionselementen verschiedener Versionen bestehen. Die Evolutionspfade repräsentieren dabei domänenspezifisches Hintergrundwissen, wie z. B. die Bedeutungsänderung von Werten über die Zeit, den hier sogenannten Semantic Shift. Nutzer können dieses Hintergrundwissen visuell erfassen und sich für einen geeigneten Evolutionspfad entscheiden. Die Analyseanfrage wird dann zur Anfragezeit so umgewandelt, dass die Daten „ad hoc“, d. h. zum Zeitpunkt der Anfrage und speziell für deren Zwecke, unter die gewählte Bedeutung des Evolutionspfads transformiert werden. Da die Evolutionspfade derart berechnet werden, dass sie inhaltlich vergleichbare Mengen repräsentieren, sind die Ergebnisse im Sinne der intendierten Anfrage „akkurat“. Akkurat bedeutet hierbei, dass sie die modellierte, tatsächliche Entwicklung der Elemente wiedergeben und dabei im Vergleich zu bisherigen Ansätzen aus der Literatur auf Approximationen verzichten. Dies wird dadurch ermöglicht, dass die Daten in ihrem Originalformat und damit in ihrer originären Bedeutung gespeichert bleiben und die – normalerweise zur Datenadaption verwendeten – Transformationsregeln nur gespeichert, nicht aber direkt zur potentiell mit Informationsverlust behafteten Adaption der Daten verwendet werden.