OLAP

1. Überblick

In großen Data Warehouse Umgebungen stoßen einfache Abfrage-Werkzeuge für den Datenzugriff schnell an die Grenzen ihrer Leistungsfähigkeit, und der Performance-Gewinn wird zum zentralen Thema. Ein weiteres Problem liegt im eingeschränkten Funktionsumfang von SQL. Komplexe analytische Abfragen, wie beispielsweise "Zeige mir alle regionalen Verkäufe als Prozentzahl in NRW von Februar bis März 1999, und vergleiche es mit dem gleichen Zeitraum im letzten und vorletzten Jahr", sind mit Standard-SQL nur schwer oder unmöglich durchzuführen.

Um diesen Problemen gerecht zu werden, wurden in der Vergangenheit von einigen Anbietern spezielle Technologien entwickelt, die für solche Abfragen optimiert wurden. Heute erleben diese Werkzeuge unter dem Begriff Online Analytical Processing (OLAP) einen erneuten Aufschwung gerade im Hinblick auf das Data Warehousing.

  Beim Data Warehouse handelt es sich um ein Konzept, das bereits im Jahre 1988 von der Firma IBM im Rahmen der EBIS-Architektur (European Business Informations Systems) vorgestellt wurde. Der zu diesem Konzept gehörende Begriff "Data Warehouse" wurde einige Zeit später insbesondere von dem amerikanischen Berater William Immon geprägt, dessen 1993 veröffentlichtes Buch inzwischen den Ruf eines Standardwerkes innehat.

Da mit dem Data Warehouse eine separate Systemarchitektur angestrebt wird, können die bisherigen Sachzusammenhänge der operativen Daten neu, in sogenannten Dimensionen (Produkte, Kunden, Regionen, Zeit, ....) dargestellt werden. Diese Technologie erlaubt eine natürliche Sicht auf die Daten und damit schnellere und komplexere Abfragen. Solche Dimensionen stellen den Kernpunkt dessen dar, was man heute unter OLAP versteht. Im wesentlichen kann man zwei Hauptrichtungen von OLAP unterscheiden, die sich in der Art der mehrdimensionalen Datenhaltung unterscheiden. Einerseits gibt es die Möglichkeit der physischen mehrdimensionalen Datenhaltung, andererseits die Möglichkeit der virtuellen mehrdimensionalen Datenhaltung.

Die physische mehrdimensionale Datenhaltung wird in der Regel durch proprietäre Datenbanksysteme erreicht, die als OLAP-Server oder MDDBMS (Mehrdimensionales Datenbank Management System) bezeichnet werden. Die virtuelle mehrdimensionale Datenhaltung nutzt hingegen in Verbindung mit speziellen Modellierungstechniken und einer OLAP-Engine die Fähigkeit eines RDBMS (Relationales Datenbank Management System).

Beim OLAP handelt es sich letztendlich um eine Technik, die es dem jeweiligen Anwender erlaubt, sich mittels eines interaktiven Zugriffs in eine Vielzahl von Sichten und Darstellungsweisen auf Basisdaten einen schnellen Einblick zu verschaffen. Im Grunde genommen ist OLAP die konzeptionelle Basis für Lösungen zur Unterstützung der dynamischen Analyse von Unternehmensdaten. OLAP-Systeme führen zu einer deutlich verbesserten Versorgung der Führungskräfte mit unternehmensrelevanten Daten. Durch OLAP bekommt der Endbenutzer die Möglichkeit, durch die Informationsbasis des Unternehmens zu navigieren und detaillierte (Drill-Down) beziehungsweise aggregierte (Roll-Up) betriebswirtschaftliche Daten zu betrachten.

  Anmerkung: Beim Drill-Down handelt es sich um eine interaktive Abfrage, die es ermöglicht, innerhalb der Dimension auf detaillierte Daten zuzugreifen. Beim Roll-Up handelt es sich um eine interaktive Abfrage, welche es ermöglicht, innerhalb der Dimension auf summierte Daten zuzugreifen.

Es geht beim OLAP nicht darum, die klassischen Datenbanken zu ersetzen, sondern darum, die auf operativer Ebene etablierten klassischen Datenbanken mit analytischen Funktionen zu ergänzen. Im Prozeß der Entscheidungsfindung können die Daten nicht nur von einer, sondern von mehreren Perspektiven aus analysiert werden. Durch das multidimensionale Modell können die Unternehmensdaten dann von verschiedenen (Slice and Dice, Rotate) Positionen betrachtet werden.

  Anmerkung: Slice greift auf Daten in einer extrahierten Schicht der multidimensionalen Darstellung zu. Dice greift auf Detaildaten einer extrahierten Schicht der multidimensional dargestellten Daten zu. Rotate auch als Pivoting oder Rotation bezeichnet - ermöglicht die Betrachtung der Daten aus unterschiedlichen Dimensionsansichten.

Der Erfinder des relationalen Modells, E. F. Codd, hat für OLAP zwölf Regeln definiert, die zwar anfangs viel Kritik bekommen haben, inzwischen aber weitgehend anerkannt sind. Zu den wichtigsten Regeln gehören:

  Die multidimensionale Sicht der Unternehmensdaten ist für die Entscheidungsfindung adäquater als eine satzorientierte relationale Sicht. Für eine sachgerechte Analyse braucht der Entscheider ein Gesamtbild der Unternehmensdaten, so daß die Daten, die für die Entscheidungsfindung verwendet werden, nach den Bedürfnissen des Endanwenders - nämlich multidimensional - abgespeichert sein sollten. Diese multidimensionale Sicht, die für analytische Zwecke optimal ist, nennt man in der entsprechenden Literatur "Würfel" oder "Daten-Würfel".

Nach der Publizierung dieser von E. F. Codd im Jahre 1993 aufgestellten Regeln begann ein regelrechter Run auf Software, die diesen Anforderungen gerecht wurde. Auch die großen Hersteller von relationalen Datenbanksystemen wie Oracle oder Informix bemühten sich sehr schnell - durch Firmenaquisitionen oder durch Eigenentwicklungen - entsprechende Produkte anzubieten.

Bereits 1994 gründeten vier der bedeutendsten MIS-Hersteller - Arbor Software, Comshare, IRI Software und Pilot Software - das OLAP-COUNCIL. Dieses Gremium setzte sich zum Ziel, einen gemeinsamen Standard unter dem Begriff OLAP zu erarbeiten. Heute sind nahezu alle Hersteller Mitglied dieses Gremiums.

2. Dimensionen und Daten-Würfel

Im ersten Schritt werden beim Aufbau einer OLAP-Datenbank die einzelnen Dimensionen des Unternehmens erstellt. Typische Dimensionen sind beispielsweise Produkte, Kunden, Zeit, Währungen, Konten etc. Innerhalb einer Dimension definiert man einzelne Elemente (zum Beispiel Produkt 1, Produkt 2, ... , Produkt n) und auch die reell vorhandenen Hierarchien. Produkte lassen sich so zu Produktgruppen, Monate zu Quartalen, Kunden zu Regionen oder Branchen verdichten.

Dimensionen

In einem zweiten Schritt werden die erstellten Dimensionen miteinander kombiniert, und man erhält die sogenannten OLAP-Würfel oder OLAP-Tabellen. Die Zahl der kombinierbaren Dimensionen pro Würfel ist dabei aber keinesfalls auf drei begrenzt, sondern sollte nach den Regeln von E. F. Codd zwischen 15 und 20 liegen.

 

Datenwürfel

Ein solcher OLAP-Würfel kann mit Daten gefüllt werden, die dann für eine Analyse verwendet werden können.

Zur Arbeit mit OLAP-Würfeln bieten verschiedene Hersteller unterschiedliche Abfragewerkzeuge an. Je nach Anforderung gibt es zum Beispiel die Möglichkeit, ein EIS-Werkzeug, ein Spreadsheet, eine Programmiersprache oder eine Kombination aus den einzelnen Werkzeugen zu verwenden.

3. ROLAP

OLAP-Systeme, die als Basis die multidimensionale Sicht der relationalen Datenbanken verwenden, werden als Relational-OLAP (ROLAP) bezeichnet. Die relationalen Tabellen bilden die Dimensionen in ein denormalisiertes sogenanntes "Star Schema" ab, dessen Layout sich erheblich von einer für operative Zwecke modellierten Datenbank unterscheidet. Werden die Dimensions-Tabellen in kleinere Dimensionen zerlegt, erhält man ein "Snowflake Schema".

Ursprünglich ist ROLAP eingeführt worden, um technische Probleme der Datenzugriffsmethoden traditioneller Datenbanken zu beheben ohne die Vorteile dieser Methoden zu verlieren, und durch die multidimensionale Sicht eine analytische Funktionalität zu gewährleisten. ROLAP stellt so gesehen eine Kombination von zwei Ansätzen dar, nämlich den flexiblen Funktionen von Multidimensionalität zur Datenanalyse und den Möglichkeiten zur Datenspeicherung eines relationalen Datenbanksystems.

ROLAP-Systeme setzen auf einer dynamischen OLAP-Engine auf, die während der Laufzeit SQL-Abfragen generiert. Mit Hilfe einer intuitiven multidimensionalen Schnittstelle hat der Endbenutzer die Möglichkeit, seine Abfragen zu formulieren und an ein ROLAP weiterzuschicken. Mit ROLAP werden die vom Benutzer formulierten Abfragen in entsprechende SQL-Statements umgesetzt, die die angeforderten Daten aus dem Data Warehouse holen und dann in der gewünschten Form zur Verfügung stellen.

 


Copyright 2000  

Homepage: http://www.mkonetzny.de

Adresse: