Proof of Concept zu Datenqualität mit Pentaho

Dienstag, 03. August 2010, 08:53 Uhr

Noch keine Kommentare

Auf heise open wurde ein Artikel veröffentlicht, der sich dem Thema Datenqualität annimmt und in Rahmen eines Proof of Concept (PoC) kommerzielle Software mit Pentaho als Vertreter der Open-Source-Fraktion vergleicht. Pentaho stellt dabei die (nicht namentlich genannten) kommerzielle Konkurrenz klar in den Schatten, außerdem bietet der Artikel tiefgreifendes Wissen rund um das Thema Datenqualität.

Egal welche Quelle man auch heranzieht, um die Trends im BI-Bereich für das Jahr 2010 zu bestimmen, das Thema Datenqualität ist neben Mobile BI immer mit dabei. Die Unternehmen haben das Problem mittlerweile erkannt und es gibt ja auch noch das schöne Sprichwort „You cannot control what you cannnot measure“, welches auch hier zutrifft. Bevor also Abhilfe geschaffen werden kann, muss die Datenqualität demnach messbar gemacht werden.

In einem Proof of Concept bei einem „großen Telekommunikationsunternehmen mit einer Kundenbasis von mehreren Millionen Kunden“ wurden zwei nicht näher benannte kommerzielle Lösungen mit dem Open-Source-Vertreter Pentaho hinsichtlich der benötigten Zeit, der Vollständigkeit und der Genauigkeit miteinander verglichen. Außerdem musste die Aufgabe innerhalb von 4 Wochen gelöst werden.

Ein paar Rahmenbedingungen:

  • sehr leistungsfähiger Server: 8 x UltraSPARC IV+ 1800MHz-CPU, 8 GB RAM, 12 TB RAID‐Storage
  • zu analysierende Datenmenge: 5 Terrabyte
  • sehr heterogene Architektur mit relationalen und hierarchischen Datenstrukturen, unterschiedlichen Schnittstellen und unterschiedlichen Modellierungsansätzen
  • Daten aus hierarchischen IBM-Datenbanken nur als Dump vefügbar
  • Umsetzungszeit: 4 Wochen

Das Ergebnis dieses Proof of Concept dürfte Pentaho jubeln lassen und beweits ein Mal mehr, dass Open-Source-BI-Software sich nicht vor kommerzieller Konkurrenz verstecken braucht:

Wie in der Übersicht dargestellt, übertraf die Open‐Source‐Lösung sowohl bei der Vollständigkeit als auch bei der Performance […] die kommerzielle Konkurrenz deutlich. Nicht zuletzt konnte die Open-Source-Software mit deutlich geringeren Lizenz‐ und Supportkosten punkten.

Pentaho geht als eindeutiger Sieger hervor und hat dies vor allem seiner quelloffenen Architektur zu verdanken.

Wäre jetzt natürlich interessant zu wissen um welche beiden kommerziellen Vertreter es sich gehandelt hat. Das wird aber wohl nie zu erfahren sein. Nicht minder interessant wäre auch der Vergleich mit Talend gewesen, die mit dem Talend Open Studio (darauf aufbauend die kommerzielle Talend Integration Suite) und dem Talen Open Profiler ( kommerziell: Talend Data Quality) auch Produkte an, die für einen solchen Proof of Concept prädestiniert gewesen wären bzw. auch ob es einen Grund für die Wahl von Pentaho gegeben hat. Ein direkter Vergleich zwischen dem Pentaho-Produktportfolio und jenem von Talend ist mir leider nicht bekannt.

Der gesamte Artikel auf heise open findet sich unter Datenqualitätsmessung: Proof of Concept.

Tags: , , ,

Kommentare zu diesem Beitrag

Bisher wurde noch keine Kommentare abgegeben.
Sie können also die oder der Erste sein.

Jetzt einen neuen Kommentar abgeben



(optional, Ihr Name wird entsprechend verlinkt)