Buchrezension: Datenintegration

Montag, 04. Februar 2013, 23:33 Uhr

Noch keine Kommentare

Mitte Januar ist das Buch „Datenintegration“ erschienen, das von mehreren Studierenden der FH Erfurt geschrieben wurde. Das Buch will zum Einen ein Basiswissen für das Thema Datenintegration schaffen und das theoretische Wissen auch direkt praktisch umsetzen. Für den Praxisteil haben sich die Autoren unter der Herausgeberschaft von Prof. Ines Rossak das Talend Open Studio ausgesucht. Ich habe mir das Buch einmal angeschaut, um die Frage zu beantworten ob und für wen es nützlich ist.

Das Buch Datenintegration ist die Co-Produktion von 5 (teilsweise ehemaligen) Studenten von der FH Erfurt und wird herausgegeben von Prof. Dr. Ines Rossak. Die Idee zu dem Buch entstand in den Vorlesungen und Seminaren. Erschienen ist das Buch Mitte Januar im Hanser-Verlag. Der Titel ist nicht zu unrecht sehr allgemein gehalten, aber mit dem Talend Open Studio (for Data Integration) nimmt auch ein OSBI-Tool einen großen Platz darin ein.

Eine Motivation für dieses Buch war laut Aussage der Autoren in der Einführung die fehlende Literatur für Open-Source-Lösungen, die aus unterschiedlichen Gründen besonders im akademischen Bereich oftmals zum Einsatz kommen. Während es doch das ein oder andere Buch zu Pentaho gibt, sieht es bei anderen OSBI-Programmen eher mau aus. Erlauben Sie mir an dieser Stelle noch den kurzen Hinweis auf das Buch Open Source Business Intelligence (OSBI) – Möglichkeiten, Chancen und Risiken quelloffener Lösungen, an dem auch ich vor etwas mehr als 2 Jahren mitwirken durfte und welches den Themenbereich OSBI – ähnlich wie dieser Blog in seine Allgemeinheit zu erfassen versucht. Jetzt soll es aber ausschließlich um das gerade erschienene Buch gehen…


Was ist in dem Buch zu finden?

Auf den ersten knapp 45 Seiten des Buches geht es zunächst um die „Grundlagen der Datenintegration“. Anhand klassischer Szenarien wie Fusionen, verteilten Daten unterschiedlicher Granulariät, Qualiät und Art wird die Bedeutung von Datenintegration deutlich gemacht. Kurz eingegangen wird auf die Herausforderung bei der Datenintegration eingegangen, wie etwa verteilte und voneinander in unterschiedlichsten Weisen unabhängige Daten sowie deren Heterogenität in diversen Ausprägungen. Auch unterschiedliche Architekturen werden kurz vorgestellt sowie die Einordnung der ETL-Prozesse in heutige BI-Systeme, in denen irgendwann irgendwelche Benutzer schöne Diagramme und/oder Kennzahlen sehen können/wollen. Das Reporting ist aber ansonsten kein Thema. Der theoretische Teil bleibt meiner Meinung nach weder zu oberflächlich noch stirbt er in Details womit gerade unerfahrenere Nutzer sicherlich verloren gehen würden. Trotz sehr geringen Anforderungen an bereits vorhandenes Grundlagenwissen kann es nicht Schaden grundsätzlich schon einmal etwas mit Datenbanken zu tun gehabt zu haben.

In einer sehr kurzen Überleitung zwischen dem theoretischen 1. Teil und dem praktischen 2. Teil gibt es einen Marktüberblick bevor der Fokus sehr schnell auf Open-Source-Lösungen liegt. Bezüglich der Vor- und Nachteile wird im Wesentlichen auf „Open Source Software: Einsatzpotenziale und Wirtschaftlichkeit – Eine Studie der Fraunhofer-Gesellschaft“ aus dem Jahre 2006 eingegangen. Inwieweit die dort genannten Vor- und Nachteile auch heute, 7 Jahre später, noch zutreffen oder sich die Situation mittlerweile verändert (verbessert?!) könnte man mal an anderer Stelle diskutieren… Am Ende der 8-seitigen Überleitung sind die Autoren dann bereits bei der Produktpalette der Firma Talend dessen Merkmale laut der Einleitung die Anforderungen für dieses Buchprojekt unter allen OSBI-ETL-Tools am besten erfüllte.

Auf den weiteren 2/3 des Buches steht dann die Praxis im Vordergrund. Nach der grundsätzlichen Erklärung der Oberfläche wird anhand eines fiktiven Szenarios – der Fusion zweier Autovermietungen und der damit notwendigen Integration der jeweiligen Daten – der ETL-Prozess mit dem Talend Open Studio for Data Integration Stück für Stück beschrieben. Neben der Einrichtung von Datenbankverbindngen sowie dem grundsätzlichen Aufbau von Mappings/ETL-Strecken werden auch die wichtigsten Komponenten beschrieben (wobei die Beschreibung zumindest ein wenig über das hinaus geht was sich auf auf TalendForge finden lässt). Auch ohne Vorerfahrung mit diesem ETL-Tool findet sich der ungeübte Leser zurecht. Es versteht sich von selbst, dass ob der großen Menge an Komponenten, die das Talend Open Studio zu bieten hat, nur ein Bruchteil dieser auch wirklich erwähnt werden kann. Aber das kann auch nicht Anspruch an ein solches Buch sein, das schon aufgrund seiner „analogen Art“ ein Problem mit der Aktualität hat.

Dass es aber über die im Beispielszenario verwendeten Komponenten noch weitere interessante Funktionen im Talend Open Studio for Data Integration gibt versuchen die Autoren im vorletzten Kapitel zu zeigen. Nicht ganz zum Thema passend wird dort gezeigt wie Daten auch Social-Media-Kanälen verarbeitet werden können.


Fazit

Wer schon eine Weile im BI-Bereich und dort insbesondere im Bereich der Datenintegration unterwegs ist wird nicht viel Neues oder Spektakuläres erfahren. Aber wie schon in der Einleitung erwähnt richtet sich das Buch auch nicht an Experten und erfahrene Anwender, sondern an Studierende informatikbezogener Studiengänge, die sich mit dem Thema der Datenintegration auseinandersetzen wollen – Einsteiger also. Und ich glaube dieses Ziel erreichen die Autoren mit dem theoretischen 1. Teil des Buches und dem praktischen und leicht nachvollziehbaren 2. Teil, in dem das Talend Open Studio for Data Integration interessierten „Neulingen“ von Grund auf wie ich doch finden ziemlich gut erklärt wird.

Speziell was das Talend Open Studio angeht kann das im Buch beschriebene nur ein Einstieg sein, wenn auch mit Sicherheit kein schlechter. Darüber hinaus empfehlen sich auf jeden Fall auch die zahlreichen Webinare von Talend direkt.

Und für alle, die es vielleicht schon altmodisch finden ein gedrucktes Buch in die Hand zu nehmen: Im Buch findet sich auch ein Code, um das Buch als eBook digital zu beziehen 😉

Tags: , , , ,

Kommentare zu diesem Beitrag

Bisher wurde noch keine Kommentare abgegeben.
Sie können also die oder der Erste sein.

Jetzt einen neuen Kommentar abgeben



(optional, Ihr Name wird entsprechend verlinkt)