Rückblick: Webinar zur Talend Integration Suite 4.0

Montag, 26. Juli 2010, 11:26 Uhr

2 Kommentare

In einem einstündigen Webinar präsentierte der Datenintegrations-Spezialist Talend die Features seines ETL-Tools Talend Integration Suite, neuerlich in Version 4.0 erschienen. Die Integration Suite steht unter einer kommerziellen Subscribtion-Lizenz und erweitert den Funktionsumfang des bekannten und weit verbreiteten Open Source ETL-Tools Talend Open Studio. Die neuen Funktionen wie Joblets, Impact Analyse und das integrierte Monitoring wurden sehr gut präsentiert und wussten zu überzeugen.

Auch ich habe bisher immer nur mit dem quelloffenen Talend Open Studio (TOS) arbeiten können, damit aber bereits einige Problemstellungen lösen können. Ähnlich wie das in Pentaho integrierte ETL-Tool Kettle bietet TOS eine grafischeauf dem Eclipse-Framework aufbauende Oberfläche zur einfachen und intuiven Modellierung. Außerdem ist das Talend Open Studio als OEM-Version unter der Bezeichnung JasperETL auch in der BI-Suite des Open Source BI-Anbieters Jaspersoft enthalten.

TOS bietet bereits einen sehr großen Funktionsumfang mit über 450 Komponenten und kann für den einfachen und schnellen Einstieg im Download-Bereich der Talend-Internetseite kostenlos heruntergeladen werden. Wem diese Basis-Funktionalität nicht mehr ausreicht, was vor allem bei steigenden Datenmengen und immer größeren BI-Projekten der Fall sein dürfte, dem steht mit der Talend Integration Suite eine funktionserweiterte Version unter einer kommerziellen Subscription-Version zur Verfügung. Das Webinar vom 22. Juli 2010 beschäftigte sich auch ausdrücklich mit dieser kommerziellen Erweiterung und stellt im Wesentlichen drei Features im Detail vor:

  • Joblets (Teilfunktionen)
  • Impact Analyse (Welche Auswirkungen haben Änderungen an einzelnen Komponenten)
  • Monitoring


Einordnung von Talend Open Studio und der Talend Integration Suite

Das Talend Open Studio und die Talend Integration Suite sind nur ein Teil des Produktportfolio der Firma Talend und decken den Bereich der Datenintegration ab. Darüber hinaus gibt es für den Bereich Datenqualität den quelloffenen Talend Open Profiler sowie Talend Data Quality unter dem Subscription-Modell und für das Metadaten-Management Talend MDM Community Edition respektive Talend MDM Enterprise Edition wie die folgende Grafik zeigt. Die (lilane) Talend Lifecycle Platform (LCp) war auch mir bis gestern noch unbekannt, aber man lernt ja bekannt nie aus…


Talend Open Studio vs. Talend Integration Suite

Anschließend ging es ohne Unternehmenspräsentation und Umschweife direkt zur Sache und einer Gegenüberstellung des quelloffenen Talend Open Studio und der Integration Suite. Das kommerzielle Pendants wartet erweitertem Funktionsumfang und hilfreichen Wizards auf, die die Arbeit erleichtern und beschleunigen sollen. So ist beispielsweise auch der direkte Metadatenzugriff bei der Arbeit mit SAP-Vorsystemen möglich. Darüber hinaus ermöglicht die Talend Integration Suite mit ihrem Shared Repository die Teamarbeit an einem Projekt nachdem das Talend Open Studio nur für den Einzelplatzbetrieb ausgelegt ist.

Viele Abläufe lassen sich direkt in der TIS automatisieren. Es gibt einen Sheduler, der Jobs zeit- und ereignisgesteuert zur Ausführung bringen kann und auch Failover- und Loadbalancing-Mechanismen zur Verfügung gestellt. Die Ausführung der Jobs lassen sich zudem viel besser überwachen, da die Activity Monitoting-Konsole die entsprechenden Einsichten ermöglicht und Statistiken anzeigt.

Anhand einer Live-Demo wurden anschließend drei Features gesondert vorgestellt.


Joblets

Ein Joblet ist in gewisser Weise nicht anderes als ein kleiner Job und damit die Zusammenfassung von ein paar Komponenten zu einer funktionalen Einheit. Ebenso wie sich Jobs in anderen Jobs einbinden und aufrufen lassen, lassen sich auch Joblets wiederverwenden. Der Unterschied liegt im wesentlichen darin, dass die Joblets Ein- und Ausgabe-Datenströme benötigen bzw. bieten. Bei Einbinden eine Job mit der Komponente tRun war dies nicht möglich.

Wahrscheinlich liegt an an meinem Informatik-Studium als ich dabei sofort an die Rolle von Methoden in der Objektorientierten Programmierung denken musste. Denn genau damit lässt sich ein Joblet vergleichen, das Eingangs-Parameter in Form von Datenströmen erwartet, eine bestimmte Aufgabe ausführt und anschließend ein Ergebnis zurückliefert. Mit dieser Möglichkeit ist redundanter Code noch einfacher zu vermeiden.

Wie so vieles bei Talend ist auch die Erstellung der Joblets in Talend kinderleicht. Einfach die Komponenten markieren, die zusammengefasst werden soll, und über das Kontextemenü das Joblet anlegen. Das war es auch schon.


Impact Analyse

Mit Hilfe der Impact Analyse lässt sich leicht sehen, an welchen Stellen einzelne Komponenten oder Variablen verwendet werden. Durch die zentrale Verwaltung der Metadaten können sich Änderungen schnell an sehr vielen unterschiedlichen Stellen auswirken, teilweise auch an Stellen, an denen man Änderungen gar nicht mehr vermutet. Solche Änderungen können schnell unerwartete und unangenehme Auswirkungen annehmen, da Talend konsequent die Ersetzungen vornimmt.

Die Impact Analyse lässt sich bequem aus dem Kontextmenü eines Jobs aufrufen. Anschließend lässt sich nach Komponenten, Schemata bis hinunter auf einzelne Spalten filtern um zu sehen wo und in welcher Weise ein bestimmter Wert verwendet wird. Letzteres ist vor allem dann wichtig wenn anstatt eines Strings auf einmal ein numerischer Wert verwendet werden soll und Methoden, die einen String erwarten dadurch nicht mehr funktionieren würden.

Während man alleine in der Regel noch wissen sollte was wo wie verwendet wird, kann bei der Arbeit in einem größeren Team schnell nicht mehr der Fall sein. Kollegen verwenden (richtigerweise) Variablen, die man selber definiert hatte, und aufgrund dieser fehlenden Information hat man schnell unschöne Ergebnisse bei Änderungen. Aus diesem Grund auf jeden Fall ein sehr sinnvolles und nützliches Feature.


Monitoring

Ein oft genannter Vorteil des quelloffenen Talend Open Studio ist der einfach Export. Der Export eines Jobs produziert eine JAR-Datei, die sich plattformunabhängig auf jedem Server mit installierter Java Virtual Machine ausführen lässt. Diese Einfachheit beschränkt allerdings auch die Möglichkeiten des Monitorings auf die vom Betriebssystem bereitgestellten Mechanismen.

Was in einfachen Konstellationen durchaus ausreichend sein mag, wird mit zunehmender Komplexität und Größe schnell zum Problem. Bei lang laufenden Jobs wäre es wichtig den aktuellen Fortschritt zu sehen, ebenso interessieren Gründe beim Abbruch von Problemen oder die Entwicklung der nötigen Verarbeitungszeit und der Ressourcen bei steigenden Datenmengen. All dies ist über das Monitoring in der Talend Integration Suite möglich, die sich in die Oberfläche integriert und die nötigen Informationen bietet.

Die Monitoring-Ansicht ist damit quasi ein Frontend für den zentralen Server-Dienst, in dem die Jobs ausgeführt werden. Das Monitoring bietet deutlich mehr Einblicke in die Details der auszuführenden Jobs und erstellt automatisch auch eine entsprechende Historie über die Ergebnisse und Laufzeiten. Über die Komponente tWarn lassen sich innerhalb der Jobs Meldungen erzeugen, die in der Monitoring-Konsole ausgegeben werden.


Fragen

Am Ende blieb auch noch in wenig Zeit für Fragen wobei die Frage, was von dem Gezeigten auch im Talend Open Studio verfügbar wäre, schon selten dämlich war. Schließlich impliziert schon der Titel, dass es speziell um die kommerzielle Talend Integration Suite geht. Aber da war sie dann wieder, die Geiz-ist-geil-Fraktion, die Open Source und kostenlos immer noch gleichsetzt und am liebsten alles geschenkt bekommen würde.

  • Lassen sich Joblets auch in anderen Projekten verwenden? – Ja, über referenzierte Projekte – vergleichbar mit der Vererbung in der Objektorientierten Programmierung – lassen sich Joblets aus einem Projekt auch in anderen Projekten nutzen.
  • Was kostet die Talend Integration Suite? – Würde mich auch mal interessieren, aber hier wurde man nur gebeten sich per eMail an den Vertrieb zu wenden da der Preis auch von zahlreichen Rahmenbedingungen abhängt.
  • Kann man das Webinar noch einmal anschauen? – Aus technischen Gründen wird dies in diesem Fall entgegen der Regel nicht möglich sein. Aber Talend kündigte auch an, dass es sicherlich auch in Zukunft wieder ein Webinar mit diesem Thema geben wird.


Fazit

Da auch ich bisher immer nur mit dem Talend Open Studio gearbeitet habe, bot mir das Webinar viel Neues. Die zusätzlichen Features sind sicherlich unabdingbar wenn es um den professionellen Einsatz von Talend als ETL-Tool geht. Wieviel Geld man für diese zusätzlichen Funktionen locker machen muss ist leider unbeantwortet geblieben.

Während des Webinars erfolgte auch der Hinweis auf eine kostenlose 3-stündige Raodshow, die ab September in unterschiedlichen Städten stattfindet und einen Einblick in das Integration Studio bieten soll. Ich war vor einiger Zeit schon einmal bei einer Roadshow zum Talend Open Studio und mit dieser zufrieden. Von dem her werde ich mich sicherlich auch zur dieser neuen Roadshow anmelden, noch weiß ich aber nicht genau wo.

Alle Infos zur Roadshow und die Termin gibt es bei Talend: Registrierung für die Talend Raodshow

infowirt-albrecht@gmx.de

Tags: , ,

Kommentare zu diesem Beitrag

  1. Danke für die supergute Review zu diesem Webinar. Das motiviert für alle noch folgenden Webinar zu Talend.

    Schönes Wochenende

    Thomas

  2. Christian Kolodziej sagt:

    Dann freue ich mich schon auf die nächsten Webinare, um auch meine Fertigkeiten mit den Talend-Produkten weiter ausbauen zu können.

Jetzt einen neuen Kommentar abgeben



(optional, Ihr Name wird entsprechend verlinkt)