Rückblick TDWI-Roundtable zum Thema „Hadoop“

Montag, 24. September 2012, 17:48 Uhr

Noch keine Kommentare

Leute, Leute, Leute, wie die Zeit vergeht… Ich bin noch den Rückblick auf den 14. Frankfurter TDWI-Roundtable vom 13.09.2012 schuldig, welcher das Thema „Big Data“ hatte. Dieses Buzzword nehme ich oft nur als Marketing-Argument oder vermeintlichen Heilsbringer wahr, praktische Case Studies, die wirklich verständlich und plakativ sind, gibt es leider nur wenige. Der Vortrag am genannten TDWI-Roundtable aber war ein sehr gutes Beispiel für den Einsatz von Apache Hadoop bei der 1&1 Internet AG in Karlsruhe für die Auswertung der dort anfallenden Logdateien.

Der Begriff „Big Data“ ist aus meiner Sicht nicht nur überstrapaziert, sondern auch sehr schwammig und zunächst einmal ohne konkreten Nutzen. Was soll das eigentlich heißen, Big Data?! Okay, wir haben es mit riesigen Datenmengen zu tun – wie Ingo Mierswa von Rapid-I am 3. Workshop OSBI bereits anmerkte, wäre da vielleicht der Begriffe „imense amaounts of data“ eher angebracht – und diese stellen unsere Technologien vor Probleme und bringen unsere Speichersysteme an ihre Grenzen. Aber mal ganz ehrlich, das war doch schon immer so. Aber haben wir von „Big Data“ gesprochen als unser Foto zu groß für die Diskette wurde? Oder was es „Big Data“ als das Video nicht mehr auf eine CD passte? Es ist nunmal normal, dass die Ansprüche immer weiter steigen und dass sich dann schlaue Leute auf der ganzen Welt Gedanken darüber machen, wie sich die neuen Probleme mit neuen Techniken und/oder Technologien lösen lassen.

Eine solche Antwort auf die aktuelle Probleme ist sicherlich das gesamte Ökosystem aus Algorithmen und Tools, das wir gemeinhin als „Apache Hadoop“ kennen. Und immer mehr Programme im BI-Umfeld können damit umgehen, okay. Aber verkaufe ich alleine dadurch, dass mein ETL- oder Reporting-Tool jetzt auf einmal „Big Data kann“ auch nur 1 Produkt mehr? Spare ich dadurch auch nur 1 Euro? Oder gewinne ich dadurch auch nur 1 neuen Kunden? Ich würde sagen: Nein, denn ich habe ja zunächst erst einmal die theoretische Möglichkeit Dinge zu machen, die vorher evtl. nicht nötig waren. Deshalb gefiel mir auch der Einstieg von Herrn Thoma von der inovex GmbH aus Karlsruhe sehr gut, der vor der allerersten Information über das Projekt mit der 1&1 Internet AG anmerkte, dass vor dem Einsatz von in diesem Fall Hadoop eines passieren MUSS:

Identifiziere erst das Problem.

Eine kurze aber überaus wichtige Feststellung, die zwar keinem Vertriebler gefallen wird, aber die sich Jeder vor einer Investitionsentscheidung unbedingt stellen sollte. Der Umgang mit Big Daten ist nicht automatisch DIE Lösung für alle Probleme und/oder der Schlüssel zum Erfolg. Und Hadoop ist auch nicht die eierlegende Wollmilchsau oder der „Colt für alle Fälle“. Zunächst einmal muss das Problem klar sein, bevor irgendetwas Anderes geschehen kann.

 
Das Big-Data-Projekt bei 1&1

Bei der 1&1 Internet AG hat man beispielsweise festgestellt, dass die Performance zur Analyse der vielen Logdateien und die zeitnahe Analyse und Erkenntnisbildung mit der vorhanden Technik nicht mehr zu schaffen war und begann deshalb mit Hadoop zu experimentieren. Der Einsatz von Hadoopwar also rein technisch begründet ohne dass gleich auch neue fachliche Themen angegangen wurden.

Von der Infrastruktur her steht ein System namens SYNAPSE zwischen den operativen Systemen und dem DWH bzw. weiteren Zielsystemen, die direkt (ohne „Umweg“ über das DWH) beliefert werden. Hinter SYNAPSE verbirgt sich ein Cluster aus aktuell 20 Hadoop-Server, auf denen parallel die Berechnungen stattfinden. Technisch gesehen möchte ich nicht zu sehr auf die Details eingehen, die Funktionsweise von Hadoop mit seinen Worker- und Named-Nodes ist anderswo sicherlich fundierter beschrieben. Bei der Ausstattung der Server nach Aussagen von Herrn Thoma darauf zu achten, dass diese nur zu sehr ausgelastet sind (Optimum: 70 – 75 %) und dass sich die Hardware daran zu orientieren habe, ob es sich eher um speicher- oder um rechenintensive Operationen handelt. Bei 1&1 trifft Ersteres zu. Trotz weniger Best-Practises und aller noch vorhandenen Unzulänglichkeit von Hadoop – Skalierungs-/Lastverhalten schwer vorhersehbar, (verteiltes) Test nur schwer möglich – zum Trotz habe es das Projekt geschafft eine stabiles System zu erstellen.

Durch den Einsatz von Haddop wurde bei 1&1 ein reines Mengenproblem gelöst, Hadoop war ein technischer Beschleuniger (ein „Turbo“ für den ETL-Prozess), ohne dass dadurch das Reporting verändert bzw. angepasst wurde. Das DWH ist weiterhin eine Oracle-Datenbank und der Einsatz von Hadoop im Hintergrund für das bestehende Reporting vollkommen transparent. Wichtig auch der abschließende Hinweis, dass Hadoop nicht wirklich geeignet sei für Interaktivität. Aber das was im vorliegenden Fall ja auch nicht möglich, denn es ging ja nur um Datenschaufelei inkl. Auswertung und Aggregation. Insgesamt ein sehr gute und für jeden nachvollziehbare Beschreibung eines erfolgreichen Hadoop-Projekts und kein Marketing-Geschwafel.

Das gerade beschriebene Projekt gehört im Übrigen auch zu den Finalisten des Big Data Kongress von Computerwoche, der am 26. und 27. September in Offenbach stattfindet.

 
Lifecycle Management

Auch interessant – wenn auch eigentlich nur logisch und sinnvoll – ist die Tatsache, dass bei 1&1 die Daten nur für einen sehr begrenzten Zeitraum in höchster Granularität vorgehalten werden. Je nach Anwendungsfall wird nach 30 bis 90 Tagen „aufgeräumt“ indem die Quelldaten gelöscht und die daraus berechneten Kennzahlen nur noch in aggregierter Form zur Verfügung stehen. Dieses Vorgehen impliziert auch, dass Fehler in der Berechnungslogik nicht mehr rückwirkend korrigiert werden können wenn die Quelldaten nicht mehr vorhanden sind.

Der ein oder andere wird jetzt vielleicht zusammenzucken ob der Vorstellung Daten einfach zu löschen und damit unwiderruflich zu vernichten. Sicherlich sind die aufgerufenen 30 bis 90 Tage kein allgemeingültiger Richtwert, aber das Thema Lifecycle Management sollte man eigentlich immer auf dem Schirm haben und eine ehrliche Antwort auf bestimmte Fragestellungen suchen. Was brauche ich wie lange? Welche Nutzen ziehe ich noch aus Uralt-Daten? Bin ich bereit zu akzeptieren, dass rückwirkende Korrekturen nur in einem begrenzten zeitlichen Rahmen möglich sind? 1&1 hat diese Entscheidung für sich getroffen und entschieden, dass feingranulare Logdateien nicht mehr benötigt werden wenn diese bereits Monate alt sind. Aktualität ist Trumpf, der Blick geht in die Zukunft. Nicht zu vergessen: Bei einer solchen Entscheidung spielen natürlich immer auch gesetztliche Vorgaben und Rahmenbedingungen sowie ein Konzern-interne Revision eine Rolle.

 
Fazit zum TDWI-Roundtable in Frankfurt am 13. Oktober

Vielen Dank an Herrn Thoma von der inovex GmbH aus Karlsruhe für den interessanten, fundierten und kurzweiligen Vortrag –  es war definitiv einer der besseren TDWI-Roundtables, an denen ich teilgenommen habe. Apropos Teilnahme an TDWI-Roundtables: Der kommende TDWI-Roundtable in Frankfurt findet am 29. November an gleicher Stelle statt und wird sich voraussichtlich mit dem Thema „Change Management in BI-Projekten“ beschäftigen – auch das verspricht wieder interessant zu werden. Der Termin steht zumindest mal schon in meiner iCloud 😉

Tags: , , , ,

Kommentare zu diesem Beitrag

Bisher wurde noch keine Kommentare abgegeben.
Sie können also die oder der Erste sein.

Jetzt einen neuen Kommentar abgeben



(optional, Ihr Name wird entsprechend verlinkt)