Big-Data-Analysen mit Google Cloud Dataflow
RDD und Spark als Big-Data-Alternativen
Google Cloud Dataflow ist nicht die einzige Initiative, die die Beschränkungen von Map-Reduce aufheben will, sagt Tony Baer, Principal Analyst und Big-Data-Experte beim Marktforschungsunternehmen Ovum: „Die Community ist sehr viel grösser geworden und es tauchen immer mehr Alternativen auf.“
Das derzeit vielversprechendste und meistdiskutierte Modell haben Matei Zaharia et al. 2012 vorgestellt: „Resilient Distributed Datasets“ (RDD) und die dafür eigens geschaffene Programmierschnittstelle Spark. „Spark bietet einen neuen Berechnungsansatz für Map-Reduce-artige, mehrstufige Analysen, der den I/O-Overhead massiv reduzieren oder sogar eliminieren kann“, so Ovum-Analyst Baer.
RDDs sind verteilte, schreibgeschützte Daten, die durch Transformationen aus Ursprungsinformationen oder anderen RDDs entstehen. Das Modell ermöglicht es, fehlertolerant Berechnungen auf grossen Clustern durchzuführen. Es hat ausserdem dann erhebliche Vorteile, wenn die Daten zur Berechnung im RAM der beteiligten Computer vorgehalten werden, der Flaschenhals des Lesens und Schreibens auf Festplatten oder SSDs also eliminiert wird. Diese sogenannten In-Memory-Systeme erzielen bei bestimmten Analysen enorme Geschwindigkeitsgewinne gegenüber einer herkömmlichen Implementierung von Apache Hadoop mit Map-Reduce und Datenzugriff über das Hadoop Distributed File System (HDFS).
Laut Zaharia können RDDs beziehungsweise Spark die Berechnung logistischer Regressionen gegenüber Apache Hadoop um das bis zu 25-Fache beschleunigen. Die interaktive In-Memory-Datenanalyse mit Spark erzielt im Vergleich zu diskbasierten Systemen ähnliche Geschwindigkeitsvorteile.
Wer wird sich durchsetzen?
Wenn der Big-Data-Dienst Cloud Dataflow hält, was Google verspricht, dann wird er zu einer deutlichen Demokratisierung führen – und dazu, dass sich die Analyse extrem grosser Datenmengen verbreitet.
Allerdings besteht die Herausforderung bei Big Data nicht so sehr darin, das Datenmodell zu programmieren, sondern die richtigen Fragen zu stellen und die erzielten Ergebnisse interpretieren zu können. Dafür sind auch zukünftig etwas mehr als drei Zeilen Code notwendig.
Ob ein Unternehmen Services wie Google Cloud Dataflow sinnvoll einsetzen kann, hängt auch davon ab, wo die Daten herkommen. Die Analyse in der Cloud bietet sich immer dann an, wenn die Informationen ohnehin online generiert werden. Dies ist zum Beispiel bei Facebook-Posts, Twitter-Feeds oder Transaktionen in einem Online-Shop der Fall.
Für Offline-Daten ist Apache Hadoop sicher auch zukünftig die bessere Alternative, zumal die Programmierschnittstelle Spark viele Einschränkungen von Map-Reduce aufhebt.
Weitere Infos
- „Big Data in kleinen und mittleren Unternehmen“
- „FlumeJava: Easy, Efficient Data-Parallel Pipelines“
- „MillWheel: Fault-Tolerant Stream Processing at Internet Scale“
- Big-Data-Analysen mit Google Cloud Dataflow
- Einheitliches Datenmodell und flexiblere Abfragen
- Google Cloud Dataflow statt Map-Reduce?
- Die Schwächen von Map-Reduce-Berechnungen
- RDD und Spark als Big-Data-Alternativen
- IBM-Statement zur Datenverarbeitung in der Cloud
- Intel-Statement zur Datenverarbeitung in der Cloud
- Cloud Dataflow und andere Big-Data-Werkzeuge