Data Science für Nicht-Programmierer
DataRobot
DataRobot will eine maschinelle Lernplattform für Datenwissenschaftler aller Fähigkeitsstufen bieten. Das Ziel ist, präzise Vorhersagemodelle in einem Bruchteil der bisher benötigten Zeit zu erstellen und einzusetzen. Auch hier hat man den kritischen Mangel an Datenwissenschaftlern erkannt und will das Problem adressieren, indem Geschwindigkeit und Wirtschaftlichkeit der Vorhersageanalytik verbessert werden, um Zeit zu sparen.
Die Plattform verwendet daher massiv parallele Verarbeitung, um Modelle in R, Python, Spark MLlib, H2O und anderen Open-Source-Bibliotheken zu trainieren und zu bewerten. Dabei werden Millionen möglicher Kombinationen von Algorithmen, Vorverarbeitungsschritten, Features, Transformationen und Optimierungsparametern durchsucht, um die besten Modelle für die jeweiligen Datasets und Vorhersageziele zu liefern. Der Vorgang ist transparent, sodass der Benutzer die Gültigkeit seiner Ergebnisse verfolgen und überprüfen kann. Darüber hinaus lassen sich eigene Modelle auf der Plattform programmieren, trainieren, testen und vergleichen.
Da maschinelles Lernen ständig mehr Geschäftsprozesse beeinflusst, sind neben der Leistung auch Sicherheit und Integrationsfähigkeit der Plattform von wesentlicher Bedeutung. Zu seinen Stärken zählt DataRobot eine hohe Verfügbarkeit von 99,99 Prozent, eine verteilte und «selbstheilende» Architektur, die Möglichkeit zur nahtlosen Integration in Unternehmenssicherheits-Technologien, Plug and Play von Hadoop sowie zahlreiche gängige Datenbankzertifizierungen.
Das System kann auf dem Hadoop-Cluster ausgeführt werden und bringt damit eine integrierte maschinelle Lernautomatisierung auf den Hadoop-Stack. Mit Spark für die Verarbeitung grosser Datenmengen ist es für Datensicherheit und -management ausgelegt. So sind Machine-Learning-Datenobjekte und -Operationen für Hadoop-Managementprozesse und -Richtlinien sichtbar und stehen unter deren Kontrolle.
DataRobot findet auch wichtige Treiber in Geschäftsmetriken, identifiziert Schlüsselwörter und Phrasen in unstrukturiertem Text und kann grundlegende Visualisierungen seiner Ergebnisse ausgeben.
Wichtig ist, dass das System bei all dem nicht dazu gedacht oder geeignet ist, den Datenwissenschaftler zu ersetzen, sondern seine Arbeit vielmehr zu unterstützen und zu verbessern. DataRobot-Anwender brauchen daher zumindest ein grundlegendes Verständnis von Data-Science-Methoden und Business-Intelligence-Tools wie Tableau oder Excel.