Data Science für Nicht-Programmierer
BigML
BigML ist eine pragmatische und dank grafischer Oberfläche einfach zu bedienende Plattform zum Erstellen leistungsfähiger Vorhersagemodelle. Die cloudbasierte Machine-Learning-Plattform kombiniert überwachtes und unüberwachtes Lernen, Anomalie-Erkennung, Datenvisualisierungs-Tools und Mechanismen zur Datenanalyse. Resultierende Vorhersagemodelle können in verschiedenen Formaten und Sprachen exportiert werden und lassen sich über eine REST-API einfach in Produktionsanwendungen einbinden. Die Zielgruppe sind mittlere und grosse Unternehmen, die die Vorteile des maschinellen Lernens ohne grosse Vorlaufkosten oder Implementierungsverzögerungen ausprobieren beziehungsweise nutzen möchten.
Die Nutzer von BigML kommen aus zahlreichen Branchen. Die integrierten Anomalie-Erkennungsalgorithmen sind ideal für die Betrugserkennung und finden daher bevorzugt bei Finanzdienstleistern Anwendung. Die Clustering-Methoden eignen sich zur Untersuchung des Marktverhaltens und aller Daten, aus denen sich ein Gruppenverhalten ableiten lässt. Per überwachtem Lernen können Prognosemodelle entwickelt werden, mit denen sich etwa Projektkosten, aber auch Kundenabwanderung oder andere Verhaltensweisen vorhersagen lassen. BigML bietet hier bereits eine Sammlung von Vorlagen für Vorhersagemodelle, die diverse Geschäftsprobleme abdecken.
Als cloudbasiertes System wird BigML über den Browser bedient. Daten können über mehrere Mechanismen geladen werden, auch per Direktzugriff auf Cloud-Dienste wie Amazon S3. Für Bereinigung, Normalisierung, Transformation und Feature-Engineering stehen zahlreiche Tools zur Datenvorbereitung zur Verfügung. Dabei erkennt und formatiert BigML Daten automatisch nach ihrem Typ. Zu einzelnen Attributen werden jeweils Metadaten angezeigt. Nützlich ist auch ein integriertes Verteilungsdiagramm.
Das unüberwachte Lernen basiert auf Clusterbildung und wird eingesetzt bei der Kundensegmentierung, Betrugserkennung, Objektverifizierung und etlichen anderen Anwendungen. Die überwachten Lernalgorithmen verwenden CART-Tree-ähnliche Klassifizierer und Entscheidungsbäume. Typische Anwendungen hierfür sind beispielsweise Credit Scoring, Churn Prevention und Predictive Maintenance. Die Anomalie-Erkennung isoliert und bewertet Anomalien und kann zur Verhaltensauthentifizierung, zur Datenbereinigung, für Intrusion Detection oder auch Videoüberwachung verwendet werden.
In der Benutzerumgebung lassen sich per Drag and Drop interaktive Grafiken erzeugen, anhand derer Daten und Modelldetails genauer untersucht werden können. Zur Modellauswertung dienen Splits in Trainings- und Testdaten sowie eine Konfusionsmatrix-Identifikation von Falschpositiven und Negativen. Die entstandenen Modelle können in Java, Python, Node.js und Ruby sowie ins Tableau- oder Excel-Format exportiert werden.