Neuer Ansatz für ML
17.09.2024, 10:13 Uhr
Die erste Regel des maschinellen Lernens - beginnen Sie ohne maschinelles Lernen
Eugene Yan erklärt, warum es sinnvoll ist, Probleme zuerst ohne maschinelles Lernen zu lösen und welche einfachen Ansätze oft effektiver sein können.
Das maschinelle Lernen erfordert nicht nur eine grosse Menge an Daten, sondern auch eine robuste Pipeline zur Unterstützung des Datenflusses und vor allem qualitativ hochwertige Labels. Daher empfiehlt Eugene Yan in seinem neuesten Artikel, dass der erste Schritt beim maschinellen Lernen nicht unbedingt der Einsatz von ML-Techniken sein sollte. Stattdessen sollte man versuchen, Probleme zuerst mit einfacheren Ansätzen zu lösen.
Yan verweist auf Google’s Regel Nummer eins: 'Haben Sie keine Angst, ein Produkt ohne maschinelles Lernen zu starten.' Viele erfahrene Fachleute teilen diesen Rat, da grundlegende heuristische Ansätze oft überraschend effektiv sind. In seinem Beitrag schildert er Erfahrungen von anderen Praktikern, die alle zu dem Schluss kommen, dass das Lösen eines Problems auch manuell oder mit einfachen Regeln erreicht werden kann. Diese vorläufigen Versuche bieten nicht nur wertvolle Erkenntnisse zu den Daten und dem zu lösenden Problem, sondern schaffen auch eine solide Grundlage für spätere maschinelle Lernansätze.
Abgesehen von der Notwendigkeit, ein tiefes Verständnis für die Daten zu entwickeln, hebt Yan die Bedeutung der Visualisierung hervor. Ob durch Scatter-Plots oder Box-Plots, das Erforschen der Beziehungen zwischen Variablen erlaubt ein umfassenderes Verständnis, das für die spätere Anwendung von ML-Methoden entscheidend ist. Yan weist auch darauf hin, dass einfache heuristische Ansätze in der Praxis oft eine Leistungsfähigkeit zeigen, die komplizierten maschinellen Lernmodellen konkurrieren kann.
Das Hauptaugenmerk sollte auf der Entwicklung eines nicht-ML-Referenzpunkts liegen. Sobald dieser folgende Dinge wie z.B. Skalierbarkeit oder Datenqualität erreicht hat, sollte klar sein, wann und wie maschinelles Lernen ins Spiel kommen sollte. Yan schliesst seinen Artikel mit einem wertvollen Ratschlag: "Bauen Sie zwei Lösungen – eine komplexe ML-Lösung und eine einfache SQL-Abfrage. Nutzen Sie das, was funktioniert und was einfacher zu pflegen ist." Ein wichtiger Blickwinkel, insbesondere in der schnelllebigen Welt der Softwareentwicklung.