Dank Machine Learning: Einbrechern einen Schritt voraus
Spezielle Statistikmethode als Ausgangspunkt
Die Herausforderung bestand darin, die Klassifikations-Algorithmen trotz der geringen Anzahl von Einbruchsfällen im Datensatz trainieren zu können. Kadar hat dazu den Datensatz bearbeitet: Per Zufallsprinzip wurden Einheiten ohne Einbrüche entfernt, bis sich Einheiten mit und solche ohne Einbrüche die Waage hielten. Diese statistische Methode nennt sich «Random Undersampling». Mit diesem reduzierten Datensatz trainierte Kadar parallel zahlreiche Klassifikationsalgorithmen. Deren aggregierte Vorhersagen ergaben die Einbruchsprognose. Als Daten-Einheit verwendete Kadar Parzellen von 200 mal 200 Metern an einem bestimmten Tag.
Während herkömmliche Warnsysteme vor allem Einbruchsdaten verwenden, fütterte Kadar die Klassifikations-Algorithmen zusätzlich mit unpersönlichen aggregierten Bevölkerungsdaten, zum Beispiel zur Bevölkerungsdichte, zur Altersstruktur, zur Art der Bebauung, zur Infrastruktur (Vorhandensein von Schulen, Polizeiposten, Spitälern, Strassen), zum Nähe von Landesgrenzen oder mit zeitlichen Angaben wie den Wochentagen, Feiertagen, des Tageslichtes und sogar der Mondphase.
Trefferquote besser als in Städten
Mit der neuen Methode konnte Kadar die Trefferquote gegenüber herkömmlichen Methoden deutlich verbessern. Sie liess den Computer mit ihrer Methode voraussagen, wo auf dem Kantonsgebiet sich wahrscheinlich Einbrüche ereignen werden (Hotspots). Die Überprüfung zeigte: rund 60 Prozent der tatsächlichen Einbrüche wurden in den prognostizierten Hotspots verübt. Zum Vergleich: Wurden die Hotspots mit der herkömmlichen von der Polizei verwendeten Methode vorausgesagt, fanden nur 53 Prozent der tatsächlichen Einbrüche in der prognostizierten Region statt. «Die Methode erzielt mit ungleich verteilten Daten mindestens gleich gute und zum Teil bessere Trefferquoten als herkömmliche Methoden in städtischen Gebieten, wo die Daten dichter sind und zudem gleichmässiger verteilt», sagt Kadar.
Nützlich sind diese Erkenntnisse in erster Linie für die Polizei. Mit der Methode lassen sich auch in weniger dicht besiedelten Gebieten Regionen und Zeiten mit einem erhöhten Einbruchsrisiko voraussagen. Denkbar wäre aber auch, die Methode für die Vorhersage von anderen Risiken zu nutzen: Gesundheitsrisiken etwa oder die Wahrscheinlichkeit für Ambulanz-Notrufe. Auch die Immobilien-Branche könnte die Methode anwenden, um damit die Preisentwicklung von Immobilien anhand von räumlichen Faktoren zu prognostizieren.
Hinweis: Dieser Bericht ist zunächst bei «ETH-News» erschienen.