Grippewellen, Wahlen, Kinohits: Mithilfe von Twitter lassen sich so manche Ereignisse mal mehr, mal weniger genau voraussagen. Eine Studie der Universität von Virginia konnte nun anhand von Tweets korrekte Aussagen über Straftaten in Chicago treffen. Für 19 von 25 Typen von Straftaten kamen die Wissenschaftler dank der Auswertung von Twitter auf genauere Prognosen als mit herkömmlichen Daten.

Gewöhnlich identifiziert die Polizei auf Basis vergangener Straftaten aktuelle Problemzonen, die sogenannten Hot Spots und Crime Maps. Dass etwa die Berliner Polizei inzwischen am Wochenende mehr Beamte auf dem Alexanderplatz stationiert, ist wiederholten Prügeleien und Übergriffen an diesem Ort zu verdanken. Viel Hightech benötigt es für diese Entscheidung nicht.

Doch das predictive policing, die voraussehende Polizeiarbeit, geht längst viel weiter. In den USA durchforsten und analysieren die Behörden einiger Städte wie etwa Santa Cruz weitere Datenbanken, um Muster vergangener und zukünftiger Straftaten zu erstellen: Demografische Daten, Kfz-Registrierungen, Verkehrskameras, Wetterberichte und Veranstaltungskalender – alles wird zur automatischen Mustererkennung herangezogen. Auch das Bundeskriminalamt interessiert sich für solche Data-Mining-Techniken.

Das erklärte Ziel von Polizei und Behörden: Straftaten nicht nur im Nachhinein zu analysieren, sondern möglichst schon im Voraus zu erkennen, wo welche geschehen könnten und das dann mit verstärkter Präsenz zu verhindern. Für dieses Szenario, das gerne mit der Handlung des Films Minority Report verglichen wird, sind die Daten aus den sozialen Netzwerken besonders interessant. Denn die sind sowohl vielfältig, aktuell, personenbezogen und können im besten Fall die Beziehungen zwischen mehreren Menschen offenlegen.

Für ihre Studie mit dem Titel Predicting Crime Using Twitter and Kernel Density Estimation untersuchten die Wissenschaftler aus Virginia deshalb rund 1,5 Millionen mit Ortsdaten versendete Tweets und 60.000 Straftaten zwischen dem 1. Januar und dem 31. März 2013 im Stadtgebiet von Chicago.

Eine Software teilte das Stadtgebiet dazu in jeweils ein Quadratkilometer große Zellen ein, für die anschließend mithilfe der Tweets Themencluster erstellt wurden. Im Gebiet rund um den Flughafen etwa war das dominante Thema Reisen; Begriffe wie Gate, Flugzeug und Verspätung kamen besonders häufig vor.

Der Algorithmus lernt aus vergangenen Straftaten

Mit den Daten des ersten Monats musste der Algorithmus zunächst lernen, zwischen welchen Straftaten und Begriffen möglicherweise eine Verbindung besteht. Ein Beispiel: In einem Gebiet, in dem vermehrt Sachbeschädigungen vorkamen, häuften sich Begriffe wie united center und bulls in den Tweets: Ein Indiz für Basketball-Fans, die möglicherweise frustriert oder betrunken eher zu Zerstörung neigen.

Auf dieser Grundlage konnten die Forscher für die kommenden beiden Monate der Untersuchung einen Stadtplan Chicagos mit Hot Spots erstellen, unterteilt in Kategorien wie Autodiebstahl, Einbruch oder Prostitution.

Das Ergebnis: Die Analyse, in der die Tweets mit einflossen, führte zu einer deutlich detaillierteren Karte als die Analyse, die einzig auf dem bestehenden Straftatenregister basierte. Für 19 von 25 Straftaten war die Projektion mit Twitter genauer – und damit für die Polizei hilfreicher.

Lediglich bei Straftaten wie Brandstiftung oder Erpressung wichen die Ergebnisse von der traditionellen Methode ab. Eine Erklärung dafür haben die Forscher nicht. Da diese Straftaten aber generell weniger auftreten als etwa Diebstahl oder Körperverletzung, könnte die Begriffsanalyse im begrenzten Rahmen der Studie möglicherweise nicht ausreichen. Überhaupt war das eines der größten Probleme für die Forscher: Da die Sprache auf Twitter häufig aus Abkürzungen und Slang besteht, ist sie für die Algorithmen schwieriger zu kategorisieren.