"Entlang der Straße X geht jeden Abend eine junge Frau" ist eine für die Frau riskante Information

Wer bedarfsgesteuerte Verkehrsangebote machen möchte, muss wissen, welche Bedürfnisse Kundinnen und Kunden haben. Diese lassen sich oftmals mit Hilfe feingranularer Bewegungsdaten modellieren. Welche Probleme das Erheben und Teilen solcher Daten aus Sicht des Schutzes der Privatsphäre mit sich bringt, erzählt uns HTW-Professorin Helena Mihaljević.

Dr. Helena Mihaljevic ist Mathematikerin mit den Forschungsschwerpunkten statistische Datenanalyse und angewandtes maschinelles Lernen. Seit Mitte 2018 ist sie Professorin für Data Science und Analytics an der Hochschule für Technik und Wirtschaft Berlin. Dort beschäftigt sie sich unter anderem mit dem Gender Data Gap und diskriminierender Software.

Die geschlechterspezifische Lücke gibt es in vielen wissenschaftlichen Datensätzen. Weil häufig Daten von Frauen nicht gesondert erhoben werden, orientieren sich viele Dinge des alltäglichen Lebens an den Bedürfnissen und Körpern von Männern. Mit entsprechenden Folgen für Frauen: Standardtemperaturempfehlungen sind für sie zu niedrig, durchschnittliche Arbeitsflächen zu hoch, Maschinen und Werkzeuge sind nicht auf sie ausgelegt, Sicherheitskleidung erfüllt ihre Funktion nicht. Medikamente wirken bei ihnen anders, Krankheiten werden seltener erkannt und bei Autounfällen verletzen sie sich schwerer als Männer.

Women in Mobility: Helena, was genau macht eigentlich eine Datenforscherin?

Prof. Dr. Helena Mihaljevic: Als Forscherin in der Data Science arbeite ich mit verschiedenen Arten von Daten und Modellierungen und gucke, was interessante Anwendungsfragen sind. Ich arbeite eigentlich immer mit den entsprechenden Leuten aus Fachdomänen zusammen.

Warum interessierst du dich gerade für Daten aus dem Bereich Mobilität?

Mobilität ist ein sehr wichtiger Bereich, weil Mobilitätsdaten unglaublich viele Dimensionen in sich vereinen und wir alle ganz individuelle Bewegungsmuster haben. Das macht diese Daten auf der einen Seite extrem interessant und auf der anderen Seite besonders schützenswert. Man kann zum Teil mit sehr wenig Informationen schon herausfinden, um wen es geht.

Gerade die urbane Mobilität ist spannend, weil sie immer mehr Menschen betrifft und so auf kleinem Raum sehr viele dichte Datenströme erhoben werden. Bewegung ist ein Grundbedürfnis und sie sollte einfach möglich sein, möglichst gut funktionieren, und für alle zugänglich sein.

Gibt es zur ländlichen Mobilität auch Daten?

Der urbane Raum ist viel präsenter, was Mobilitätsdatensätze und Anwendungen angeht. Aber ich nehme an, dass Unternehmen wie beispielsweise die Bahn Daten aus ihrem gesamten Netz erheben und analysieren, ebenso wie andere überregionale oder regionale Mobilitätsanbieter. Es gibt Bestrebungen, Mobilität auch im ländlichen Raum anders zu organisieren und z.B. über Mobility-on-Demand-Konzepte neu zu gestalten. Das muss man sehr stark datenbasiert machen: Wenn ich optimal planen will, wo ein gemeinsamer Kleinbus langfahren soll, benötige ich Daten der Leute, die damit fahren wollen.

Die Daten, mit denen du arbeitest, von wo kommen die? Wer erhebt die?

Das kommt immer auf das jeweilige Forschungsthema an oder das Forschungsproblem. Wir haben in einem Projekt im Mobilitätsbereich selbst Daten erhoben; mit Kameras, welche Bilddaten nicht speichern, sondern in Echtzeit Objekte in einem bestimmten Straßenabschnitt erkennen und kategorisieren. Die Idee dahinter war, dass man auf die Art und Weise relativ leicht ein Zählsystem hat, das aufzeigt, wie viele Autos, Busse, Fahrradfahrende, Fußgänger*innen und so weiter dort unterwegs sind und wo sie hinfahren. Das ist interessant für bestimmte Kreuzungsanalysen oder für bestimmte Straßenabschnitte wie Baustellen, Fahrradstraßen oder Kiezblocks bzw. Straßen, die man gern entsprechend umgestalten würde.

Zum Beispiel?

Ich wohne in Neukölln und da beschweren sich Menschen immer über die Karl-Marx-Straße, weil da ständig LKWs stehen und irgendwas ausladen. Als Fahrradfahrerin muss man um die Laster herum Schleifen fahren, was gefährlich ist. Da könnte ich mir den Straßenabschnitt einmal genauer ansehen, eine Risikoanalyse machen oder überprüfen, wie oft und lange die neuen Radwege dort zugeparkt sind. Diese Analyse wäre mit der genannten Technologie vor allem Privatsphäre-sensibel. Das ist etwas, was in meinen Mobilitätsdatenprojekten bisher immer eine zentrale Rolle gespielt hat. Wir stellen uns die Frage: Wie kann ich Mobilitätsdaten erheben und verarbeiten, ohne dabei die Privatsphäre der Leute zu verletzen?

Inwiefern kann die Info, in welche Richtung Fahrradfahrerinnen und Fahrer über eine Kreuzung radeln, ihre Privatsphäre verletzen?

Unser Mobilitätsverhalten enthält Muster, die es erlauben, aus bereits wenigen Datenpunkten einiges über uns und unsere Gewohnheiten zu offenbaren, wie z.B. wo wir wohnen oder arbeiten. Wir gucken deshalb immer auch aus der Privacy-Perspektive auf Daten und da muss man gut begründen, warum man z.B. Faktoren wie Geschlecht erhebt, denn diese stellen ein zusätzliches Risiko für die Re-Identifikation von Personen, deren Daten in einem Datensatz enthalten sind, dar; gerade, wenn der Datensatz eher klein ist.

Wenn ich die Information „Entlang der Straße X geht jeden Abend eine junge Frau alleine“ mit anderen teile, setze ich sie vielleicht einem noch größeren Risiko aus. Deshalb sagt das Gesetz: Erhebe so wenig personenbezogene Daten wie möglich. Die Menge und Granularität der Daten hängt deshalb immer vom konkreten Anwendungsfall ab. Für diesen erheben wir das nötigste an Daten, aber nicht mehr.

Stellen euch Verkehrsunternehmen und Co. auch Daten zur Verfügung oder müsst ihr die alle selber erheben?

Man kriegt eigentlich kaum Daten von Verkehrsunternehmen. Ich glaube, das hat viele Gründe. Zum einen dürfen sie es nicht immer. Es kommt immer darauf an, auf welcher rechtlichen Grundlage sie selbst die Daten erheben. Manchmal ist es gänzlich ausgeschlossen, dass sie die Informationen weitergeben dürfen. Manche der Daten, die sie erheben, erheben sie auch wirklich nur für Zwecke, die nur eine kurze Speicherzeit erlauben oder auch teilweise statistische Analysen der Daten ausschließen. Und das ist auch okay. Und dann ist manchmal auch die Rechtslage für die Unternehmen zu unsicher und sie müssten sehr viele aufwändige Prüfungen durch ihre Datenschutzbeauftragten durchführen lassen, dass es sich oftmals auch nicht lohnt, die entsprechenden Daten zu teilen. Und dann gibt es natürlich diese Sache mit dem Geschäftsgeheimnis.

Wenn die Verkehrsunternehmen ihre Daten nicht teilen und ihr kaum personenbezogene Daten erheben könnt, wie soll dann die Lücke in den Mobilitätsdaten geschlossen werden?

In unserem aktuellen Projekt freeMove geht es darum, wie man Mobilitätsdaten so Privatsphäre-sensibel wie möglich erheben, verarbeiten, teilen und für Analysen nutzen kann. Dabei hat das Team beispielsweise open source Software entwickelt, mit der Bewegungsdaten statistisch analysiert werden können, bei Gewährung von Privatsphäre-Garantien. Wir hoffen, dass diese und andere Ergebnisse des Projekts Mobilitätsanbietenden und anderen Unternehmen und Organisationen, die Mobilitätsdaten erheben und teilen wollen, diese Arbeit in Zukunft erleichtert. Im Projekt haben wir auch selbst eine Studie mit dem Projektpartner Deutschen Zentrum für Luft- und Raumfahrt (DLR) durchgeführt und dabei Bewegungsdaten erhoben. Da wurde insbesondere auch untersucht, welche Informationen zu Privatsphäre und Zweck der Datenerhebung Menschen dazu bewegen, ihre Daten zu spenden bzw. zu teilen.

Gibt es denn in der gesamten Forschung keine existierenden Datensätze, wie sich Männer fortbewegen und wie Frauen? Wir wissen doch, dass es unterschiedliche Muster gibt?

Es gibt ja Verkehrserhebungen wie „Mobilität in Deutschland“, in welchen entsprechende Fragestellungen teils adressiert werden. Mit den Daten arbeite ich jedoch nicht. Im Bereich von Bewegungsdaten, die beispielsweise über GPS Tracker erhoben werden, sind mir bisher wenn überhaupt nur vereinzelt welche begegnet. In der Forschung gibt es allgemein eh nur wenige solche Tracking Datensätze; viele benutzen die wenigen, teils veralteten Datensätze. Es gibt zum Beispiel einen rund zehn Jahre alten GeoLife-Datensatz, der aber in vielerlei Hinsicht nicht gut geeignet ist, aber er kommt trotzdem in vielen aktuellen Forschungsarbeiten zur Anwendung, einfach aus Mangel an Alternativen.

Wenn du sagst, der Datensatz ist nicht gut, wo hakt es?

Bei GeoLife hakt es vor allem daran, dass nur ca. 180 Personen getrackt wurden, wobei nur ganz wenige von ihnen, sog. Power User, den Großteil der aufgezeichneten Daten produziert haben. Im Grunde stammt der Großteil dieser Daten von vielleicht zehn Leuten. Das ist wenig aussagekräftig, wenn es um Mobilität, Modellierung und Anwendungsfälle geht. Da könnte ich mich auch selber hinsetzen und mir ausdenken, wo jemand langfahren könnte. Aber für öffentliche Mobilitätsanbieter wie die Bahn oder die Berliner Verkehrsbetriebe ist es nun mal wichtig zu verstehen, wie sich verschiedene Kundengruppen wirklich fortbewegen.

Wie lässt sich das Problem deiner Meinung nach lösen?

Viele Mobilitätsprojekte gehen nicht ohne echte Daten von echten Menschen. Deshalb müssen wir uns im Vorfeld klar machen, wie wir diese Daten erheben, damit Menschen sie auch vertrauensvoll spenden können und wollen. Wichtig ist, dass die Daten nicht in die falschen Hände geraten und für ungewollte Zwecke verwendet werden, und trotzdem sinnvoll analysiert werden können. Um Bewegungsdaten im urbanen Raum im größeren Stil partizipativ erheben und analysieren zu können, wäre z.B. der Weg über einen Datentreuhänder sinnvoll, der reguliert, wer Zugang zu den Daten für welche Zwecke bekommt.

Wenn es dann um die Entwicklung von Technologien geht, insbesondere unter Verwendung komplexerer Algorithmen, so gibt es natürlich weitere Aspekte als die Privatsphäre, die es zu beachten gibt. Modelle und Technologien sollten Personen nicht benachteiligen, weder basierend auf Gender noch anderen Merkmalen. Amazon zum Beispiel hat recht lange an einem eigenen Tool gebastelt, was die am besten geeigneten Bewerber*innen aus einem Pool automatisch auswählen sollte. Die Software hat für IT-Jobs vor allem weiße Männer vorgeschlagen. Die Versuche, die Software zu verbessern, haben nicht viel geholfen, so dass das Projekt irgendwann eingestampft wurde.

Woran liegt sowas?

Die exakte Funktionsweise komplexer Algorithmen, insbesondere solcher, bei welchen wir die Regeln nicht selbst definieren sondern sie aus den statistischen Zusammenhängen in den Daten automatisch lernen (Stichwort Maschinelles Lernen) ist an sich oft nur kaum zu begreifen. Daneben gibt es aber auch einiges, das bereits konzeptionell völlig verkehrt läuft. Um bei dem Beispiel zu bleiben: Wenn das Modell sich nur anschaut, wer in der Vergangenheit angestellt wurde, und das waren fast immer nur weiße Männer, dann wird es von sich aus keine schwarzen Frauen vorschlagen. Es würde aber auch nicht viel helfen, die Zahl der CVs von Frauen im Pool künstlich zu erhöhen, damit das System auch Frauen als geeignete Bewerber erkennt. Das liegt u.a. daran, dass Aspekte wie Gender oder Migrationshintergrund Auswirkungen auf so viele verschiedene Aspekte unseres Lebens haben. Es hat beispielsweise einen Einfluss darauf, ob ich studiere, welches Fach ich in welchem Alter studiere, auf welche Universität ich gehe, welchen Nebenjob ich mache und ob Tennis und Reisen zu meinen Interessen gehören. Ziemlich sicher hat es sogar signifikanten Einfluss auf die Wortwahl in meinem Anschreiben. Und mathematische Modelle nutzen all diese Informationen, sofern sie Zugang zu den entsprechenden Daten haben. Mir ist es deshalb in meiner Forschung wichtig, zu erkennen, wo Daten irreführend sind und wann die Nutzung bestimmter Software zu Diskriminierung führen kann.

Helena ist Teil des Women for Datadriven Mobility-Netzwerks, das sich für die Stärkung und die Sichtbarkeit weiblicher Expertinnen im Modernitätsfonds der Bundesregierung (mFUND) ebenso wie in der (Fach-)Öffentlichkeit einsetzt. Im Mittelpunkt steht dabei der Austausch im mFUND, die Expertise der Mitglieder und gegenseitiges Empowerment.