Anonymisierte Daten lassen sich schneller bestimmten Personen zuordnen als bisher gedacht. Das kann durchaus reale Konsequenzen haben.

Egal ob bei Verträgen bei Versicherungen, Accounts bei Social-Media-Plattformen oder Online-Umfragen: Irgendwo haben wir alle schon mal den Passus in den AGB bestätigt, dass unsere Daten anonymisiert an Drittunternehmen weitergegeben werden können. Ein Team von Wissenschaftlern hat jetzt ein Paper im Magazin "Nature Communications" veröffentlicht, das nahelegt: Anonymisierte Daten lassen sich sehr wohl konkreten Personen zuordnen - und das mit nur wenigen Informationen.

Weitergabe anonymisierter Daten könnte Betroffenen schaden

Das Beispiel der Autoren der Studie: Eine Krankenkasse will ein statistisches Modell zur Krebsvorhersage entwickeln lassen und stellt dafür einen anonymisierten Datensatz von 1% ihrer Versicherten in Kalifornien zur Verfügung. 1000 Personen mit den Kennziffern Geburtsdatum, Geschlecht, Postleitzahl und der Diagnose Brustkrebs. Ein Konzern lädt diese Daten herunter und überprüft, ob vielleicht eine Mitarbeiterin oder ein Mitarbeiter des Unternehmens dabei ist. Wenn eine der versicherten Personen tatsächlich bei diesem Konzern arbeitet, ist die Wahrscheinlichkeit relativ hoch, diese Person auch zu identifizieren. Weil Brustkrebs ein Ausfallrisiko mit sich bringt, könnte - je nach jeweiliger Gesetzeslage in dem Land und Bestimmungen in Sachen Kündigungsschutz - das Unternehmen auf die Idee kommen, diese Person zu entlassen. Natürlich mit einer vorgeschobenen Begründung.

"Our results suggest that even heavily sampled anonymized datasets are unlikely to satisfy the modern standards for anonymization set forth by GDPR and seriously challenge the technical and legal adequacy of the de-identification release-and-forget model."
Luc Rocher, Julien M. Hendrickx und Yves-Alexandre de Montjoye in Nature Communications 10/2019

Im Beispiel der Wissenschaftler passiert jetzt folgendes: Der Konzern, der die Studie heruntergeladen hat, findet genau einen Mitarbeiter, auf den folgende Kennziffern passen: männlich, lebt in 94720 Berkley, geboren am 2. Januar 1968, Diagnose Brustkrebs, worüber er seinen Arbeitgeber auch informiert hat. Was in dem Datensatz auch zu finden ist: Dass die letzte Behandlung des Stufe IV Krebses nicht erfolgreich war. Darüber hat der Mitarbeiter seinen Arbeitgeber aber nicht informiert.

Das Beispiel, das die Wissenschaftler in ihrer Studie gewählt haben, ist extrem. Aber es sind auch viele andere Szenarien denkbar, in denen eine De-Anonymisierung unangenehme Folgen haben kann. Das kann ein verweigerter Kredit sein, ein Mietvertrag, den wir nicht bekommen oder politische Diskriminierung. Ein wichtiges Argument in der Debatte war bislang, dass es sich bei dem Datensatz ja nur um 1% der Daten handelt und dass es deshalb möglicherweise noch viel mehr Menschen geben könnte, auf die die Eckdaten zutreffen, oder zumindest noch eine andere Person - dass es also zu Verwechslungen kommen kann aufgrund der geringen Datenbasis.

Wenige Kennziffern reichen für Identifikation

Auf ihrer Demoseite zeigen die Autoren der Studie aber, wie wenig Daten eigentlich benötigt werden, um jemanden eindeutig zu identifizieren. Ihre Annahme: Eine Person wohnt in El Paso in den USA, eine Stadt mit 120.000 Einwohnern. Sie haben ein Geburtsdatum - den 12.08.1964 - und das Geschlecht: männlich. Die Wahrscheinlichkeit, mit der Arbeitgeber diese Person aus einem anonymisierten Datensatz identifizieren könnten, läge in diesem Fall bei 43 Prozent. Nur eine weitere Kennziffer, zum Beispiel die Angabe "geschieden", erhöht die Wahrscheinlichkeit deutlich: Die Person ist jetzt zu 93 Prozent eindeutig identifizierbar. Kommt zusätzlich die Information "zwei Autos" hinzu, sind es schon satte 98 Prozent.

Das Fazit der Forscher: Wenn es so leicht ist, anonymisierte Daten rückwirkend wieder zuzuordnen, müssen die Regeln und Gesetze zur Weitergabe von Daten wesentlich restriktiver gehandhabt werden als bisher.