Synthetische Netzwerke können die Verfügbarkeit einiger Daten erhöhen und gleichzeitig die Privatsphäre von Personen oder Institutionen schützen, so ein Penn-State-Statistiker.
"Mein Hauptinteresse gilt der Entwicklung einer Methodik, die einen breiteren Austausch vertraulicher Daten auf eine Weise ermöglichen würde, die zur wissenschaftlichen Entdeckung beitragen kann", sagte Aleksandra Slavkovic, Professorin für Statistik und stellvertretende Dekanin für Graduiertenausbildung am Eberly College of Science, Penn State. "Es ist das Ziel, vertrauliche Daten mit einem minimalen quantifizierbaren Risiko für die Entdeckung sensibler Informationen austauschen zu können und dennoch statistische Genauigkeit und Integrität zu gewährleisten."
Slavkovic hat durch interdisziplinäre Kooperationen, insbesondere mit Computer- und Sozialwissenschaftlern, Lösungen für dieses Datenschutzproblem gefunden. Ihre Forschung konzentriert sich auf verschiedene Daten, einschließlich Netzwerkdaten, die Beziehungsinformationen zwischen Entitäten wie Einzelpersonen oder Institutionen erfassen. Sie berichtete über ihre Ansätze zur Bereitstellung synthetischer Netzwerke, die heute (16. Februar) auf der Jahrestagung der American Association for the Advancement of Science in Washington, DC (2019), dem Begriff differenzierte Privatsphäre gerecht werden
Der differenzierte Datenschutz bietet eine mathematisch nachweisbare Garantie für den Verlust des Datenschutzes für Einzelpersonen.
Wissenschaftler wünschen den Zugriff auf Daten, die von anderen für ihre Forschung erhoben werden, aber ein solcher Zugriff könnte auch die Privatsphäre beeinträchtigen, selbst wenn so genannte personenbezogene Daten entfernt werden.
"Eine Fülle von Hilfsdaten ist der Hauptschuldige", sagte Slavkovic. "Mit methodischen und technologischen Fortschritten bei der Datenerfassung und Datenverknüpfung, dem einfacheren Zugriff auf verschiedene Datenquellen, die mit einem vorhandenen Datensatz verknüpft werden könnten, und den Anforderungen der Finanzbehörden, Daten auszutauschen, steigen die Risiken für den Datenschutz. Aber es ist gut Lösungen für den Umgang mit dem Schutz der Privatsphäre sind für eine fundierte wissenschaftliche Entdeckung unerlässlich. "
Öffentlich verfügbare Informationen aus einer Medikamentenstudie mit einem HIV-Medikament würden beispielsweise anzeigen, wer sich in der Behandlungsgruppe befand und wer in der Kontrollgruppe war. Die Behandlungsgruppe würde nur Personen enthalten, bei denen HIV diagnostiziert wurde. Auch wenn die Dateninhaber personenbezogene Daten aus diesem Datensatz enthalten, bleiben einige identifizierende Informationen erhalten. Da heutzutage so viele Informationen online in sozialen Medien und in anderen Datensätzen verfügbar sind, ist es möglich, die Punkte miteinander zu verbinden und Personen zu identifizieren, die möglicherweise ihren HIV-Status offenlegen.
"Die Techniken zum Verknüpfen zweier Datensätze, z. B. der Wählerlisten und der Krankenversicherungsdaten, haben sich erheblich verbessert", sagte Slavkovic. "In einem der frühesten Ergebnisse hat Latanya Sweeny (jetzt in Harvard) gezeigt, dass Sie durch Verknüpfung dieser Art von Daten 87 Prozent der US-Volkszählung aus dem Jahr 1990 anhand ihres Geburtsdatums, ihres Geschlechts und ihrer fünfstelligen Zahl identifizieren können In letzter Zeit verwendeten Forscher Tweets und zugehörige Twitter-Metadaten, um zu zeigen, dass sie Benutzer mit einer Genauigkeit von 96,7 Prozent identifizieren können. "
Slavkovic weist darauf hin, dass nicht nur Personen oder Institutionen Daten in den Datenbanken enthalten, sondern dass auch Personen außerhalb der Datenbank direkt oder in Verbindung mit der Verletzung der Privatsphäre leiden können. Verknüpfungen zwischen Informationen in einem Datensatz und Informationen in sozialen Medien können zu einer ernsthaften Verletzung der Privatsphäre führen - etwa der HIV-Status oder die sexuelle Orientierung können schwerwiegende Folgen haben, wenn sie aufgedeckt werden.
Während Datenschutz wichtig ist, stellen gesammelte Datensätze eine wichtige Informationsquelle für Forscher dar. Derzeit müssen Forscher in einigen Fällen, in denen die Daten außergewöhnlich empfindlich sind, physisch zu den Daten-Repositories gehen, um ihre Forschung zu betreiben, wodurch die Forschung schwieriger und teurer wird.
Slavkovic ist an Netzwerkdaten interessiert. Informationen, die die Vernetzung von Personen oder Institutionen - die Knoten - und die Verbindungen zwischen Knoten zeigen. Ihr Ansatz besteht darin, leicht veränderte, gespiegelte Netzwerk-Datasets zu erstellen, bei denen einige Knoten verschoben, Verbindungen verschoben oder Kanten geändert wurden.
"Ziel ist es, neue Netzwerke zu schaffen, die den strengen unterschiedlichen Datenschutzanforderungen entsprechen und gleichzeitig die meisten statistischen Merkmale des ursprünglichen Netzwerks erfassen", sagte Slavkovic.
Diese synthetischen Datensätze könnten für einige Forscher ausreichen, um ihren Forschungsbedarf zu decken. Für andere wäre es ausreichend, ihre Ansätze und Hypothesen zu testen, bevor sie zum Datenspeicher gehen müssen. Die Forscher konnten Code testen, exploratorische Untersuchungen durchführen und möglicherweise grundlegende Analysen durchführen, während sie auf die Erlaubnis warten, die Originaldaten in ihrem Repository-Standort zu verwenden.
"Wir können nicht alle statistischen Analysen mit der gleichen Art von geänderten Daten befriedigen", sagte Slavkovic. "Einige Leute werden die Originaldaten benötigen, andere wiederum können synthetische Daten wie synthetische Netzwerke erheblich verbessern."
