Projekt: Generierung synthetischer Daten
Die Fortschritte auf dem Gebiet der Künstlichen Intelligenz bieten nahezu unbegrenzte Möglichkeiten bei der Datenanalyse. Doch besonders bei Anwendungsfällen auf Basis sensibler personenbezogener Daten geht es oftmals nicht darum, was mit einer KI möglich wäre. Viel mehr steht die Frage im Vordergrund, was überhaupt aus Sicht des Datenschutzes und unter moralischen Gesichtspunkten erlaubt ist. Als Konsequenz werden enorme Grenzen an das vielfältige Potenzial von KI gesetzt. Ein Ansatz, der diese Hürden versucht zu überwinden, ist die Generierung von neuen, synthetischen Daten, welche die Verteilung der echten Daten approximieren. Durch das Verwenden ausschließlich künstlich generierter Daten wird sichergestellt, dass der Datenschutz gewahrt und die Privatsphäre jederzeit geschützt ist. Somit werden Analysen möglich, die anderenfalls undenkbar sind.
Weitere Vorteile sind die Optionen, zum einen synthetische Daten ohne Bedenken externen Analysten zur Verfügung zu stellen und zum anderen die gewinnbringende Kooperation zwischen Unternehmen. Prädestiniert für derartige Anwendungsfälle sind Unternehmen und Organisationen, die ähnliche Datenhaushalte aufweisen, selbst wenn sie in Konkurrenz stehen. So sind beispielsweise auch Abnehmer-Zulieferer oder Produzenten-Kunden Beziehungen ideale Ausgangspunkte für Datenanalysen, die die Wettbewerbsfähigkeit aller Beteiligten steigern.
Die Vorteile auf einen Blick
Wahrung der Privatsphäre |
Gewinn neuer Erkenntnisse |
Keine Nutzung sensibler Daten |
Die Wahrung der Privatsphäre bleibt durchgehend garantiert. |
Gewinn neuer Erkenntnisse durch zuvor nicht durchführbare Auswertungen. |
Es werden ausschließlich künstliche Daten verwendet. |
Informationsmangel durch regulatorische Hürden
Sensible Daten wie beispielsweise Informationen zu Kunden oder Geschäftspartnern, aber auch Daten zum eigenen Unternehmen sind aufgrund gesetzlicher Vorgabe oder im Interesse des Geschäftsgeheimnisses bestmöglich zu schützen. Daraus folgt jedoch, dass das Gewinnen von Erkenntnissen zu eigenen Prozessen oder Kunden bisher sehr aufwändig bis unmöglich sind. Interne Analysen von sensiblen Daten, welche aus Sicht des Datenschutzes zwar erlaubt sind, setzen qualifiziertes Personal voraus. Andernfalls müssen Verträge mit externen Dienstleistern geschlossen und darauf vertraut werden, dass diese die Daten sorgfältig auswerten und im Anschluss auch sicher archivieren bzw. löschen. Können derartige Kapazitäten nicht aufgebaut, Daten nicht in ausreichender Menge oder Qualität zur Verfügung gestellt werden oder soll externen Analysten kein Zugriff gegeben werden, bleibt oftmals keine Möglichkeit, Informationen aus den eigenen Daten zu generieren.
Analysen und Kooperationen auf Basis synthetischer Daten
Eine Möglichkeit dieses Dilemma zu umgehen, ist die Synthetisierung der eigenen Daten, bevor diese ausgewertet werden. Mit Hilfe von speziellen künstlichen neuronalen Netzen, Generative Adversarial Networks, ist es inzwischen möglich, die für Modelle relevanten statistischen Eigenschaften von Daten künstlich abzubilden. Eine Synthetisierung bietet zudem bereits einen deutlich besseren Schutz als beispielsweise eine einfache Pseudonymisierung (also das Ersetzen von Merkmalen wie beispielsweise Name oder Alter). Gerade bei sehr sensiblen Daten und potenziell starken Angriffen wie den sogenannten Membership Inference Attacks ist dieser Schutz jedoch noch nicht ausreichend. Um sicherzustellen, dass dennoch kein Rückschluss auf einzelne Datenpunkte möglich ist, wird daher bei der Synthetisierung das Konzept der Differential Privacy angewandt. Dieses garantiert eine Obergrenze für das Risiko, dass beispielsweise eine einzelne Person im Datensatz identifiziert werden kann.
Datensynthetisierung bietet Anwendern vielfältige Möglichkeiten. Zum einen können die Anforderungen des Datenschutzes bei der Auswertung von Daten durch Externe gewahrt werden. Zum anderen wird die Kooperation und der Datenaustausch zwischen Unternehmen mit ähnlichen oder sich ergänzenden Daten gefördert. Dazu werden die Daten zunächst bei den einzelnen Partnern synthetisiert, um sie anschließend zusammenzufügen und im Kollektiv auszuwerten. In beiden Fällen ist entscheidend, dass die eigentlichen Daten das eigene Unternehmen zu keinem Zeitpunkt verlassen. Lediglich das synthetische Abbild, welches keinen Rückschluss auf die Originaldaten zulässt, wird geteilt.
Bessere Ergebnisse zu geringeren Kosten
Die Generierung synthetischer Daten bietet Sicherheit, da die Daten das eigene Unternehmen nie verlassen. Dennoch entsteht die Möglichkeit der Analyse, was es erlaubt neue Erkenntnisse zu erlangen. Zudem wird die Kooperation gefördert, denn jedes teilnehmende Unternehmen profitiert über die eigenen Daten hinaus von besseren Ergebnissen aufgrund einer umfangreicheren Datengrundlage. Letztlich werden auch die Kosten für die eigentliche Auswertung und Analyse der Daten gemeinsam getragen.
Die auf Basis von synthetischen Daten durchgeführten Analysen liefern im Vergleich zum Originaldatensatz annähernd gleichwertige Ergebnisse.