Skip to content
Alle Beiträge

Projekt: Generierung synthetischer Daten

Die Fort­schrit­te auf dem Ge­biet der Künst­li­chen In­tel­li­genz bie­ten na­he­zu un­be­grenz­te Mög­lich­kei­ten bei der Da­ten­ana­ly­se. Doch be­son­ders bei An­wen­dungs­fäl­len auf Ba­sis sen­si­bler per­so­nen­be­zo­ge­ner Da­ten geht es oft­mals nicht dar­um, was mit ei­ner KI mög­lich wäre. Viel mehr steht die Fra­ge im Vor­der­grund, was über­haupt aus Sicht des Da­ten­schut­zes und un­ter mo­ra­li­schen Ge­sichts­punk­ten er­laubt ist. Als Kon­se­quenz wer­den enor­me Gren­zen an das viel­fäl­ti­ge Po­ten­zi­al von KI ge­setzt. Ein An­satz, der die­se Hür­den ver­sucht zu über­win­den, ist die Ge­ne­rie­rung von neu­en, syn­the­ti­schen Da­ten, wel­che die Ver­tei­lung der ech­ten Da­ten ap­pro­xi­mie­ren. Durch das Ver­wen­den aus­schließ­lich künst­lich ge­ne­rier­ter Da­ten wird si­cher­ge­stellt, dass der Da­ten­schutz ge­wahrt und die Pri­vat­sphä­re je­der­zeit ge­schützt ist. So­mit wer­den Ana­ly­sen mög­lich, die an­de­ren­falls un­denk­bar sind.

Wei­te­re Vor­tei­le sind die Op­tio­nen, zum ei­nen syn­the­ti­sche Da­ten ohne Be­den­ken ex­ter­nen Ana­lys­ten zur Ver­fü­gung zu stel­len und zum an­de­ren die ge­winn­brin­gen­de Ko­ope­ra­ti­on zwi­schen Un­ter­neh­men. Prä­des­ti­niert für der­ar­ti­ge An­wen­dungs­fäl­le sind Un­ter­neh­men und Or­ga­ni­sa­tio­nen, die ähn­li­che Da­ten­haus­hal­te auf­wei­sen, selbst wenn sie in Kon­kur­renz ste­hen. So sind bei­spiels­wei­se auch Ab­neh­mer-Zu­lie­fe­rer oder Pro­du­zen­ten-Kun­den Be­zie­hun­gen idea­le Aus­gangs­punk­te für Da­ten­ana­ly­sen, die die Wett­be­werbs­fä­hig­keit al­ler Be­tei­lig­ten stei­gern.


 

Die Vorteile auf einen Blick

Wahrung der Privatsphäre

Wahrung der Privatsphäre

Gewinn neuer Erkenntnisse

Gewinn neuer Erkenntnisse

Keine Nutzung sensibler Daten

Keine Nutzung sensibler Daten

Die Wahrung der Privatsphäre bleibt durchgehend garantiert.

Ge­winn neu­er Er­kennt­nis­se durch zu­vor nicht durch­führ­ba­re Aus­wer­tun­gen.

Es werden ausschließlich künstliche Daten verwendet.


 

Informationsmangel durch regulatorische Hürden

Sen­si­ble Da­ten wie bei­spiels­wei­se In­for­ma­tio­nen zu Kun­den oder Ge­schäfts­part­nern, aber auch Da­ten zum ei­ge­nen Un­ter­neh­men sind auf­grund ge­setz­li­cher Vor­ga­be oder im In­ter­es­se des Ge­schäfts­ge­heim­nis­ses best­mög­lich zu schüt­zen. Dar­aus folgt je­doch, dass das Ge­win­nen von Er­kennt­nis­sen zu ei­ge­nen Pro­zes­sen oder Kun­den bis­her sehr auf­wän­dig bis un­mög­lich sind. In­ter­ne Ana­ly­sen von sen­si­blen Da­ten, wel­che aus Sicht des Da­ten­schut­zes zwar er­laubt sind, set­zen qua­li­fi­zier­tes Per­so­nal vor­aus. An­dern­falls müs­sen Ver­trä­ge mit ex­ter­nen Dienst­leis­tern ge­schlos­sen und dar­auf ver­traut wer­den, dass die­se die Da­ten sorg­fäl­tig aus­wer­ten und im An­schluss auch si­cher ar­chi­vie­ren bzw. lö­schen. Kön­nen der­ar­ti­ge Ka­pa­zi­tä­ten nicht auf­ge­baut, Da­ten nicht in aus­rei­chen­der Men­ge oder Qua­li­tät zur Ver­fü­gung ge­stellt wer­den oder soll ex­ter­nen Ana­lys­ten kein Zu­griff ge­ge­ben wer­den, bleibt oft­mals kei­ne Mög­lich­keit, In­for­ma­tio­nen aus den ei­ge­nen Da­ten zu ge­ne­rie­ren.

Analysen und Kooperationen auf Basis synthetischer Daten

Eine Mög­lich­keit die­ses Di­lem­ma zu um­ge­hen, ist die Syn­the­ti­sie­rung der ei­ge­nen Da­ten, be­vor die­se aus­ge­wer­tet wer­den. Mit Hil­fe von spe­zi­el­len künst­li­chen neu­ro­na­len Net­zen, Generative Adversarial Networks, ist es in­zwi­schen mög­lich, die für Mo­del­le re­le­van­ten sta­tis­ti­schen Ei­gen­schaf­ten von Da­ten künst­lich ab­zu­bil­den. Eine Syn­the­ti­sie­rung bie­tet zu­dem be­reits ei­nen deut­lich bes­se­ren Schutz als bei­spiels­wei­se eine ein­fa­che Pseud­ony­mi­sie­rung (also das Er­set­zen von Merk­ma­len wie bei­spiels­wei­se Name oder Al­ter). Ge­ra­de bei sehr sen­si­blen Da­ten und po­ten­zi­ell star­ken An­grif­fen wie den so­ge­nann­ten Membership Inference Attacks ist die­ser Schutz je­doch noch nicht aus­rei­chend. Um si­cher­zu­stel­len, dass den­noch kein Rück­schluss auf ein­zel­ne Da­ten­punk­te mög­lich ist, wird da­her bei der Syn­the­ti­sie­rung das Kon­zept der Differential Privacy an­ge­wandt. Die­ses ga­ran­tiert eine Ober­gren­ze für das Ri­si­ko, dass bei­spiels­wei­se eine ein­zel­ne Per­son im Da­ten­satz iden­ti­fi­ziert wer­den kann.

Da­ten­syn­the­ti­sie­rung bie­tet An­wen­dern viel­fäl­ti­ge Mög­lich­kei­ten. Zum ei­nen kön­nen die An­for­de­run­gen des Da­ten­schut­zes bei der Aus­wer­tung von Da­ten durch Ex­ter­ne ge­wahrt wer­den. Zum an­de­ren wird die Ko­ope­ra­ti­on und der Da­ten­aus­tausch zwi­schen Un­ter­neh­men mit ähn­li­chen oder sich er­gän­zen­den Da­ten ge­för­dert. Dazu wer­den die Da­ten zu­nächst bei den ein­zel­nen Part­nern syn­the­ti­siert, um sie an­schlie­ßend zu­sam­men­zu­fü­gen und im Kol­lek­tiv aus­zu­wer­ten. In bei­den Fäl­len ist ent­schei­dend, dass die ei­gent­li­chen Da­ten das ei­ge­ne Un­ter­neh­men zu kei­nem Zeit­punkt ver­las­sen. Le­dig­lich das syn­the­ti­sche Ab­bild, wel­ches kei­nen Rück­schluss auf die Ori­gi­nal­da­ten zu­lässt, wird ge­teilt.

Bessere Ergebnisse zu geringeren Kosten

Die Ge­ne­rie­rung syn­the­ti­scher Da­ten bie­tet Si­cher­heit, da die Da­ten das ei­ge­ne Un­ter­neh­men nie ver­las­sen. Den­noch ent­steht die Mög­lich­keit der Ana­ly­se, was es er­laubt neue Er­kennt­nis­se zu er­lan­gen. Zu­dem wird die Ko­ope­ra­ti­on ge­för­dert, denn je­des teil­neh­men­de Un­ter­neh­men pro­fi­tiert über die ei­ge­nen Da­ten hin­aus von bes­se­ren Er­geb­nis­sen auf­grund ei­ner um­fang­rei­che­ren Da­ten­grund­la­ge. Letzt­lich wer­den auch die Kos­ten für die ei­gent­li­che Aus­wer­tung und Ana­ly­se der Da­ten ge­mein­sam ge­tra­gen.

Die auf Ba­sis von syn­the­ti­schen Da­ten durch­ge­führ­ten Ana­ly­sen lie­fern im Ver­gleich zum Ori­gi­nal­da­ten­satz an­nä­hernd gleich­wer­ti­ge Er­geb­nis­se.