TU Darmstadt / ULB / TUprints

Learning to Detect Personal Information in German Text Documents

Thoma, Nils :
Learning to Detect Personal Information in German Text Documents.
Technische Universität, Darmstadt
[Bachelor Thesis], (2018)

[img]
Preview
Text
BachelorThesis_NilsThoma_NewLicense.pdf - Submitted Version
Available under CC-BY-NC-ND 4.0 International - Creative Commons, Attribution Non-commerical, No-derivatives.

Download (2MB) | Preview
Item Type: Bachelor Thesis
Title: Learning to Detect Personal Information in German Text Documents
Language: German
Abstract:

Die Analyse von großen Daten hat in den vergangenen Jahren bedeutend an Popularität gewonnen, besonders unter dem Stichwort 'Big Data'. Größere Rechenkapazitäten sowie die durch die massive Nutzung des Internets schnell wachsende Menge Daten haben diesen Trend beflügelt. Um Missbrauch vorzubeugen und persönliche Daten zu schützen, existieren Auflagen (in der Europäischen Union die DSGVO) welche die Verarbeitung sensibler Daten regulieren. Als Resultat dieser Regelungen ist es für manche Verarbeitungsschritte notwendig, personenbezogene Daten zu entfernen. Da Unternehmen ein Interesse daran haben, trotz dieser Reglungen Wissen aus den Daten gewinnen zu können, ist der Einsatz einer Anonymisierung gegenüber einer Löschung vorzuziehen. Denn so kann aus den Daten weiterhin ein Nutzen gezogen werden.

In der Industrie werden für die automatische Durchführung der Anonymisierung Systeme genutzt, welche auf klassischen Methoden wie Regulären Ausdrücken und Regeln basieren. Doch diese zeigen bisweilen unzufrieden stellende Ergebnisse, besonders bei unregulären Daten, wie es zum Beispiel bei Chat Verläufen aus dem Support eines Unternehmens der Fall ist. In dem eng mit der Anonymisierung verwandten Bereich der Named Entity Recognition (NER) hat sich der Einsatz von Systemen auf Basis Maschinellen Lernens (ML) als erfolgreich gezeigt.

Diese Arbeit geht der Frage nach, inwiefern sich verschiedene ML-Modelle aus der NER in den Bereich der Anonymisierung übertragen lassen und vergleicht ihre Leistungen gegenüber einem in der Industrie eingesetzten Anonymisierungssystem, welches auf klassischen Methoden basiert. Dafür werden verschiedene Tests auf regulären sowie auf unregulären Daten durchgeführt.

Für den Einsatz von ML-Systemen sind entsprechende Datensätze nötig, um sie trainieren und testen zu können. Da keine deutschen Korpusse im Bereich der Anonymisierung existieren, werden im Rahmen dieser Arbeit außerdem die Wiedervervollständigung eines anonymisierten Chat-Korpus (unreguläre Daten) sowie die Generierungen eines kleinen E-Mail Datensatzes mit diversen Anwendungsfällen aus dem Bereich des Kundensupports in Unternehmen (reguläre Daten) durchgeführt.

Anhand diverser Evaluationsmethodiken wird gezeigt, dass der Einsatz von ML-Modellen aus dem Bereich der NER zu guten Ergebnissen in der Anonymisierung führt. Dabei wird die Leistungen des Vergleichssystems aus der Industrie von allen ML-Ansätzen übertroffen. Besonders gute Ergebnisse erreichen Conditional Random Fields, sowie die Kombination eines Bidirektionalen Long-Short-Term-Memory Systems mit einem Convolutional Neural Network.

Place of Publication: Darmstadt
Divisions: 20 Department of Computer Science > Knowl­edge En­gi­neer­ing
Date Deposited: 07 Nov 2018 08:09
Last Modified: 07 Nov 2018 08:09
URN: urn:nbn:de:tuda-tuprints-81348
Referees: Fürnkranz, Prof. Dr. Johannes and Zopf, M.Sc. Markus
Refereed: 26 October 2018
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/8134
Export:
Actions (login required)
View Item View Item