Thoma, Nils (2018)
Learning to Detect Personal Information in German Text Documents.
Technische Universität Darmstadt
Bachelor Thesis, Primary publication
|
Text
BachelorThesis_NilsThoma_NewLicense.pdf - Submitted Version Copyright Information: CC BY-NC-ND 4.0 International - Creative Commons, Attribution NonCommercial, NoDerivs. Download (2MB) | Preview |
Item Type: | Bachelor Thesis |
---|---|
Type of entry: | Primary publication |
Title: | Learning to Detect Personal Information in German Text Documents |
Language: | German |
Referees: | Fürnkranz, Prof. Dr. Johannes ; Zopf, M.Sc. Markus |
Date: | 30 October 2018 |
Place of Publication: | Darmstadt |
Date of oral examination: | 26 October 2018 |
Abstract: | Die Analyse von großen Daten hat in den vergangenen Jahren bedeutend an Popularität gewonnen, besonders unter dem Stichwort 'Big Data'. Größere Rechenkapazitäten sowie die durch die massive Nutzung des Internets schnell wachsende Menge Daten haben diesen Trend beflügelt. Um Missbrauch vorzubeugen und persönliche Daten zu schützen, existieren Auflagen (in der Europäischen Union die DSGVO) welche die Verarbeitung sensibler Daten regulieren. Als Resultat dieser Regelungen ist es für manche Verarbeitungsschritte notwendig, personenbezogene Daten zu entfernen. Da Unternehmen ein Interesse daran haben, trotz dieser Reglungen Wissen aus den Daten gewinnen zu können, ist der Einsatz einer Anonymisierung gegenüber einer Löschung vorzuziehen. Denn so kann aus den Daten weiterhin ein Nutzen gezogen werden. In der Industrie werden für die automatische Durchführung der Anonymisierung Systeme genutzt, welche auf klassischen Methoden wie Regulären Ausdrücken und Regeln basieren. Doch diese zeigen bisweilen unzufrieden stellende Ergebnisse, besonders bei unregulären Daten, wie es zum Beispiel bei Chat Verläufen aus dem Support eines Unternehmens der Fall ist. In dem eng mit der Anonymisierung verwandten Bereich der Named Entity Recognition (NER) hat sich der Einsatz von Systemen auf Basis Maschinellen Lernens (ML) als erfolgreich gezeigt. Diese Arbeit geht der Frage nach, inwiefern sich verschiedene ML-Modelle aus der NER in den Bereich der Anonymisierung übertragen lassen und vergleicht ihre Leistungen gegenüber einem in der Industrie eingesetzten Anonymisierungssystem, welches auf klassischen Methoden basiert. Dafür werden verschiedene Tests auf regulären sowie auf unregulären Daten durchgeführt. Für den Einsatz von ML-Systemen sind entsprechende Datensätze nötig, um sie trainieren und testen zu können. Da keine deutschen Korpusse im Bereich der Anonymisierung existieren, werden im Rahmen dieser Arbeit außerdem die Wiedervervollständigung eines anonymisierten Chat-Korpus (unreguläre Daten) sowie die Generierungen eines kleinen E-Mail Datensatzes mit diversen Anwendungsfällen aus dem Bereich des Kundensupports in Unternehmen (reguläre Daten) durchgeführt. Anhand diverser Evaluationsmethodiken wird gezeigt, dass der Einsatz von ML-Modellen aus dem Bereich der NER zu guten Ergebnissen in der Anonymisierung führt. Dabei wird die Leistungen des Vergleichssystems aus der Industrie von allen ML-Ansätzen übertroffen. Besonders gute Ergebnisse erreichen Conditional Random Fields, sowie die Kombination eines Bidirektionalen Long-Short-Term-Memory Systems mit einem Convolutional Neural Network. |
URN: | urn:nbn:de:tuda-tuprints-81348 |
Divisions: | 20 Department of Computer Science > Knowledge Engineering |
Date Deposited: | 07 Nov 2018 08:09 |
Last Modified: | 09 Jul 2020 02:23 |
URI: | https://tuprints.ulb.tu-darmstadt.de/id/eprint/8134 |
PPN: | 43856023X |
Export: |
View Item |