Die Speicherung und der Austausch von Informationen ist eng mit dem Begriff des Datenformats verknüpft. Ein Datenformat legt fest, wie Informationen format-konform von einem Sender als Daten geschrieben und aus diesen von einem Empfänger wieder gelesen werden können. Obwohl natürlich-sprachliche Beschreibungen für menschliche Ingenieure heute häufig genutzt werden, und format-konforme Abläufe teilweise prozedural beschrieben werden, hätte eine formale, deklarative Beschreibung von Datenformat-Wissen den Vorteil, dass dieses ohne Bindung an einen konkreten Ablauf und ohne den Umweg über Menschen maschinen-verarbeitbar ist, und damit flexibel und automatisiert auf format-konforme Daten angewandt werden kann. Im Rahmen dieser Dissertation wird Datenformat-Wissen sowohl auf der Ebene von format-konformen Daten als Datenformat-Instanz als auch auf der Ebene eines Datenformats betrachtet, welches aus Datenformat-Instanzen besteht. Im Rahmen einer Begutachtung verwandter Arbeiten im Bereich der Datenformat-Beschreibung werden Ansätze in den daten-orientierten Forschungsgebieten der Digitalen Erhaltung, Multimedia und Telekommunikation untersucht, und es wird festgestellt, dass geeignete, formalisierte Modelle fehlen, welche universell für die Beschreibung von Datenformaten anwendbar sind. Darüber hinaus hat sich gezeigt, dass die betrachteten Ansätze nur teilweise die notwendigen beschreibenden Fähigkeiten haben, welche erforderlich sind, um den Aufbau von Daten zu beschreiben, welche primitive Werte enthalten, eine Struktur darstellen, einer Block-Transformation unterzogen wurden oder aber in fragmentierter Form vorliegen. In einer Analyse wird daher eine Formalisierung des Datenformat-Begriffs entwickelt, welche von der Annahme ausgeht, dass ein Datenformat ein normatives Set von verlustfreien Informations-Repräsentationen darstellt. Für ein solches Set existiert eine bijektive Abbildung zwischen der internen Repräsentation eines Senders / Empfängers und der korrespondierenden externen Repräsentation, welche in Form format-konformer Daten ausgetauscht wird. Diese Formalisierung ist universell für beliebige Datenformate anwendbar, also auch für sogenannte verlustbehaftete und verlustfreie Datenformate, und führt zum Konzept von elementaren beschreibenden Fähigkeiten, welche sich genau mit denen decken, welche in der Begutachtung verwendet wurden. Auf Basis dieser Fähigkeiten wird ein gültiges Bild im Dateiformat Portable Network Graphics (PNG) als ``Lackmus-Test'' für Ansätze der Datenformat-Beschreibung vorgestellt, da dessen Beschreibung alle vier elementaren beschreibenden Fähigkeiten voraussetzt. Auf Basis der Formalisierung wird dann gezeigt, dass ein universell anwendbarer Ansatz zur Datenformat-Beschreibung zu mächtig ist, als dass dessen Terminierung noch garantiert werden kann. Ferner wird gezeigt, dass bijektive Abbildungsfunktionen und ihre Inversen weder effizient sein müssen, noch dass die Effizienz einer bijetiven Abbildungsfunktion und ihrer Inversen im Zusammenhang stehen müssen. Zu guterletzt wird gezeigt, dass die für eine bijektive Abbildung erforderliche Korrespondenz von internen und externen Repräsentationen dadurch garantiert werden kann, dass man diese über eine informations-erhaltende, Turing-vollständige ``Reversible Turing-Maschine'' definiert. Aufbauend auf der Formalisierung der Analyse wird in dieser Dissertation das Bitstream Segment Graph (BSG)-Modell definiert, welches der Beschreibung beliebiger Datenformat-Instanzen dient. Für Instanzen des BSG-Modells sind sowohl visuelle Repräsentationen als auch maschinen-verarbeitbare, RDF-basierte Repräsentation für die Speicherung und den Austausch definiert. Die schrittweise Konstruktion und Modifikation von BSG-Instanzen wird durch ein geschlossenes Set von Operationen ermöglicht, und mittels dem Mass der ``Abdeckung'' einer BSG-Instanz kann deren Vollständigkeit bestimmt werden. Mithilfe des Apeiron BSG Editor ist die Konstruktion, Modifikation und Betrachtung von BSG-Instanzen auf eigenen Daten in der Praxis möglich. Die Anwendung des BSG-Modells wird demonstriert, indem eine Beschreibung des PNG-Bilds aus dem ``Lackmus-Test'' der Analyse vorgenommen wird, und indem der Aufbau eines Exploit im Kontext der IT-Sicherheit mittels einer Beschreibung näher erklärt wird. Aufbauend auf dem BSG-Modell beschreibt diese Dissertation den BSG Reasoning-Ansatz, um beliebige Datenformate als potentiell unendliche Sets von Datenformat-Instanzen zu beschreiben. Mithilfe von Logik-Regeln kann eine BSG-Instanz auf einer gegebenen Bitfolge erschlossen werden, von der initial angenommen wird, dass sie format-konform ist. Dieser Ansatz definiert auch die Repräsentation von Regel-Sets zur Speicherung und zum Austausch. Die Anwendung des BSG Reasoning-Ansatzes wird durch die Beschreibung eines Subsets des PNG-Datenformats demonstriert, sowie durch die Beschreibung eines Ansatzes zum format-spezifischen Fuzzing von Binärdaten im Kontext von IT-Sicherheit ergänzt. Die Beschreibung des PNG-Datenformat-Subsets mittels des BSG Reasoning-Ansatzes nutzt alle vier elementaren beschreibenden Fähigkeiten, welche zuvor in der Analyse identifiziert wurden, und es wurde gezigt, dass das hierfür verwendete Set an Logik-Regeln trotz seines geringen Umfangs bereits in der Lage ist, BSG-Instanzen mit einem hohen Grad an Abdeckung für eine Reihe von gültigen PNG-Bildern zu erschliessen. Die Dissertation schliesst mit einem Rückblick über die gesamte Arbeit, zieht Schlussfolgerungen und bietet einen Ausblick auf künfige Forschung im Hinblick auf das BSG-Modell und den BSG Reasoning-Ansatz, speziell im Hinblick auf Aspekte wie der maschinell unterstützten Analyse von Daten und den jeweils zugrundeliegenden Datenformat-Regeln, oder aber der Verwendung von reversiblen Programmiersprachen zur Definition von Kodierungs- und Transformationsfunktionen. | German |