Intern
Zentrum für Philologie und Digitalität "Kallimachos"

Erschließung historischer Lexika

Trotz der großen Fortschritte im Bereich der OCR (Optical Character Recognition) auf historischen Dokumenten, stellt die vollständige Indexierung eines Lexikons nach wie vor eine große Herausforderung dar. Da die meisten Lexika eine komplexe Struktur innerhalb ihrer einzelnen Textbestandteile beinhalten, reicht es meist nicht aus, den Text manuell oder mittels OCR zu transkribieren, um den gesamten semantischen Inhalt zu erfassen.

Daniel Sanders' Wörterbuch der deutschen Sprache

Gedruckte Lexika kodieren diese Struktur meist durch typographische Variationen innerhalb des Texts, wie Abb. 1 am Beispiel von Daniel Sanders' Wörterbuch der deutschen Sprache zeigt: Neben dem zu bezeichnenden Lemma selbst (Frakturtyp 1 und fett → rot) und einer entsprechenden Definition (Fraktur 21 → schwarz) beinhalten Wörterbuchartikel häufig Zusatzinformationen bzgl. Grammatik (Antiqua → grün), Quellen (Faktur 12 → gelb und Antiqua → grün) oder möglicher Wortkompositionen (Fraktur 1, gesperrt → blau).

Abbildung 1: Input (oben) und graphischer Output (unten) unserer Methode.

In Zusammenarbeit mit der Berlin-Brandenburgischen Akademie der Wissenschaften hat das ZPD als Proof of Concept die Erassung von Daniel Sanders' Wörterbuch der deutschen Sprache erbracht. Dabei wurden die beiden grundlegenden Herausforderungen einer textuellen OCR sowie die sich anschließende Typographieerkennung separat voneinander behandelt und deren Ergebnisse erst in einem Nachbereitungsschritt kombiniert. Eine umfassende Evaluation der erzielten Ergebnisse zeigte die hervorragende OCR-Zeichengenauigkeit von über 99,5%. Bzgl. der Typographie konnten 98,5% der Wörter der richtigen Typographieklasse zugewiesen werden.

Das aus den Arbeiten entstandene Paper (s. u.) wurde auf der internationalen DATeCH (Digital Access to Textual Cultural Heritage) Konferenz 2019 in Brüssel vorgestellt. Nach der Erkennung des gesamten Lexikons wurde es zusammen mit Sanders‘ Briefwechsel und Bibliographie im Rahmen der digitalen Daniel Sanders Gesamtedition frei verfügbar und vollständig durchsuchbar online publiziert.

Schweizerisches Idiotikon

Das Schweizerische Idiotikon. Wörterbuch der schweizerdeutschen Sprache wiederum umfasst als besonders umfassendes Werk 16 Bände mit mehr als 32 000 Spalten und insgesamt über 155 000 Haupt- und Nebenlemmata. Am 17. und letzten Band wird zurzeit noch gearbeitet. Dieses umfangreichste Regionalwörterbuch des deutschen Sprachraums dokumentiert seit 1881 die deutsche Sprache in der Schweiz vom Spätmittelalter bis in die Gegenwart, die älteren Sprachstufen genauso wie die lebendige Mundart.  

Neben seinem enormen Umfang und den bekannten Herausforderungen einer Erfassung lexikalischer Werke weist das Idiotikon v. a. die Schwierigkeit einiger typographischer Besonderheiten auf, die jedoch ebenfalls vollautomatisch erfasst und abgebildet werden sollen. Besonders hervorzuheben sind dabei das Auftreten hochgestellter Buchstaben, der Einsatz von Kapitälchenschrift sowie die Verwendung zweier nur leicht unterschiedlich großer, jedoch ansonsten vollkommen identischer Schriftarten.

Abbildung 2: Lemmaeintrag im Schweizerischen Idiotikon. 

Veröffentlichungen und Quellen

Reul, C., Göttel, S., Springmann, U., Wick, Ch., Würzner, K.-M., Puppe, F.: Automatic Semantic Text Tagging on Historical Lexica by Combining OCR and Typography Classification. In: Proceedings of the 3rd International Conference on Digital Access to Textual Cultural Heritage (2019). URL

Forschung Daniel Sanders. Herausgegeben von der Berlin-Brandenburgischen Akademie der Wissenschaften, Berlin 2021. URL