Intern
Zentrum für Philologie und Digitalität "Kallimachos"

LAREX

Das Open Source Tool LAREX (Layout Analysis and Region Extraction) wurde ursprünglich für die semi-automatische, regelbasierte Segmentierung von historischen Dokumenten, im speziellen die im Projekt Narragonien digital erschlossenen Narrenschiffe, entwickelt. Dabei stand v. a. die feinkörnige und mittels eines leicht nachvollziehbaren Regelsystems flexibel anpassbare Klassifikation von Regionen (Bild, Fließtext, Überschrift, Marginalie, ...) im Vordergrund. Durch stetige Weiterentwicklung ist LAREX mittlerweile überdies als umfassendes Korrekturtool einsetzbar, das eine Auszeichnung und Verbesserung sämtlicher (Zwischen)Ergebnisse der Segmentierungs- und Texterkennungsschritte eines OCR Workflows ermöglicht. Dies umfasst u. a. sowohl Regionen- und Zeilenpolygone sowie deren Lesereihenfolge und semantische Typisierung als auch den textuellen Inhalt.

Abbildung 1: Komprimierte Ansicht der LAREX Korrektur GUI mit der Seitenauswahl links, der ausgewählten Seite und deren aktuellen Auszeichnungszustand in der Mitte, zusätzlichen Informationen und Einstellungen rechts und der Werkzeugleiste oben.

LAREX ist mittlerweile fester Bestandteil von OCR4all, kann aber auch als eigenständige Webanwendung betrieben werden. Zur Nachverfolgung der Weiterentwicklung und für Verbesserungsvorschläge verweisen wir auf GitHub. Hinweise zur Nutzung finden sich im Rahmen der OCR4all Anleitung hier.

Related Publications

Reul, C., Springmann, U., and Puppe, F.: LAREX - A semi-automatic open-source Tool for Layout Analysis and Region Extraction on Early Printed Books. In: Proceedings of the 2nd International Conference on Digital Access to Textual Cultural Heritage (2017). URL