piwik-script

English Intern
Zentrum für Philologie und Digitalität "Kallimachos"

OCR4all

OCR4all ist eine Software, die zur digitalen Texterschließung vornehmlich sehr früh gedruckter Werke entwickelt wurde, deren aufwendige Drucktypen und oft uneinheitliche Layoutkonzeptionen die Erkennungsmöglichkeiten vieler anderer Texterkennungsprogramme übersteigen. Verständlich und selbstständig anwendbar spricht der in OCR4all vorgeschlagene semi-automatische Workflow unter anderem auch einen dezidiert nicht-informatisch vorgebildeten Nutzerkreis an und kombiniert unterschiedliche Arbeitswerkzeuge und Tools innerhalb einer einheitlichen Benutzeroberfläche. Der ständige Wechsel zwischen unterschiedlichen Programmen ist auf diese Weise nicht mehr nötig.

Von der Vorverarbeitung der zur bearbeitenden Bilddateien (sog. Preprocessing) über die Layoutsegmentierung (sog. Region Segmentation mit LAREX), die Zeilensegmentierung (Line Segmentation) und Texterkennung (Recognition mit Calamari) bis hin zur Korrektur der erkannten Texte (Ground Truth Production) und der Erstellung werkspezifischer OCR-Modelle in einem Trainingsmodul beschreibt OCR4all einen vollwertigen OCR-Workflow.

 

Abb.: Hauptkomponenten eines OCR-Workflows: Originalbild, Vorverarbeitung, Segmentierung, Texterkennung, Nachkorrektur.

Vor allem durch die Möglichkeit der Herstellung und des Trainings werkspezifischer Texterkennungsmodelle können mit OCR4all bei so gut wie allen gedruckten Texten sehr gute Ergebnisse in der digitalen Texterschließung erzielt werden.

                    

         Abb.:  Semantische Segmentierung des Layouts mit LAREX.           Abb.: Textuelle Korrektur in Seitenansicht (links), zeilenbasierter Ansicht (Mitte), Virtual Keyboard (rechts)

Mit dem Abschluss der zweiten Projektphase des BMBF-geförderten Verbundprojekts "Kallimachos" wird die Software nun am Zentrum für Philologie und Digitalität der Universität Würzburg etabliert, um sie einer möglichst breiten Nutzergruppe dauerhaft frei verfügbar zu machen.

Installationsanleitung

Die Installation über VirtualBox wird besonders nicht-technischen Nutzern dringend empfohlen!

Download

 

Publikationen

  • OCR4all - An Open-Source Tool Providing a (Semi-)Automatic OCR Workflow for Historical Printings. Reul, Christian; Christ, Dennis; Hartelt, Alexander; Balbach, Nico; Wehner, Maximilian; Springmann, Uwe; Wick, Christoph; Grundig, Christine; Büttner, Andreas; Puppe, Frank in ArXiv Preprints (submitted to  MDPI - Applied Sciences) (2019). [ PDF ]
  • Texterkennungssoftware für historische Drucke. Wehner, Maximilian in KulturBetrieb 25 (2019). [PDF]
  • OCR4all - Eine semi-automatische Open-Source-Software für die OCR historischer Drucke. Wehner, Maximilian; Dahnke, Michael; Landes, Florian; Nasarek, Robert; Reul, Christian in DHd 2020 Spielräume: Digital Humanities zwischen Modellierung und Interpretation. Konferenzabstracts (2020). [PDF]

Berichterstattung

Es wurde u. a. in folgenden Medien über OCR4all berichtet: