piwik-script

English Intern
Zentrum für Philologie und Digitalität "Kallimachos"

OCR4all

OCR4all ist eine Software, die zur digitalen Texterschließung vornehmlich sehr früh gedruckter Werke entwickelt wurde, deren aufwendige Drucktypen und oft uneinheitliche Layoutkonzeptionen die Erkennungsmöglichkeiten vieler anderer Texterkennungsprogramme übersteigen. Verständlich und selbstständig anwendbar spricht der in OCR4all vorgeschlagene semi-automatische Workflow unter anderem auch einen dezidiert nicht-informatisch vorgebildeten Nutzerkreis an und kombiniert unterschiedliche Arbeitswerkzeuge und Tools innerhalb einer einheitlichen Benutzeroberfläche. Der ständige Wechsel zwischen unterschiedlichen Programmen ist auf diese Weise nicht mehr nötig.

Von der Vorverarbeitung der zur bearbeitenden Bilddateien (sog. Preprocessing) über die Layoutsegmentierung (sog. Region Segmentation mit LAREX), die Extrahierung der klassifizierten Layoutregionen (Region Extraction), die Zeilensegmentierung (Line Segmentation) und Texterkennung (Recognition) bis hin zur Korrektur der erkannten Texte (Ground Truth Production) und der Erstellung werkspezifischer OCR-Modelle in einem Trainingsmodul beschreibt OCR4all einen vollwertigen OCR-Workflow.

Vor allem durch die Möglichkeit der Herstellung und des Trainings werkspezifischer Texterkennungsmodelle, die sich dann theoretisch immer auch auf andere Drucke anwenden lassen, können mit OCR4all bei so gut wie allen gedruckten Texten sehr gute Ergebnisse in der digitalen Texterschließung erzielt werden.

Publikationen

  • OCR4all - An Open-Source Tool Providing a (Semi-)Automatic OCR Workflow for Historical Printings.
    Reul, Christian; Christ, Dennis; Hartelt, Alexander; Balbach, Nico; Wehner, Maximilian; Springmann, Uwe; Wick, Christoph; Grundig, Christine; Büttner, Andreas; Puppe, Frank in ArXiv Preprints (submitted to  MDPI - Applied Sciences) (2019).
    [ PDF ]

Berichterstattung

In folgenden Medien wurde über OCR4all berichtet:

Mailingliste

OCR4all befindet sich in aktiver Entwicklung. Um mit Blick auf zukünftige Image-Releases und sonstige technische Neuerungen immer auf dem aktuellen Stand zu bleiben, bitten wir Sie, unsere Mailingliste zu abonnieren.