piwik-script

English Intern
Zentrum für Philologie und Digitalität "Kallimachos"

Tools

Im Kontext verschiedener Forschungsprojekte des durch das BMBF geförderten Zentrums „Kallimachos“ wurde an der JMU in den vergangenen Jahren v. a. durch die Kooperation von Geisteswissenschaftlern und Informatikern eine Reihe von Tools und Werkzeugen entwickelt, um die Erarbeitung digitaler Editionen sowie quantitative Analyseverfahren im Bereich des TextMining zu erleichtern.

Durch die derzeitige Integration von „Kallimachos“ in das neu entstehende Zentrum für Philologie und Digitalität werden die besagten Tools nun hier zentral gebündelt und zugänglich gemacht.

OCR4all

OCR4all ist eine Software, die zur digitalen Texterschließung vornehmlich sehr früh gedruckter Werke entwickelt wurde, deren aufwendige Drucktypen und oft uneinheitliche Layoutkonzeptionen die Erkennungsmöglichkeiten vieler anderer Texterkennungsprogramme übersteigen. Verständlich und selbstständig anwendbar spricht der in OCR4all vorgeschlagene Workflow unter anderem auch einen dezidiert nicht-informatisch vorgebildeten Nutzerkreis an und kombiniert unterschiedliche Arbeitswerkzeuge und Tools innerhalb einer einheitlichen Benutzeroberfläche. Der ständige Wechsel zwischen unterschiedlichen Programmen ist auf diese Weise nicht mehr nötig. 

Von der Vorverarbeitung der zur bearbeitenden Bilddateien (sog. Preprocessing) über die Layoutsegmentierung (sog. Region Segmentation mit LAREX), die Extrahierung der klassifizierten Layoutregionen (Region Extraction), die Zeilensegmentierung (Line Segmentation) und Texterkennung (Recognition) bis hin zur Korrektur der erkannten Texte (Ground Truth Production) und der Erstellung werkspezifischer OCR-Modelle in einem Trainingsmodul beschreibt OCR4all einen vollwertigen OCR-Workflow.

Mehr

LAREX

Segmentierungstool, inzwischen in OCR4all integriert.

Mehr

Calamari

Deep Learning OCR-Engine.

Mehr

Transkriptionseditor

Workflow zur händischen Transkription/Korrektur von Texten.

Mehr

Anagnosis-Editor

Werkzeug zur Glyphenerkennung und Erstellung von Texten und Bildkoordinaten, entwickelt für das Projekt.

Mehr

ATHEN

Annotation and Text Highlighting ENvironment - Textauszeichnungseditor.

Mehr

Narrative Techniken

Sammlung von Python-Codes der Arbeitsgruppe Narrative Techniken zur Erkennung von Emotionsverläufen und Happy Ends.

Mehr