Zentrum für Philologie und Digitalität "Kallimachos"

Paper für ICDAR2021 akzeptiert


Unser Paper "One-Model Ensemble-Learning for Text Recognition of Historical Printings" wurde als Vortrag für die ICDAR2021 akzeptiert. Die ICDAR2021 ist die die Flaggschiff Konferenz der IAPR (International Association for Pattern Recognition) und findet dieses Jahr im Hybridformat in Lausanne in der Schweiz statt.

In Kooperation mit Kollegen der PlanetAI GmbH in Rostock wurde eine Methode entwickelt, bei der die Effektivität eines OCR Ensemble-Trainings (Training mehrere Modelle, die anschließend über das beste Ergebnis abstimmen) weiter optimiert werden konnte, indem die einzelnen Modelle nicht separat, sondern zusammen trainiert werden, und somit gezwungen werden, ihren Output besser aufeinander abzustimmen.

"In this paper, we propose a novel method for Automatic Text Recognition (ATR) on early printed books. Our approach significantly reduces the Character Error Rates (CERs) for book-specific training when only a few lines of Ground Truth (GT) are available and considerably outperforms previous methods. An ensemble of models is trained simultaneously by optimising each one independently but also with respect to a fused output obtained by averaging the individual confidence matrices. Various experiments on five early printed books show that this approach already outperforms the current state-of-the-art by up to 20% and 10% on average. Replacing the averaging of the confidence matrices during prediction with a confidence-based voting boosts our results by an additional 8% leading to a total average improvement of about 17%."