Intern
Zentrum für Philologie und Digitalität "Kallimachos"

Quantitative Verfahren der Textanalyse

Die Verfügbarkeit größerer (ggf. zuvor durch automatische Texterkennung selbst erfasster) Datenmengen eröffnet der philologischen Forschung neue Horizonte: Quantitative Verfahren der Textanalyse ermöglichen die Beantwortung bisher ungelöster Forschungsfragen sowie die Erschließung gänzlich neuer Forschungsansätze. Prominente Beispiele sind u. a.:

  • Topic Modeling, das es erlaubt, größere Textsammlungen thematisch zu erschließen.
  • Netzwerkanalyse zur Untersuchung von sozialen Beziehungen, wie sie sich in den Dokumenten einer Textsammlung widerspiegeln.
  • Autorschaftsattribution, um Texte unbekannter Herkunft anhand ihrer stilometrischen Merkmale den wahrscheinlichsten Autoren zuzuordnen.
  • Named Entity Recognition zur automatischen Identifikation von Entitäten wie Personen, Orten oder Organisationen.

Beispiel einer per OCR (fehlerhaft) erfassten Titelseite (links) sowie die Visualisierung des zugehörigen NER-Ergebnisses (rechts), inklusive detektierter Personen (PER), Orte (LOC), Einrichtungen (ORG) und sonstiger Entitäten (MISC).

Um den Brückenschlag von traditionellen Erschließungsverfahren hin zu diesen neuen, insbesondere datenbasierten Methoden zu unterstützen, fokussiert sich das ZPD hauptsächlich auf die Anwendung bestehender Verfahren und Algorithmen, die in den Digital Humanities, der Computerlinguistik oder der Informatik entwickelt wurden. Darüber hinaus besteht eine enge Kooperation mit dem Würzburger CAIDAS (Centre for Artificial Intelligence and Data Science), einem der Knotenpunkte der Hightech Agenda Bayern, um Methoden bei Bedarf gezielt auf neue Anforderungen anzupassen, sie zu verbessern und neue Methoden zu entwickeln. Konkrete Kooperationspartner für die oben genannten Aufgaben wären z. B. die Lehrstühle für