Available at http://www.zfdg.de
Sofern nicht anders angegeben
Available at http://www.zfdg.de"> (c) Forschungsverbund MWW
Ausgewählte Beiträge der DHd-Tagung 2014 in Passau
Transformation der WORD-Vorlage nach XML/TEI-P5 durch Apache TIKA 1.7 und XSLT
Lektorat des Textes durch die Redaktion.
Medienrechte liegen bei den Autoren
All links checked
Für die Digital Humanities im Bereich Mediävistik und Frühneuzeitforschung stellt die Digitalisierung von Handschriften ein zentrales Feld dar. Da jede Handschrift eigene Charakteristika aufweist, führt die automatische Erstellung eines maschinenlesbaren Textes durch Optical Character Recognition (OCR) anhand von Digitalisaten in den allermeisten Fällen zu fehlerhaften Ergebnissen. Andererseits können Charakteristika dieser Schrift wie Buchstabengröße und -abstand, Dichte des Schriftbildes, Neigung u.a. genutzt werden, um die Identifikation der schreibenden Hand bzw. Hände zu ermöglichen. In dem Beitrag wird gezeigt, wie die Analyse von Handschriftenabbildungen zur Identifikation der schreibenden Hand bzw. Hände genutzt werden kann. Ein Algorithmus soll sonstige paläographische oder kodikologische Befunde unterstützen und Argumente zur Veri- oder Falsifikation von unsicheren Zuschreibungen liefern.
For Digital Humanities in medieval studies and early modern studies, the digitization of manuscripts is a central field. Since each manuscript displays its own unique characteristics, the automatic generation of a machine-readable text using Optical Character Recognition (OCR) as applied to digital images leads, in most cases, to error-prone results. However, characteristics of handwriting such as the size of letters and spacing, slope, and so on can be used to identify the scribe or scribes. This paper demonstrates how the analysis of manuscript images can be used to identify the scribe or scribes. An algorithym will support additional paleographic and codicological findings and provide evidence for the verification or falsification of uncertain attributions.
Deutschland befindet sich in einer Phase intensiv
betriebener und mit einem hohen finanziellen Aufwand verbundener
Digitalisierung seiner historischen Bestände. Für die Mediävistik und
Frühneuzeitforschung stellt hierbei die Digitalisierung der dem
Mittelalter und der Renaissance entstammenden Handschriften ein
zentrales Feld dar.
Die Nutzung der Digitalisate allein als digitale Lesekopie durch den betrachtenden Forscher oder die Forscherin würde das Erkenntnispotential, das dem Digitalisat selbst innewohnt, schlechterdings vergeuden. Daher ist eine der ersten Fragen von ›traditionell‹ mit Handschriften arbeitenden Geisteswissenschaftlern in der Regel die, ob oder wie man aus den Bildern der Handschriften einen Text gewinnen kann.
Die zentrale Anwendung wäre die Optical Character Recognition (OCR
automatisierte Texterkennung), die der Herstellung eines maschinenlesbaren
Textes aus bildhaft vorliegender Information dient. Die Güte der aus
OCR-Algorithmen gewonnenen Texte ist von mehreren Faktoren abhängig,
darunter auch von der Qualität der Vorlage sowie von der Qualität des
Scanprozesses bzw. der daraus resultierenden Digitalisate.
Die eigentliche Herausforderung an die OCR für Handschriften liegt in
Arbeitsschritt 4, da für die Zuweisung eines zu speichernden Codes in
Schritt 5 hier zunächst die Zuweisung eines Codes zu einer großen Zahl von
Digitalisaten manuell durchgeführt werden muss (man spricht davon, die
sogenannte ›ground truth‹ für die Digitalisate anzulegen). Diese Aufgabe ist
sehr zeitaufwendig aber notwendig, um das sogenannte ›Training‹ eines
Klassifikators zu ermöglichen, wobei der Klassifikator an die jeweilige
Schriftart angepasst wird. Der Klassifikator ist Kern des OCR-Systems und
ermöglicht es, Muster (pattern) in der Vorlage Zeichen aus dem Zeichenvorrat
zuzuordnen. Diese auf einer festgesetzten Wahrheit beruhende Beziehung
zwischen den Bildmustern und den kodierten Zeichen ist nur für die Typen von
Mustern gültig, die zum Training verwendet wurden, also z. B. für eine
Schrifttype oder eine bestimmte Schriftform. Da die Handschrift jedes
Schreibers
Die Varianz zwischen einzelnen Handschriften, vor allem von Buchschriften wie
der karolingischen Minuskel, ist als vergleichsweise klein einzuschätzen, so
dass die Anwendung von OCR auf diese Schriften demnach recht gute Ergebnisse
erwarten lassen dürfte, allerdings ist die Aufgabe der Textgewinnung gerade
für die in dieser Schrift geschriebenen Werke relativ uninteressant. Es
handelt sich dabei um zumeist wohlbekannte und gut erforschte, in der Regel
auch schon kritisch edierte Texte
Aufgrund dieser Annahmen stand am Anfang der Kooperation zwischen dem Institut für Nachrichtentechnik an der TU Braunschweig (IFN) und der Herzog August Bibliothek Wolfenbüttel (HAB) die Überlegung, das Untersuchungsziel kurzerhand umzukehren und als Ergebnis der Analyse von Handschriftenabbildungen nicht einen durch OCR zu gewinnenden elektronischen Text anzustreben, sondern in der Schrift Merkmale zur Identifikation der schreibenden Hand zu herauszufiltern. Sollte es nämlich gelingen, anhand spezifischer Merkmale eine Schreiberhand (unter Abstraktion von nicht mehr quantifizierbaren Abweichungsquellen wie Lebensalter und Tagesform des Amanuensis oder dem Zustand der Schreibmaterialien und -utensilien) von anderen Schreiberhänden abzugrenzen, so könnte damit die wichtige Fragestellung nach dem Schreiber automatisiert werden.
Als Charakteristika dieser Schrift sollten Buchstabengröße und –abstand, Dichte des Schriftbildes, Neigung u. a. untersucht werden, aber nicht notwendig, wie in der klassischen, vom forschenden menschlichen Auge ausgehenden Paläographie, einzelne Buchstabenformen. Dabei werden in dieser Arbeit verschiedene Merkmale vorgestellt, die auf unterschiedlichen Grundprinzipien, wie der Schriftkontur, der durch die Periodizität des Schriftbildes zugrunde liegenden Textur und speziellen Schlüsselpunkten in der Schrift, beruhen.
Diese Überlegung lässt sich nun in zweierlei Richtung ausdeuten:
Für die Beantwortung beider Fragen ist sowohl die Festsetzung der
Schwellwerte als auch die Abschätzung zentral, welche räumliche Ausdehnung
der Untersuchung zugrunde gelegt wird: Die Schwellwerte müssen genutzt
werden, um kleinere Abweichungen zu tolerieren. Kein Schreiber ist in der
Lage, in einem handschriftlichen Text zwei völlig identische
Buchstabenformen zu erzeugen. Zu genaues Betrachten des
Untersuchungsgegenstandes würde somit nur noch Unterschiede erkennen lassen
und keinerlei Übereinstimmung mehr zu Tage fördern.In fact, the
closer we look at a text, the more variation we see. It is not only that
there is more variation: the text itself changes depending on how
closely we are looking at it.
Die Erkennungsgenauigkeit muss dazu aufgrund des Trainings mit einer Handschrift in einem anderen Codex über einem zu definierenden Schwellwert (threshold) liegen, um als Indiz gewertet zu werden, dass derselbe Schreiber die Handschrift geschrieben haben könnte. Der angestrebte Algorithmus würde damit sonstige paläographische oder kodikologische Befunde unterstützende bzw. ergänzende Argumente zur Verifikation von unsicheren Zuschreibungen liefern. Im Gegenzug müsste das Unterschreiten dieses Schwellwertes Argumente für Falsifikationen solcher Zuschreibungen ermöglichen.
Der typische Aufbau einer Prozesskette für die Identifikation eines
Schreibers ist die einer OCR nicht unähnlich.
Dieser Beitrag ist wie folgt gegliedert: nach dieser Einleitung wird in Abschnitt 2 der Schritt der Vorverarbeitung erläutert. Anschließend werden in Abschnitt 3 unterschiedliche Methoden der Merkmalsextraktion vorgestellt. In Abschnitt 4 werden unterschiedliche Aufgaben für die Klassifikation von Schreibern in historischen Dokumenten vorgestellt, zu denen in Abschnitt 5 exemplarische Ergebnisse von verschiedenen Experimenten gezeigt werden.
In der Vorverarbeitungsstufe werden die gescannten Bilder der historischen
Dokumente für die Schreibererkennung aufbereitet. Idealerweise sollten nach
dieser Stufe die Bilder nur die reine Schrift enthalten, beispielsweise in
Form von Binärbildern (Schrift schwarz, Beschreibstoff weiß). Aufgrund der
Alterung der Dokumente enthalten die Seitenbilder allerdings verschiedenste
Arten von Verunreinigungen, wie z.B. Wasserflecken (vgl. Abbildung 2) oder
Texte, die von der Rückseite durchscheinen, die die Vorverarbeitung
erschweren. Des Weiteren finden sich in solchen Dokumenten oft Zusätze
anderer Schreiber an den Seitenrändern. Ornamente unterschiedlichster
Ausprägung können zusätzlich die automatische Merkmalsgewinnung erschweren.
Um die Zuweisung von Schriftmerkmalen des Haupttextes zu verbessern, wird in
einem ersten Schritt die Region des Haupttextes ermittelt. Abbildung 1
(links) zeigt ein solches Beispiel einer Seite eines arabischen,
historischen Dokumentes mit vielen Kommentaren.
Im nächsten Schritt wird die Handschrift des Haupttextes vom Hintergrund
getrennt (segmentiert), um eine reine, möglichst ungestörte Version der
Schrift zu erhalten. Hierfür wird eine Binarisierung angewendet, die ein
farbiges Eingabebild in ein binäres Bild transformiert. Abbildung 1 (Mitte
und rechts) zeigt ein Beispiel einer solchen Segmentierung mit einem
Binarisierungsverfahren aus dem aktuellen Stand der Technik.
Nach der Binarisierung erfolgt die Merkmalsextraktion. Das Ziel dieser Stufe
ist es, diskriminative Merkmale aus der Handschrift für die Identifikation
von Schreibern zu generieren. Allgemein wird zwischen Mikro- und
Makromerkmalen unterschieden. Mikromerkmale spiegeln die feine
Charakteristik der Handschrift wider. Als Beispiel hierfür gibt es z.B.
Grapheme-basierte Ansätze.
Die konturbasierten Merkmale verwenden eine Statistik über die Verteilung
der Winkel, die in der Kontur einer Handschrift eines Schreibers
enthalten sind.
In Text-Independent Writer Identification and
Verification on Offline Arabic Handwriting wurde ein fester
Abstand zwischen zwei Konturpunkten für die Winkelmessung
verwendet.Writer Identification for
Historical Arabic Documents eine variable Distanz für die
Winkelmessung vorgeschlagen, welche mit Hilfe eines Fehlerkriteriums
automatisch bestimmt werden kann.
In Natural Image Character Recognition Using Oriented
Basic Image Features werden die Merkmale Oriented Basic Image
Features
vorgeschlagen, die auf Basis der Symmetrie und Orientierung in
der lokalen Nachbarschaft von Pixeln eine Textur beschreiben.
Diese Merkmale basieren auf den Scale Invariant Feature Transform
(SIFT)-Deskriptoren.
Für Handschriften werden die Schlüsselpunkte auf Kreuzungen, Krümmungen
und Spitzen detektiert. Basierend auf den Distanzen aller Deskriptoren
in einem Textblock wird ein Merkmalsvektor abgeleitet.
Es lassen sich verschiedene Klassifikationsaufgaben im Bereich der Schreibererkennung von historischen Dokumenten identifizieren. In dieser Arbeit wird der Fokus auf die drei Klassifikationsaufgaben Intra-Manuskript-Schreiberanalyse, der direkte Vergleich zweier Manuskripte und die One-to-Many-Klassifikation eines Manuskriptes mit unbekannten Schreibern gelegt. Diese Verfahren werden im Folgenden erläutert, wobei hier speziell die Klassifikation von mehrseitigen Dokumenten behandelt wird. Allgemein wird dabei für jede Seite eines Dokumentes ein Merkmalsvektor extrahiert. Für den Vergleich zweier Merkmalsvektoren wird in der Regel eine Distanzmetrik eingesetzt.
Bei der Intra-Manuskript-Schreiberanalyse wird innerhalb eines Dokumentes untersucht, ob an einem Dokument ein oder mehrere unterschiedliche Schreiber beteiligt waren. Zusätzlich können explizit die Seiten ermittelt werden, die von den einzelnen Schreibern geschrieben wurden. Ermöglicht wird dies durch die Berechnung der Distanzen sämtlicher Merkmalsvektoren eines Dokumentes zueinander. Hierdurch ergibt sich eine Distanzmatrix. In Abbildung 5 ist schematisch eine solche Distanzmatrix eines fünfseitigen Dokumentes dargestellt. Sämtliche Elemente der Hauptdiagonale enthalten den Wert Null, da dies der Distanz von einer Seite zu sich selbst entspricht. Die Matrix ist entlang dieser Hauptdiagonalen gespiegelt und enthält somit redundante Informationen. Die Darstellung in Matrixform birgt beispielweise bei der Visualisierung Vorteile (vgl. auch Abschnitt 5.1).
Die Distanzmatrizen lassen sich dazu verwenden, unterschiedliche Schreiber anhand der Unterschiede in den Beträgen der Differenzen zu erkennen. Um die Beträge der Differenzen einordnen zu können, können optional bereits analysierte Referenzdokumente mit bekannter Anzahl von Schreibern verwendet werden, um Schwellwerte abzuleiten.
Anders als bei der Intra-Manuskript-Schreiberanalyse werden hier die Schreiber von zwei Dokumenten miteinander verglichen. Hierfür werden ebenfalls Distanzmatrizen eingesetzt. Allerdings werden hier die Distanzen der Merkmalsvektoren eines Dokumentes zu denen des anderen Dokumentes ermittelt. Um die Beträge der Distanzen einschätzen zu können, können zusätzlich Referenzdokumente für die Ermittlung von Schwellwerten verwendet werden (Tabelle 1, Abbildung 3).
Bei der One-to-Many-Klassifikation wird versucht, einen unbekannten
Schreiber eines Manuskriptes mit Hilfe eines Datenbestandes von
bekannten Schreibern zu identifizieren. Dazu wird in diesem Datenbestand
dasjenige Manuskript ermittelt, bei dem die Handschrift die größte
Ähnlichkeit mit der des unbekannten Schreibers aufweist. Hier wird dafür
die Nächster-Nachbar-Klassifikation eingesetzt. Da es sich dabei um
mehrseitige Manuskripte handelt, für die ebenfalls mehrere
Merkmalsvektoren extrahiert werden, existieren unterschiedliche
Strategien, diese für die Klassifikation zu kombinieren.
In diesem Kapitel werden exemplarische Ergebnisse für Experimente bei der Schreibererkennung präsentiert. Die durchgeführten Experimente sind die Intra-Manuskript-Schreiberanalyse, der direkte Vergleich zweier Manuskripte und die One-to-Many-Klassifikation. Für die Experimente wurden lateinische und arabische Manuskripte verwendet.
Um beide Fragestellungen adressieren zu können, wurde folgende Arbeitsweise festgelegt und darauf basierend Testmaterial ausgewählt:
Bei der Materialauswahl wurden zwei Handschriften ausgemacht, welche die
vorgenannten Bedingungen erfüllen: Cod. Guelf. 62 Weissenburg und Cod.
Guelf. 63 Weissenburg. Beide Handschriften sind in der wichtigsten
frühmittelalterliche Buchschrift, der karolingischen Minuskel,
geschrieben, die sich durch einheitliche, relativ stark standardisierte
Formen und eine meist geringe individuelle Varianz auszeichnet. Diese
allgemeinen Spezifika unterstützen die Brauchbarkeit von Digitalisaten
karolingischer Handschriften ebenso wie deren meist hohes
kodikologisches Niveau, das bei entsprechender Fotoaustattung nur wenig
Nachbearbeitung erforderlich macht. Beide Handschriften entstammen zudem
der Sammlung der im Rahmen des Europeana
Regia-Projekts digitalisierten Codices Weissenburgenses, die
weitere Vorteile aufweist: Die weitaus meisten Codices stammen aus dem
Skriptorium des Klosters Weißenburg im Elsass, sind also regional und
zeitlich gut einzuordnen. Mit dem den DFG-Richtlinien entsprechenden
Katalog von Hans Butzmann sind diese Handschriften außerdem
kodikologisch gut erschlossen. Die Beschreibungen liefern die Vorlagen
der Schreiberidentifikation, die es zu verifizieren (oder falsifizieren)
gilt. Cod. Guelf. 62 Weiss. ist dem Kolophon zufolge zwischen 819
und 826 im elsässischen Kloster Weissenburg während des Abbatiats von
Gerhoh von dem Mönch Waldmann geschrieben.
Abbildung 5 zeigt die ermittelte Distanzmatrix in einer dreidimensionalen Darstellung. Hier zeigt sich, dass das Buch größtenteils von einem Schreiber (im Folgenden: Schreiber A) geschrieben wurde. Nur zum Ende des Manuskriptes treten variierende Schreiber (in Folgenden zusammengefasst als Schreiber B) auf, was sich in den höheren Distanzen ausdrückt. Abbildung 6 (links) zeigt eine Seite aus der Mitte des Manuskriptes, die von dem Hauptschreiber verfasst wurde. In Abbildung 6 (rechts) ist dagegen eine Seite vom Ende des Manuskriptes dargestellt, die sich im Schreibstil eindeutig von dem der Seiten in der Mitte des Buches unterscheidet.
Ein etwas anderes Ergebnis zeigt die Distanzmatrix des Cod. Guelf. 63 Weiss. in Abbildung 7. Hier lassen sich aufgrund der Distanzunterschiede drei unterschiedliche Schreiber A, B und C identifizieren. Auffällig ist hier, dass die Unterschiede zwischen den Schreibern im Gegensatz zu den Unterschieden in Cod. Guelf. 62 Weiss. nur sehr gering sind und zu deutlich geringeren Distanzen führt. Grund hierfür dürfte die Tätigkeit im gleichen Skriptorium bzw. die Zugehörigkeit zu derselben Schule sein. Abbildung 8 (links, Mitte, rechts) zeigt von jedem Schreiber jeweils eine Seite aus dem Manuskript. Auf diesen ist die Ähnlichkeit sichtbar, im Gegenteil wird es schwierig, Differenzen zu bemerken. Die Unterschiede in der Schrift liegen jetzt nur in einzelnen Buchstabenformen wie z.B. den g-Formen, der Verwendung von Groß- und Kleinbuchstaben sowie im Schriftduktus.
In diesem Experiment werden die Schreiber der Cod. Guelf. 62 Weiss. und
63 Weiss. miteinander verglichen. In Die Weissenburger Handschriften ist
beschrieben, dass Teile von Cod. Guelf. 63 Weiss. von demselben
Schreiber verfasst wurden, der auch 62 Weiss. verfasst hat.
In Writer Identification for Historical Arabic
Documents wurden Untersuchungen zur One-to-Many-Klassifikation
mit arabischen historischen Dokumenten im Rahmen des DFG-geförderten
HADARA-Projektes
Für die Evaluation wird die Leave-one-out-Kreuzvalidierung eingesetzt. Bei dieser wird ein Manuskript als Testobjekt und die restlichen werden als Trainingsmenge verwendet. Hier werden nur diejenigen 43 Manuskripte, von denen ein Schreiber jeweils mindestens zwei Manuskripte verfasst hat, als Testobjekte verwendet. Die restlichen 17 Manuskripte werden in die Trainingsmenge mit aufgenommen. Für die Experimente bedeutet das, dass jedes der 43 Manuskripte einmal als Testobjekt verwendet wird. Die restlichen 59 Manuskripte dienen als Trainingsmenge mit bekannten Schreibern, von denen dem Testobjekt ein Schreiber zugeordnet werden soll.
In den Experimenten wurden jeweils die in Abschnitt 3 und 4 vorgestellten
Merkmalsextraktions- und Klassifikationsverfahren eingesetzt. Sämtliche
Ergebnisse sind in Tabelle 1 (Abbildung 3) dargestellt. Neben der
Genauigkeit der Klassifikation auf Manuskriptebene, bei der einem
Manuskript genau ein Schreiber mit Hilfe der Verfahren Mittelung, Voting
oder gewichtetem Voting zugeordnet wird, ist zusätzlich die Genauigkeit
auf Seitenebene ermittelt worden. Dazu wird jeder Seite eines
Manuskripts genau einem Schreiber zugeordnet. Am schlechtesten schneiden
hier die konturbasierten Merkmale ab. Wie in Writer
Identification for Historical Arabic Documents gezeigt, ergibt
sich durch die Modifikation der Winkelmessung eine Verbesserung
gegenüber dem originalen Ansatz,
In diesem Beitrag wurde gezeigt, dass eine computergestützte Identifikation der schreibenden Hand bzw. Hände in historischen Dokumenten möglich ist. Hierfür wird eine Prozesskette aus Vorverarbeitung, Merkmalsextraktion und Klassifikation für die automatische Analyse gescannter Dokumente eingesetzt. Neben einer allgemeinen Vorgehensweise für die Vorverarbeitung dieser Dokumente wurden Merkmale vorgestellt, die effektiv die Charakteristik eines Schreibers beschreiben. Diese Merkmale basieren auf unterschiedlichen Charakteristika wie Kontur, Textur und Schlüsselpunkte der Handschrift. Darüber hinaus wurden diverse Einsatzgebiete für die Klassifikation von Schreibern vorgestellt, wie die Intra-Manuskript-Schreiberanalyse, der direkte Vergleich zweier Manuskripte und die One-to-Many-Klassifikation. Experimente mit diesen Verfahren zeigen vielversprechende Ergebnisse, die eine sinnvolle Unterstützung von Arbeiten im Bereich der Kodikologie und Paläographie erwarten lassen.
In der konkreten Anwendung sind vor allem zwei Szenarien denkbar:
Die in den Szenarien 1 und 2 ermittelten Merkmalsvektoren könnten zur
Identifikation von Schrifttypen generalisiert werden. Damit wäre es denkbar,
regionale (insulare vs. kontinentale, länderspezifische) oder temporale
(karolingische Minuskeln des 9. bzw. 11. Jhs.) Unterschiede zu
identifizieren.