Workshop „Annotating in the Sphere of DARIAH-DE“

0 Veröffentlicht von Ruth Reiche am

von Ruth Reiche, Luise Borek und Michael Bender

Am 23. und 24. Juli 2015 haben sich Mitarbeiterinnen und Mitarbeiter aus DARIAH-DE mit ihren Kollegen und Kolleginnen aus verschiedenen kooperierenden Projekten am Institut für Sprach- und Literaturwissenschaft an der Technischen Universität Darmstadt zu einer Diskussionsrunde zusammengefunden, um sich über Methodiken und Annotationsverfahren auszutauschen.

Im Projekt ePoetics werden literaturtheoretische Schriften digitalisiert, annotiert und analysiert. Bei den Annotationsgegenständen handelt es sich um ‚Lehren der Dichtkunst‘, aber nicht im Sinne von normativen Regelpoetiken. Konkret umfasst das Corpus 20 Poetiken von 1770-1960, in denen literaturtheoretisches Wissen diskursiv verhandelt wird. Aktuell im Mittelpunkt steht der Begriff der Metapher. Problemstellungen für die digitale Annotation mit dem Ziel der computergestützten Auswertbarkeit liegen bei solchen Texten auf mehreren Ebenen vor: Das jeweilige Metaphernverständnis muss differenziert erschlossen und die Komponenten der Begriffsbestimmung müssen trennscharf kategorisiert werden können. Eine eindeutige Zuordnung zu Ansätzen bzw. Denkschulen der antiken Rhetorik soll erzielt und Bezüge zu anderen Poetiken sollen erfasst werden. Beispiele aus der Primärliteratur sind eindeutig den jeweiligen theoretischen Aspekten zuzuordnen. Und schließlich müssen die Textebenen und Referenzstrukturen der Poetik explizit gemacht werden – also wo der Autor selbst theoretisiert, wo zitiert oder paraphrasiert wird, inwiefern dies kenntlich gemacht wird oder nicht und wo vom ursprünglichen Text abgewichen wird. Dies wird durch die Annotation nach einem komplexen Schema umgesetzt. Die Annotationen werden einerseits in TEI-konformen XML-Dateien publiziert, andererseits aber auch als Grundlage von computergestützten Analysen und Visualisierungen genutzt.

Auch im Graduiertenkolleg Natur & Staat geht es um die Metapher – genauer gesagt um „Metaphernannotation in (populär-)wissenschaftlichen Texten Anfang des 20. Jahrhunderts“, so der Titel des Impulsvortrags. Ausgangspunkt für die Annotation von Metaphern in diesen textuellen Gegenständen der Annotation sind Metapherntheorien – z.B. nach Lakoff/Johnson, Max Black und Petra Gehring. Als Annotationswerkzeug wird WebAnno genutzt, eine Webanwendung für mehrere Benutzer. Die unterschiedlichen theoretischen Modelle bedingen dabei unterschiedliche Metaphernannotationen auf verschiedenen Ebenen. Es werden Text-Abschnitte annotiert, die Metaphern-Teile darstellen, sowie die Relationen zwischen diesen Teilen (z.B. zwischen Source und Target, Bild-Spender und Bild-Empfänger). Die Annotationen sollen als Trainingsdaten für einen Classifier genutzt werden, der automatisch Metaphern erkennen soll.

Hinter den Briefwechseln des Projekts Vernetzte Korrespondenzen verbirgt sich nicht die Korrespondenz einiger Weniger untereinander, vielmehr besteht das Corpus aus vielen Briefen unterschiedlichster Urheber, die an eine Vielzahl von Adressaten gerichtet sind. Verbindendes Element ist hierbei das Exil, das spezielle Herausforderungen für das Annotieren mit sich bringt. Das Anreichern mit Geokoordinaten, Normdaten zu Personen, ihren Berufen oder Konfessionen und bibliografischen Angaben ist häufig nur mit großem Recherche-Aufwand zu realisieren. Doch sind diese oft fragmentarischen Informationen häufig nicht ausreichend, um in bestehende Normdaten aufgenommen zu werden. Die aus dem Projekt heraus formulierten Anforderungen bildeten die Diskussionsgrundlage für das Erfassen einer ‚Wunschliste‘, in der mögliche Services (z.B. Schnittstellen) aufgezählt werden, mit denen eine Forschungsinfrastruktur Projekte bei ihren Annotationsvorhaben unterstützen kann.

In Relationen im Raum geht es um Bildannotation, genauer um die Visualisierung von Informationen auf Karten und Lageplänen. Datengrundlage sind u.a. die in der epigraphischen Datenbank epidat des Steinheim Instituts edierten rund 25 000 jüdischen Grabmale. Der Topographie-Visualizer ermöglicht hierbei Annotationen zu topographischen Strukturen. Neben der konkreten Lage eines Grabsteins wird zudem eine Vielzahl von Merkmalen erfasst, deren Zusammenspiel komplexe Analysen ermöglicht. So lässt sich z.B. die Form erfasster Grabsteine mit der jeweiligen Datierung in Beziehung setzen, so dass verschiedene ‚Moden‘ ablesbar werden.

SemToNotes – kurz für Semantic Topological Notes – ist eine Anwendung, die im DARIAH-DE Cluster 6 Fachwissenschaftliche Dienste entwickelt wird. Es handelt sich hierbei um ein Annotations- und Retrievalwerkzeug zur Untersuchung von räumlich-topologischen Beziehungen zwischen semantisch aufgeladenen Teilflächen eines Bildes, d.h. zur Untersuchung der räumlichen Komposition eines Bildes. Dies geschieht, indem Teilflächen eines Bildes mit einem graphischen Editor durch Polygone markiert werden. Der Clou einer solchen nicht-textuellen Annotation besteht darin, dass die Beziehungen zwischen markierten Teilflächen berechnet werden können, z.B. welche Schnittstellen bestehen oder in welchem Winkel zwei Linien kreuzen. Eine derartige Funktionalität ist auch für eCodicology von Relevanz, das sich daher in einer engen Koopertaion mit SemToNotes befindet.

Das Projekt eCodicology nutzt den Fundus des digitalisierten Bestandes von rund 500 mittelalterlichen Handschriften aus der Benediktinerabtei St. Matthias in Trier. Es werden Algorithmen entwickelt, die Layoutelemente der insgesamt rund 170 000 Einzelbilder automatisch erkennen und in den Metadaten der Handschriftendigitalisate hinterlegen. Anhand von Digitalisaten können also physikalische Merkmale erfasst werden, beispielsweise metrische Daten wie Blattgröße oder Größe des Schrift- und Bildraums. Die vorhandenen bibliographischen Metadaten werden auf diese Weise um Zusatzinformationen zu den äußeren Merkmalen der Handschriftenseiten erweitert. Eine statistische und qualitative Auswertung dieser Annotationen erlaubt schließlich die Analyse einer großen Zahl von Handschriftenseiten auf quasi-empirischer Basis, durch die der ‚subjektive‘ Blick des Kodikologen ‚objektiviert‘ werden kann.

Wie können wir als Geisteswissenschaftler annotieren? Eine Möglichkeit des digitalen Notierens besteht im Annotieren von PDFs oder Websites – in Analogie zu schnellen Randbemerkungen auf einer Buchseite. Dies geht z.B. mit Annotator, einer frei verfügbaren Javascript-Bibliothek. Auch fremde und statische Websites können so dynamisch in den eigenen Forschungsprozess eingebunden werden – ein Potential des Digitalen, das zurzeit bei Weitem nicht ausgeschöpft wird. Web-Annotationen bilden eine Interoperabilitätsschicht, bei der eine Annotation im Idealfall auf mehrere Targets zielt und von anderen verfolgt und nachgenutzt werden kann. Eine infrastrukturelle Herausforderung hierbei besteht in der Qualitätssicherung der Annotationen, die über eine AAI gesteuert werden sollte, um die Annotationen nach verschiedenen Aspekten zu filtern.

Die verschiedenen Zugänge und unterschiedlichen Praktiken, die im Workshop unter dem Annotationsbegriff subsumiert wurden, teilen insbesondere die Anforderung, dass zuverlässige und zentral verfügbare Daten gebraucht werden, die den Ausgangspunkt für jede digital unterstützte Forschungstätigkeit stellen. Dies kann so etwas wie einen optimierten Scanprozess (Umgang mit Fragmenten einer Buchseite, Farbskala etc.) betreffen, sich aber auch in dem Bedürfnis äußern, dass bessere Schnittstellen vorhanden sein sollten, die einen Austausch und Erhalt von Daten erleichtern, z.B. das Einpflegen von in Projekten gewonnenen Personendaten in die Gemeinsame Normdatei (GND). Die Ergebnisse der Diskussion zeigen, dass wir auf dem richtigen Weg sind: Ihn konsequent weiterzuverfolgen erfordert die Unterstützung durch eine Forschungsinfrastruktur und neben dem zweifelsohne vorhandenen Bedarf einen aktiven Kreis von Anwenderinnen und Anwendern.

Kommentar schreiben