Workshop Review: Practices and Context in Contemporary Annotation Activities

0 Veröffentlicht von Niels-Oliver Walkowski am 04. Februar 2016

von
Anna Busch, Universität Hamburg,
Niels-Oliver Walkowski, Berlin-Brandenburgische Akademie der Wissenschaften.

Annotationen sind zur Zeit eines der am intensivsten beforschten Themen im Kontext von E-Science und Digital Humanities. Vor gerade einmal zwei Jahren veröffentlichte die W3C Open Annotation Community Group ihren finalen Entwurf zur formalen Bestimmung dessen, was eine Annotation informationswissenschaftlich sein soll. Auf der anderen Seite haben fast alle großen europäischen Infrastrukturprojekte wie DARIAH, CLARIN, DASISH oder auch EUDAT das Thema Annotationen in der einen oder anderen Form in ihren Arbeitsplan aufgenommen. Etablierten Projekten wie dem Annotator der Open Knowledge Foundation oder dem CATMA-Projekt wird eine unvermindert anhaltende Aufmerksamkeit geschenkt. So bildet der Annotator einen zentralen Use-Case in der aktuellen W3C Web Annotation Working Group und ist technischer Ausgangspunkt für das von der Mellon Foundation geförderte hypothes.is-Projekt gewesen.

Zweifelsohne ist das Interesse an Annotationen im Kontext der Etablierung computergestützter Forschung stark gewachsen. Die „Entmaterialisierung“ von Annotationen – also die Tatsache, dass sie in einer digitalen Umgebung unabhängig vom Objekt, das sie annotieren, gespeichert und verwendet werden können – hat neue Anwendungs- und Verwertungsmöglichkeiten für Annotationen geschaffen, die noch lange nicht ausgeschöpft und hinreichend evaluiert sind. Crowdsourcing wie im vielbeachteten Transcribe Bentham-Projekt, Annotationen als primärer Forschungsoutput wie im Pelagios-Projekt oder als Mittel der formalen Datenintegration zur Automatisierung von Interferenzprozessen, wie am Beispiel der SWAN-Ontologie in den Neurowissenschaften zu sehen, sind nur einige wenige dieser Perspektiven. Auf der anderen Seite ist die Identifizierung dieser Szenarien allein für die Bedürfnisse geisteswissenschaftlicher Forschung nicht ausreichend. Ohne eine methodologische und epistemologische Evaluierung der Praxis des Annotierens innerhalb dieser erweiterten Perspektiven muss ein nachhaltiger Nutzen dieser Potenziale in Frage gestellt werden. Wenn Annotationen von den Rändern eines persönlichen Buchexemplars ins Zentrum der Bildschirme vieler Benutzer rücken, dann ist es unumgänglich, sich um ein systematisiertes Verständnis der Erstellungshintergründe, Intentionen und Verfahren von Annotationen zu bemühen. Nicht zuletzt gilt es auch darum, dieses Verständnis im Kontext computergestützter Forschung ebenso in ein formales und damit prozessierbares Angebot zu überführen.

Diese Aufgabe kann nur partiell durch Infrastrukturprojekte oder Akteure wie der W3C Open Annotation Community Group übernommen werden, weil ihr Arbeitsschwerpunkt grundsätzlich ein anderer ist. Open Annotation hat im Kontext dieser Problematik das Bewertungskriterium der Motivation eingeführt und innerhalb seines Modells 12 mögliche Motivationen definiert. Dieser auf Anwendbarkeit ausgerichtete Ansatz bleibt jedoch notgedrungen eindimensional und die Definitionen sind ebenso partiell inkonsistent. Interessantere Ansätze lassen sich in der Forschungsliteratur zum Beispiel bei Chia-Ning Chiang, Maristella Agosti, Marié-Eve Belanger oder James Bluestein finde. Allerdings beschränken sich diese häufig auf die Evaluierung von Annotationen innerhalb von historisch stabilen Zusammenhängen wie der Textannotation oder auf hervorgehobene Use Cases.

Mit dem Ziel diesen Desideraten abzuhelfen, veranstalteten die Universität Hamburg und die Berlin-Brandenburgische Akademie der Wissenschaften am 29. und 30. Oktober 2015 den Workshop Practices and Context in Contemporary Annotation Activities. 18 auf dem Feld digitaler Annotationen bewanderte Wissenschaftler waren geladen. Die Veranstaltung gehörte zur Reihe der DARIHA-DE Experten Kolloquien und war Teil des Arbeitsprogramms der DARIAH-EU Working Group Digital Annotations.

Das Programm war in vier Blöcke unterteilt. Zunächst wurden aktuelle formale Modelle vorgestellt, mit denen sich Kontextinformationen zu Annotationen abbilden lassen. Dazu wurden disziplin- und materialspezifische Bedeutungen von Annotationskontexten evaluiert, die theoretischen Erkenntnisse in konkrete Anwendungsszenarien übertragen und über die Bedeutung von Annotationen innerhalb der durch den Computer provozierten Transformationsprozesse in den Geisteswissenschaften diskutiert. Richtungsweisende und übergreifende Fragestellungen, die die Teilnehmer begleiteten, waren im Vorfeld durch die Veranstalter aufgeworfen worden:

– Welche individuellen und offenen Wiederverwendungszusammenhänge gibt es für Annotationen, die durch digitale Technologien ermöglicht werden?

– Welche deskriptiven Bedingungen (Metadaten) sichern sowohl eine sinnvolle als auch eine transparente Wiederverwendung von Annotationen?

– Wie sind die ermittelten Anforderungen praktikabel mit Annotationsprozessen zu verbinden?

– Welchen Einfluss hat die Weiterentwicklung computerunterstützter Annotationspraktiken auf das Annotieren, wenn Annotation als eine Kulturtechnik in einer historischen Perspektive verstanden wird?

Zu Beginn der ersten Sektion gab Francesca Tomasi von der Universität Bologna einen Überblick über Themenfelder, die zur Bearbeitung des Workshopthemas berücksichtigt werden sollten. Insbesondere das Umfeld neuer Annotationspraktiken wie das kollaborative Annotieren oder das Annotieren zwecks semantischer Integration heterogener Inhalte wurden hervorhoben. Der Fokus lag dabei auf Fragestellungen nach der Genese (Provenienz) sowie der Bewertung von Qualität und Autorität von Annotationen. Dieser Schwerpunkt bildete eine hervorragende Überleitung, um den Umgang mit Kontexten, in denen sich Annotationen bewegen, zu analysieren und die praktische Umsetzung von Annotationen zu evaluieren. Am Beispiel von Annotationen für die Edition digitalisierter Manuskripte stellte sie den Ansatz der von der Universität Bologna entwickelten PRoles– und HiCo-Ontologien vor. PRoles erweitert den W3C Standard PROV zur Dokumentation genetischer Aspekte digitaler Ressourcen um den Aspekt politischer Rollen. HiCo stellt Verfahren für die Abbildung historischer Kontexte zur Verfügung. Durch die Verwendung dieser Ontologien während der Erstellung von Annotationen lassen sich Qualitätsstandards formalisieren, die eine automatisierte Bewertung von Textannotationen zulassen. Das Verfahren, das Francesca Tomasi vorstellte, ist ein überzeugendes Beispiel dafür, wie innerhalb eines klar umrissenen Forschungsfeldes mit den Herausforderungen, die sich durch das digitale Annotieren stellen, umgegangen werden kann.

Ergänzend zu Francesca Tomasis Übersicht über aktuelle Fragestellungen digitaler Annotationen präsentierte Niels-Oliver Walkowski von der Berlin-Brandenburgischen Akademie der Wissenschaften eine evaluierende Typisierung verschiedener Annotationsfunktionen. Deutlich wurde, dass der Versuch einer solchen Typisierung scheitern muss, da sich eine Funktion niemals konsistent über Kontexte hinweg aus der Form und dem Inhalt der Annotation ableiten lässt. Im zweiten Teil seines Vortrages diskutierte Niels-Oliver Walkowski daher das Scholarly Domain Model (SDM) als einen Versuch, eben diesen Kontext, verstanden als Forschungspraxis, abzubilden.

Ein ähnlicher Ansatz wie der von SDM wurde von Panos Constantopoulos von der Digital Curation Unit (DCU) in Athen vorgestellt. Die in der DCU entwickelte NeDiMAH Methods Ontology (NeMO), eine formale Ontologie zur Abbildung und Dokumentation wissenschaftlicher Praxis, bestätigte den Eindruck, dass eine erhöhte Aufmerksamkeit auf die Erarbeitung von Möglichkeiten einer Metareflexion über Forschungsprozesse durch computergestützte Verfahren gelegt wird. Als begrüßenswert wurde dabei hervorgehoben, dass die Geisteswissenschaften parallel zu bereits genannten Ansätzen wie der PROV-Ontologie einen eigenen Standpunkt etablieren. Dieser lässt sich in der NeMO-Ontologie zum Beispiel an der starken Gewichtung der kontextuellen Rollen von Akteuren und Objekten ablesen. Panos Constantopoulos demonstrierte am Beispiel eines Forschungsprojektes über das klassische Korinth wie das Verständnis von spezifischen Annotationen ad-hoc erhöht wird, wenn man sie zusammen mit deskriptiven Metadaten auf der Basis von NeMO analysieren kann.

Hugo Manguinhas aus dem EUROPEANA-Projekt beendete den ersten Block über formale Modelle zur Abbildung kontextueller Aspekte von Annotationen mit einem detaillierten Einblick in das Open Annotation Model sowie einen Überblick über entsprechende Anwendungsfälle im EUROPEANA-Projekt. Im Zentrum stand dabei die Frage, wie Autorität über den Inhalt einer Annotation beansprucht werden kann. Einen bisher noch nicht genannten Ansatz bot das Unterprojekt Accurator, welches in einem Social Web Verfahren Annotationen durch eine offene Community bewerten lässt.

Nachdem im ersten Block eine Reihe von Initiativen zur Sprache kamen, die auf die eine oder andere Weise Forschung über Annotationen betreiben, wurden im zweiten Workshopblock bestimmte Forschungsprozesse, die sich unterschiedlicher Annotationsformen bedienen, in den Blick genommen.

Ein erstes solches Szenario bot Dirk Roorda von der Königlich Niederländischen Akademie der Wissenschaften. Sein Vortrag beschäftigte sich mit den Herausforderungen, vor denen Forscher stehen, die sich mit den unterschiedlichen Überlieferungsvarianten der hebräischen Bibel beschäftigen – einem Quellenprototyp samt umfangreichen Annotationen. Die Entwicklung einer digitalen Plattform, die Annotationen auf bestimmten Ebenen untersucht, wurde vorgestellt: System for HEBrew text: ANnotations for Queries and Markup (SHEBANQ). Dabei wurde deutlich, dass Annotationen, deren Inhalt auf der Grundlage einer Suchanfrage dynamisch generiert wird, die Kontextproblematik unvergleichlich radikalisieren.

Im weiteren Verlauf erläuterte Joachim Veit von der Universität Paderborn zwei Grundprobleme der musikwissenschaftlichen Annotation. So sind die Annotationen hier gemäß historischer Tradition in Kommentaren zusammengefasst, die physisch getrennt in eigenständigen Bänden publiziert werden. Eine Frage, die durch diese Verfahrensweise besonders in den Vordergrund rückt, betrifft das Ziel einer Annotation. Dies kann ein handschriftliches Manuskript, eine spezifische Edition oder auch ein rein abstraktes Objekt sein. Im MEI Score Editor (MEISE) werden die Annotationen daher von ihrer rein „verschriftlichten“ Form wieder auf spezifische Quellen zurückgeführt bzw. bei Bedarf mehrere angeführt. Eine besondere Schwierigkeit ergibt sich ebenfalls bei der automatischen Annotation von Notenblättern, da die musikalische Notation historisch stark variiert. Die „Ungreifbarkeit“ des Materials, die hier präsentiert wurde, ist eine, die ohne Zweifel als exemplarisch für geisteswissenschaftliche Forschungsgegenstände verstanden werden kann und die auf dem Workshop auch bei philologisch arbeitenden Teilnehmern als Problem bestätigt wurde.

Ein Thema, das der vorherigen Problematik nicht unähnlich und ebenfalls im Kontext sprachlicher Objekte angesiedelt ist, wurde von Sebastian Drude präsentiert. Sebastian Drude war wissenschaftlicher Leiter des The Language Archive und ist zurzeit Generaldirektor von CLARIN ERIC. In Zusammenhang mit der sprachwissenschaftlichen Dokumentation von Sprachen verdeutlichte er die häufig anzutreffende Schwierigkeit, den annotierten linguistischen Gegenstand einer Annotation eindeutig zu identifizieren. So ist zum Beispiel nicht immer klar, ob syntaktische oder morphologische Einheiten annotiert werden. Ebenso ist die Art der Segmentierung nicht selten theorieabhängig und damit ohne Kontextwissen schwer nachvollzieh- und interpretierbar. Um zu zeigen, wie mit derlei Problemen innerhalb des Sprachdokumentationsprozesses umgegangen werden kann, stellte Drude das „Advanced Glossing“-Format vor, welches im Kontext des DOBES-Projekts (Documentation of Endangered Languages) entstanden ist.

Während Joachim Veit die Beziehung zwischen Annotation und Version des annotierten Objektes problematisierte und Sebastian Drude die zwischen Annotation und Segment des annotierten Objektes beleuchtete, schlossen Matthias Bauer und Angelika Zirker von der Universität Tübingen den zweiten Block mit einer Analyse der Beziehung zwischen Annotation und ihrer interpretativen Funktion ab. Im Zusammenhang mit ihrer Lehrtätigkeit an der Universität Tübingen und dem angegliederten Projekt Annotating Literature bemühen sich Bauer und Zirker um ein strategisches Verständnis von Annotationen als Möglichkeit, Studenten das Erlernen der Methodik von Textinterpretationen zu erleichtern. Die interpretativ kontextuelle Dimension von Annotationen lässt sich demnach in einem ersten Schritt in Wissen, welches der Leser bereits hat und Wissen, welches er mittels der Annotation erlangen möchte, einteilen. Eine Typisierung der jeweiligen Wissensbereiche im Bereich der Textinterpretation führt zu einer Unterteilung in linguistische, formale, intratextuelle, intertextuelle, kontextuelle sowie interpretative Wissensbereiche für Annotationen.

In der zugehörigen Hands-On Session ließen Bauer und Zirker die Teilnehmer John Donnes „Air and Angels“ kollektiv annotieren. Ziel war es, eine Beziehung zwischen dem zuvor präsentierten Modell und der eigenen Erfahrungsebene der Teilnehmer während des Annotierens herzustellen und für die Diskussion auszuschöpfen.

Mit John Bradley vom King’s Collage in London hielt ein Protagonist des Forschungsfeldes digitaler Annotationen der letzten 20 Jahre einen Keynote-Vortrag mit dem Titel „Annotation and Scholarship“. Unter Zuhilfenahme des von ihm konzipierten und entwickelten Pliny Projects entwickelte er seine These digitaler Annotationen als „Glue“ (Klebstoff/Bindeglied) zwischen primären, sekundären sowie interpretativen Ressourcen innerhalb eines Forschungsprozesses, die ebenso algorithmische wie hermeneutische Verfahren miteinander in Beziehung setzen können. Ein Schwerpunkt von Annotationssoftware und Annotationsservices sollte daher auch nicht auf der Verknüpfung von Annotation und annotiertem Objekt liegen, sondern auf den Möglichkeiten und Verfahrensweisen, die erstellten Annotationen selbst in eine organisierbare Ressource zu verwandeln.

Janina Jacke von der Universität Hamburg stellte in ihrem Vortrag das Projekt heureCLÉA vor, dessen Ziel es ist, herauszufinden, unter welchen Umständen narrative Phänomene in literarischen Texten intersubjektiv analysiert werden und welche Faktoren Intersubjektivität minimieren können. Zur Klärung dieser Fragen wird derzeit ein Korpus von Kurzgeschichten auf eine Reihe von zeitbezogenen narrativen Phänomenen hin untersucht, die entsprechend annotiert werden. Eine Analyse der uneinheitlich annotierten Passagen hat ergeben, dass – abgesehen von textlichen Mehrdeutigkeiten – zwei Arten von Kontextannahmen der Annotierenden für inkonsistente Annotationen verantwortlich waren: (1) theoretische Annahmen darüber, welches Textphänomen spezifische narratologische Kategorien tatsächlich beschreiben und (2) ein allgemeines „Weltwissen“, mit welchem die Annotierenden erzählerische Lücken in den Kurzgeschichten zu füllen suchen. Zur Behebung dieser Inkonsistenzen wurden klare Definitionen der zu beschreibenden Erzählphänomene gesucht. Darüber hinaus gehende Uneinheitlichkeiten wurden im Rahmen der Auszeichnung dokumentiert. Damit ist das Ziel einer möglichst vergleichbaren, konsistenten Annotation gewährleistet, bei der individuelle Annotationen dennoch ihren Platz finden.

Eric Decker von der Universität Heidelberg und Heinz-Günter Kuper von der Humboldt Universität zu Berlin sprachen über die Herausforderungen, die beim Einsatz der Forschungsumgebung Hyperimage zur Bildannotation zu Tage traten und die aus diesem Prozess gewonnenen Erkenntnisse, die in die Entwicklung einer neuen Software-Plattform Yenda einfließen werden. Die Darstellung der Verwendung der Open Source-Plattform Hyperimage in Forschung und Lehre und die Demonstration von Forschungsprojekten, die sich Hyperimage bedienen, machten deutlich, in wie vielen unterschiedlichen Zusammenhängen die Verknüpfungen von (audio)visuellen Objekten, Texten und Mixed-Media-Dokumenten via Hyperimage zur Anwendung kommen: sei es bei der Markierung und Annotation bestimmter Bildregionen oder der Verlinkung dieser Annotationen und ihrer Erschließung über unterschiedliche Indizes. Das Werkzeug Yenda kann unter Verwendung des Open Annotation Data Models zusätzlich semantische Annotationen sowie die interaktive hypermediale Online-Webpublikation von Forschungsergebnissen im Browser zur Verfügung stellen.

In der zweiten Use Case-Session stellten Evelyn Gius und Marco Petris von der Universität Hamburg den Workshopteilnehmern das Annotationstool CATMA (Computer Aided Textual Markup & Analysis) vor, mit welchem Annotationen in heureCLÉA erzeugt werden. Es bestand die Möglichkeit, entweder heureCLÉA Texte, Tagsets und Annotationsrichtlinien auszuprobieren oder individuelle, durch die Teilnehmer in CATMA eingefügte Texte, Tagsets und Richtlinien zu verwenden.

Den Abschluss bestritt Jan Christoph Meister, Professor für neuere deutsche Literatur an der Universität Hamburg und Mitveranstalter des Workshops. Meister schlug in seinem Vortrag eine Brücke zwischen dem Annotieren als einer „epistemologischen Praxis“ auf der einen Seite und strategischen Gesichtspunkten der methodischen Entwicklung der Digital Humanities sowie zu Grunde liegender Infrastruktur auf der anderen Seite. Vor dem Hintergrund eines Vermittlungsproblems zwischen Infrastruktur- und Forschungsprojekten in den Geisteswissenschaften, welches Meister an Hand einer Analyse der GPRIS-Datenbank dokumentierte, machte er sich für einen taktischen Wechsel im Agieren von Infrastrukturprojekten stark. Diese sollten sehr viel stärker spezifische Praktiken in den Geisteswissenschaften in den Blick nehmen und bei Entwicklung ihrer Ziele zwischen essentiellen und spezifischen Anforderungen unterscheiden. Standards und Infrastrukturen seien als ein nachrangiges Problem zu werten. Annotieren ist nach Meister ein paradigmatisches Beispiel für eine Praxis, aus der sich spezifische Anforderungen ableiten lassen, da Annotieren mit einer epistemologischen Disposition der Geisteswissenschaften korrespondiert. Entsprechend könnten digitale Annotationstools unmittelbar in die Forschungspraxis eingeführt und als Vehikel für eine forschergesteuerte Auseinandersetzung mit weitergehenden digitalen Methoden dienen. Dies verlange jedoch die Ausformulierung dieser epistemologischen Praxis im Kontext des Annotierens.

Eine Besonderheit des Workshops war es, das komplexe Thema der erkenntnistheoretischen Dimension von Annotationen in einem techniknahen Umfeld evaluiert zu haben ohne sich dabei auf den üblichen formal-generischen Bereich von Provenienz-Metadaten zu beschränken. Dieser Herausforderung lässt sich auf Grund der thematischen Nähe insbesondere in einem geisteswissenschaftlichen Umfeld gerecht werden. Die Notwendigkeit für eine derartige Evaluierung wurde nicht zuletzt auch während des Workshops selbst mehrfach deutlich. So müssen zum Beispiel Modelle wie das Scholarly Domain Model und die Nedimah Method Ontology, die es ermöglichen sollen, zum Beispiel Annotationsaktivitäten besser zu dokumentieren und zu verstehen voraussetzen, was als Annotation gilt und damit dokumentiert wird. Gerade ein Verständnis davon, was eine Annotation ist, ist es aber, welches im Zuge neuer Verwendungsweisen und -möglichkeiten von Annotationen durch computerunterstützte Verfahren unsicher wird. Insofern stellt sich auch die Frage, inwiefern Annotieren als eine spezifische epistemologische Praxis in den Geisteswissenschaften kohärent zu beschreiben ist. Dabei dürfen schließlich neue Annotationspraktiken, die zum Beispiel die hierarchische Beziehung zwischen „Body“ und „Target“ aufweichen oder den interpretativen Aspekt des Annotierens in den Hintergrund rücken, aus dieser Betrachtung nicht ausgeschlossen werden. Wenn Annotationen wie in der W3C Community Group minimal als Link zwischen zwei Ressourcen definiert werden und die anschließende Architektur eher auf eine Weiterentwicklung des Webs unter Berücksichtigung von anspruchsvolleren Hypermedia Research Gedanken aus der Vergangenheit hinausläuft, ist insgesamt in Frage zu stellen, wo sich sinnvoll von Annotationen sprechen lässt.

Der Workshop hat ebenfalls deutlich gemacht, dass eine Definition auf der Grundlage eines zeitgemäßen Verständnisses von Annotieren weiterhin ein Forschungsdesiderat ist, dem abgeholfen werden muss. Diese Diskussion ist innerhalb der Digital Humanities nicht falsch aufgehoben. Zum einen arbeiten die Digital Humanities in besonders experimentierfreudigen Annotationskontexten, zum anderen stellt der geisteswissenschaftliche Hintergrund potenziell ein breites theoretisches Handwerkzeug für die angemessene Einordnung dieser Aktivitäten zur Verfügung. In diesem Sinne ist die Einrichtung einer ADHO Special Interest Group zum Thema Annotationen sehr zu begrüßen, wie sie als Idee aus dem Workshop hervorging. Ein Antrag hierzu ist in Vorbereitung.

Forschung (Methode) Annotation, Expertenworkshop, Hermeneutik, Methoden, Provenienz

Kommentar schreiben