Überlegungen zu Harmonisierung und Standardisierung im Rahmen des Projekts CLARIAH-DE – oder: Aus der „Suppenküche“ von Arbeitspaket 1: Forschungsdaten, Standards und Verfahren

0 Veröffentlicht von Sonja Friedrichs am

von Daniela Schulz

Anmerkung: Der nachfolgende Text gibt einen groben Einblick in aktuelle Arbeiten und ist damit als Werkstattbericht zu verstehen.

In den vergangenen Jahren haben sich die beiden Verbünde CLARIN-D und DARIAH-DE als digitale Forschungsinfrastrukturen für Werkzeuge und Forschungsdaten in Deutschland etabliert und beispielsweise auch an der Entwicklung von Materialien für Lehre und Weiterbildung im Bereich der digitalen Geisteswissenschaften gearbeitet. Während DARIAH-DE einen klaren Schwerpunkt auf textuellen Daten und z.B. deren Aufbereitung in Form digitaler Editionen hat, liegt der Fokus von CLARIN-D eher auf der Bereitstellung von Daten und Werkzeugen für linguistische Analysen. Aufbauend auf früheren Kooperations- und Abstimmungsprozessen, und gefördert durch das Bundesministerium für Bildung und Forschung (BMBF), werden beide Infrastrukturen im Kontext des Projektes CLARIAH-DE (2019-2021) zusammengeführt. Ziel ist die Herstellung von Interoperabilität (auch im Sinne der Fair Data Principles), sodass beispielsweise Daten des einen Verbundes mit Werkzeugen des anderen verwendet werden können. Die Etablierung einheitlicher Workflows sowie entsprechende Dokumentationen und Handreichungen sollen den geistes- und kulturwissenschaftlich Forschenden die Nutzung der komplexen digitalen Werkzeuge innerhalb der gemeinsamen Infrastruktur von CLARIAH-DE erleichtern. Das Projekt leistet damit konkrete Vorarbeiten zur Entwicklung und Etablierung der Nationalen Forschungsdateninfrastrukturen (NFDI).

Das Arbeitspaket (AP) 1 „Forschungsdaten, Standards und Verfahren“ von CLARIAH-DE erprobt zur Förderung der Interoperabilität, verbreitete Konkretisierungen der Guidelines der Text Encoding Initiative (TEI) wie das Basisformat des Deutschen Textarchivs (DTABf) als Austauschformat zu verwenden. Das DTABf ist bereits als Format für Textsammlungen, insbesondere für die Annotation von Volltexten historischer Drucke, aber auch für Zeitungen und einfach strukturierte Manuskripte etabliert. Nun wird evaluiert, inwieweit seine Verwendung auch auf das sehr diverse Feld der digitalen Editionen übertragbar ist und welche Anpassungen notwendig sein könnten. Dahinter steht der Gedanke, dass ein Austauschformat nicht alle vormals kodierten Informationen in der ursprünglichen Tiefe abbildet, aber dennoch als „Kernkodierung“ die nötigsten inhaltlichen und strukturellen Informationen eines Textes darstellen kann. Dies ermöglicht eine Integration der eigentlich sehr diversen Editionsdaten in Korpora mit einheitlichen und damit strengen Kodierungsvorgaben. Der Text ist dort dann auch durch jene Tools und Service nutzbar, die speziell für diese TEI-Anpassung entwickelt wurden.

Die Evaluation basiert auf Fallstudien ausgewählter digitaler Editionen. Um die Vielfalt und damit die Repräsentativität der der Evaluation zugrunde gelegten Daten zu gewährleisten, sollen sich die Editionen, die für die Auswertung herangezogen werden, möglichst deutlich voneinander unterscheiden, z.B. hinsichtlich des zugrunde liegenden Quellenmaterials, des gewählten Editionsmodells oder der Art der TEI-Auszeichnung. Daher wurden auf der Grundlage einer Durchsicht relevanter editionswissenschaftlicher Literatur und anhand der digitalen Editionen, die an den am Projekt beteiligten Institutionen entstehen oder entstanden sind, insgesamt sieben Kriterien entwickelt und zu einer sog. Editionsmatrix (EdMa) zusammengeführt. Diese soll – auch über den Zweck der konkreten Projektarbeit hinaus – eine grobe Kategorisierung digitaler Editionen im Allgemeinen erlauben. Geplant ist daher, dieses Hilfsmittel zeitnah auch der Allgemeinheit zugänglich zu machen.

Die Evaluation des DTABf hinsichtlich seiner Eignung als Austauschformat für digitale Editionen im Rahmen von AP 1 wird von den folgenden Fragen geleitet:

  • Welche Phänomene, die in digitalen Editionen vorkommen, werden nicht durch das DTABf-Tag-Set abgedeckt?
  • Welche Phänomene sind im DTABf anders kodiert als in den vorliegenden digitalen Editionen? Ist ein Mapping unproblematisch oder gibt es grundlegende (semantische) Unterschiede in der Auszeichnung?
  • Welche Informationen werden im DTABf benötigt, sind aber in den digitalen Editionen nicht kodiert worden?

Anhand des bisherigen Erkenntnisstandes lassen sich die erfassten Phänomene als (1) verlustfrei übertragbar, (2) partiell übertragbar und (3) fehlend klassifizieren. Je nach erforderlichem Aufwand und Ergebnis der Konvertierung, kann diese entweder zu einem DTABf-validen Text führen, in dem alle vorhandenen Informationen verlustfrei in das DTABf konvertiert werden können, oder zu einem DTABf-konformen Text, der im Kern einen DTABf-validen Text darstellt, aber auch über das DTABf hinausgehende Annotationen aufweisen kann. Diese „zusätzlich“ enthaltenen und kodierten Informationen könnten für eine Verarbeitung im Kontext des DTA ignoriert werden. Durch eine DTABf-konforme Auszeichnung wird einerseits der Spielraum der Editorinnen und Editoren in der Kodierung nicht zu stark eingeschränkt, andererseits bereits bei der Anlage einer Edition eine mögliche spätere Aufbereitung für eine (Nach)Nutzung im DTA erleichtert. Somit wäre der prospektive Mehrwert einer Eingliederung in ein größeres Korpus – und damit auch eine bessere Sichtbarkeit der eigenen Edition – gegeben.

Bei der Entscheidung, ob eine bestimmte Edition für die Überführung geeignet ist, sind Aufwand der Überführung und daraus zu erwartender Mehrwert gegeneinander abzuwägen. Mithilfe der im Kontext des CLARIAH-DE-Projekts entwickelten Editionsmatrix, ausführlicher Evaluationsberichte zu den einzelnen Fallbeispielen inklusive Mapping-Empfehlungen sowie entsprechender Handreichungen bzw. Schritt-für-Schritt-Anleitungen, die gerade entstehen, erhoffen sich die am Arbeitspaket Beteiligten, Anwenderinnen und Anwendern das nötige Rüstzeug an die Hand zu geben, ihre Editionen standardisiert und somit möglichst nachnutzbar aufzubereiten (oder direkt anzulegen). 

In ausführlicherer Form hätten die aktuellen Arbeiten des AP eigentlich in diesem Monat im Rahmen der DH2020 in Ottawa (jetzt als DH2020v) erstmals einer breiteren Öffentlichkeit präsentiert und zur Diskussion gestellt werden sollen. Der Beitrag mit dem Titel „Crossroads, shortcuts, detours, bypasses or dead ends? Attempts to standardization and interoperability within the context of the CLARIAH-DE project“ wird in absehbarer Zeit im Book of Abstracts zur Veranstaltung nachzulesen sein. Eine weitere Präsentation zum Thema „Criteria for Recording and Categorizing Scholarly Digital Editions“ beim zwischenzeitlich in den November verschobenen DARIAH Annual Event 2020 ist geplant.

Allgemein   

Kommentar schreiben