TaDiRAH goes Linked Open Data
von Luise Borek, Canan Hastik und Vera Khramova.
Mit der Etablierung und Verstetigung der Digital Humanities (DH) als eigenständige Disziplin wuchs der Bedarf der Wissenschaftsgemeinschaft, die Forschungsaktivitäten in diesem Bereich zu definieren und darüber hinaus zu kategorisieren und zu klassifizieren. Mit TaDiRAH, der Taxonomie digitaler Forschungsaktivitäten in den Geisteswissenschaften (Taxonomy of Digital Research Activities in the Humanities), ist eine praxisnahe Taxonomie entwickelt worden mit der sich DH-Projekte, -Webseiten, -Bibliographien und -Werkzeuge strukturieren lassen und somit über die traditionellen Disziplingrenzen hinweg sichtbar und zugänglich gemacht werden. TaDiRAH kann aber auch zum Einsatz kommen, um beispielsweise die Planungsphase von Drittmittelprojekten der digitalen Geisteswissenschaften zu unterstützen, siehe hierzu den Beitrag Partizipatives Design in Digital Humanities Projekten: Checklist, Maßnahmenkatalog und Use-Case von Swantje Dogunke auf der diesjährigen DHd-Konferenz „Spielräume. Digital Humanities zwischen Modellierung und Interpretation“.
TaDiRAH wurde gemeinsam mit der DH-Community entworfen, um Forschung und Aktivitäten in den Geisteswissenschaften und angrenzenden Bereichen verständlich, zugänglich und besser sichtbar zu machen. Für weiterführende Information zum Entstehungskontext von TaDiRAH und zu den Vorbildern der Taxonomie siehe TaDiRAH: a Case Study in Pragmatic Classification. In vielen unterschiedlichen Anwendungskontexten wurde das Vokabular bereits weiterentwickelt und angepasst. Als praxisorientierte Taxonomie ist TaDiRAH in engem Austausch mit der Community entwickelt worden, was dazu führte, dass TaDiRAH bisher neben dem Englischen ins Französische, Deutsche, Spanische und Serbische übersetzt wurde.
Im Zuge der strategischen Bemühungen zum nachhaltigen Umgang mit Forschungsdaten, fachspezifischen Werkzeugen und Infrastrukturen, insbesondere im Rahmen der Nationalen Forschungsdateninfrastruktur (NFDI) Initiative sowie aufgrund eines gesteigerten Interesses der Geisteswissenschaften an Linked Open Data (LOD) verzeichnet TaDiRAH zurzeit eine exponentiell steigende Nachfrage. Eine wichtige Aufgabe der Geisteswissenschaften besteht darin, diese Forschungsdaten interoperabel in maschinenlesbarer Form verfügbar zu machen, um die Suche nach relevanten Informationen durch die semantischen Verknüpfungen zwischen diesen Daten zu vereinfachen. Mit der Motivation und dem Interesse, Informationen im Bereich der Geisteswissenschaften digital abzubilden und in Form von Linked Data zur freien Verfügung zu stellen, werden in verschiedenen Fachdisziplinen neue Werkzeuge und Standards entwickelt, um die semantische Integration multimodaler Daten herzustellen und Informationen für Nutzer und Nutzerinnen frei verfügbar zu machen. Als formale, auf dem Resource Description Framework (RDF) beruhende Sprache bietet sich SKOS (Simple Knowledge Organization System) als generisches System an. Mit seiner übersichtlichen Struktur und einem niedrigen Detaillierungsgrad können Anpassungen und Erweiterungen des Modells leichter durchgeführt werden. Das Modell wurde gezielt für die Repräsentation von Daten aus kontrollierten Vokabularen und Taxonomien entwickelt. SKOS kann in das Semantic Web integriert werden und die modellierten Daten können als Linked Data gespeichert und mit externen Quellen verknüpft werden. Auf diese Weise können nicht nur die Verfügbarkeit und Sichtbarkeit von Wissen im Bereich der Geisteswissenschaften verbessert werden, sondern es kann gleichzeitig Interoperabilität zu angrenzenden Fachdisziplinen hergestellt werden.
Das zunehmende Interesse an TaDiRAH wird zudem durch Aktivitäten in CLARIAH-DE befördert, wo die Taxonomie zur Herstellung der Interoperabilität von Werkzeugen und Infrastrukturen, die in den Vorgängerprojekten CLARIN-D und DARIAH-DE entwickelt wurden, in ein formalisiertes SKOS-Modell überführt wird, um den Bedarf der Community zur Entwicklung von fachspezifischen Verarbeitungspipelines über das Language Ressource Switschboard (LRS) besser unterstützen zu können. Der Trgleichzeiansformationsprozess umfasst die Konzeptualisierung und Semantifizierung der bestehenden Summe an Begriffen. Bei den vorliegenden Daten handelt es sich um verschiedene Forschungsaktivitäten (Research Activities), die im Bereich der Geisteswissenschaften angewendet werden. Das top concept “Capturing” (siehe Abbildung 1) wurde bereits inhaltlich vollständig überarbeitet und mit Beispielen aus TAPoR, Dighumlab, SSK und DARIAH-DE versehen. Anhand der vorhandenen Beispiele wurden die Narrower Terms (NT) und die Related Terms (RT) definiert, und damit das SKOS-Modell erweitert. Im Rahmen der Konzeptualisierung wurde eine Mindmap entworfen, die eine bessere visuelle Übersicht über die hierarchischen Beziehungen zwischen den Konzepten geben kann.
Um den Interpretationsspielraum und gleichzeitig die semantische Heterogenität des Vokabulars zu reduzieren, ist es notwendig, einen konsistenten gemeinsamen ontologischen Nenner festzulegen und für jedes Konzept eine eindeutige Referenz zu verwenden. Mit diesem entsprechenden eindeutigen, konsistenten und kohärenten Vokabular können dann Wissensbereiche strukturiert und gezielt Suchanfragen durchgeführt werden. Zur Gewährleistung der Wiederverwendbarkeit von TaDiRAH muss somit die Bedeutung der Konzepte klar definiert sein. Vollständigkeit hingegen muss dabei nicht zwingend angestrebt werden. Vielmehr soll ein Weg gefunden werden, die Taxonomie so auszurichten und für bestimmte Anwendungsfälle zu optimieren, dass sie für Erweiterungen offen bleibt, ohne dass eine Revision der existierenden Definitionen notwendig wird.
Die Dokumentation von TaDiRAH findet sich auf GitHub wobei die bisherige mittels TemaTres dargestellte Variante des Modells künftig unter eigenem Namensraum von einer Instanz abgelöst und in die Vocabs Services von DARIAH-EU integriert wird. Aktuelle Entwicklungen können auf Twitter mitverfolgt werden: @tadirah_dh.
CLARIAH-DE: eine gemeinsame Infrastruktur als Verschmelzung zweier Welten | DHd-Blog
[…] Forschung TaDiRAH grundlegend überarbeitet, im SKOS-Format publiziert (siehe hierzu https://dhd-blog.org/?p=13108) und zur Auszeichnung der Werkzeuge verwendet. Noch ist nicht alles erledigt: Das LR Switchboards […]