DARIAH-DE-Repository: Notizen zum Nutzen jenseits der Nutzung
Das im Dezember 2017 in den produktiven Betrieb überführte DARIAH-DE Repository steht nicht nur Forschenden, sondern auch Gedächtniseinrichtungen als Publikationsplattform und Archiv für digitale geistes- und kulturwissenschaftliche Forschungsdaten zur Verfügung. Die Max Weber Stiftung – Deutsche geisteswissenschaftliche Institute im Ausland hat sich dazu entschieden, das DARIAH-DE Repository als einen der bevorzugten Publikationsorte für Forschungsdaten zu nutzen und kein eigenes Repositorium zu betreiben. Die Max Weber Stiftung unterstreicht damit zum einen die Notwendigkeit eines Forschungsdatenrepositoriums als auch das Vertrauen in DARIAH-DE, ein solches langfristig zu betreiben. Dieser Beitrag teilt einige Erfahrungen und Schlussfolgerungen aus dem halbjährlichen Betrieb und der Nutzung. Es werden die Verortung des DARIAH-DE Repository innerhalb der Infrastrukturlandschaft, das Verhältnis von Bedarf und Nutzung sowie die Rolle der Infrastruktur für Entwicklung einer Publikationspraxis von Forschungsdaten in den Geisteswissenschaften diskutiert. Die Grundlage bildet ein Vortrag bei der Tagung „Forschungsdaten in der Geschichtswissenschaft“ am 08.06.2018 in Paderborn https://digigw.hypotheses.org/1796.((Folien unter: https://doi.org/10.5281/zenodo.1285604.))
Der Mythos der divergierenden Fächer in generischer Infrastruktur
Eine generische Infrastruktur gibt es nicht. Auch wenn das wissenschaftspolitische Modewort im Kern nur eine möglichst breite oder große Nutzer*innengruppe bezeichnen und Forschungsförderung als besonders effizient illuminieren soll, eine Infrastruktur muss zum Anwendungsfall passen. Das DARIAH-DE Repository versteht sich nicht als institutionelles oder disziplinäres, sondern als übergreifendes Angebot für alle Geistes- und Kulturwissenschaften. Durch eine modulare Architektur sollen dennoch die spezifischen Anforderungen der Fächer erfüllt werden – ein hoher Anspruch. Wer die Diversität der Geisteswissenschaften kennt und wie diese in den Fächern kultiviert wird, hört hier schon die ersten Stimmen, die behaupten, dass es in ihrem Fall nicht passt. Diese Reaktionen sind nicht selten auch ein Resultat der jahrelang praktizierten Abgrenzungsrhetorik der geisteswissenschaftlichen Disziplinen untereinander, die das jeweilige Fortbestehen insbesondere der kleineren Fächer legitimieren sollten. Eine Verortung funktioniert manchmal am besten über Abgrenzung: das lässt sich so für das DARIAH-DE-Repository ebenfalls nachvollziehen:
- Disziplinär ausgerichtete Datenzentren, wie etwa die CLARIN-D Zentren, bieten für entsprechend standardisiert aufbereitete Daten aus den angesprochenen Fächern in der Regel das bessere Angebot, weil Zugang, Reichweite und Pflege effizienter gestaltet sind.
- Institutionelle Repositorien wie Open Data LMU oder das Data Centre for the Humanities Cologne können durch die lokale Verortung oftmals bessere Beratungsangebote und Unterstützung anbieten und sind über die institutionelle Aufgabe auf die lokal vorhandenen Fächer zugeschnitten.
- Wenn nur eine DOI und ein sicherer Ablageort benötigt werden, bieten Dokumentenserver wie Zenodo in der Regel eine schnellere und komfortablere Prozedur des Uploads. Der Mehrwert des DARIAH-DE-Repository durch weitere Komponenten kommt erst zum Tragen, wenn die Ansprüche höher liegen als einen zitierfähigen Link zu erzeugen.
- Publikationsbezogene Repositorien wie Dryad, die auch eine basale Qualitätssicherung und Datenkuration anbieten, existieren für die Geisteswissenschaften bisher nicht.
Wer auf eine passende Infrastruktur zugreifen kann, der/dem sei das Argument zugestanden, dass es eine bessere Alternative zum DARIAH-DE-Repository gibt. Die Lücken, die oben genannte Angebote hinterlassen, füllt das Angebot von DARIAH-DE und formuliert so sein Alleinstellungsmerkmal. Es darf daher postuliert werden, dass das DARIAH-DE-Repository nicht immer die beste, aber immer eine Lösung darstellt. Wenn ein flächendeckendes Infrastrukturangebot für Forschungsdaten das Ziel ist, müssen auch Überlappungen und Redundanzen zwischen den Angeboten bestehen – sonst fällt schnell ein Anwendungsfall durch das Raster.
Der Interessenkonflikt zwischen Kreation und Verwertung
Mit dem offiziellen Launch des DARIAH-DE-Repository Ende letzten Jahres, hat auch die Max Weber Stiftung in den Auslandsinstituten die Ankündigung verbreitet und eingeladen, mit Unterstützung der Redaktion perspectivia.net bereits vorhandene Forschungsdaten zu publizieren. Im ersten halben Jahr wurde jedoch weder ein Datensatz publiziert, noch ging eine Anfrage zu einer geplanten Datenpublikation ein. Auch die Gesamtzahl der bisher publizierten Datensätze ist überschaubar. Das ist auch nicht weiter verwunderlich, denn ein Forschungsdatenrepositorium ist zwar eine notwendige, aber keine hinreichende Bedingung für eine Forschungsdatenpublikation. Daraus abzuleiten, dass hier offensichtlich kein Bedarf vorliegt, ist zugleich richtig und falsch. Die/der einzelne Forschende hat in der Regel keinen konkreten Bedarf, seine Forschungsdaten zu publizieren, weil Reputation, Auftrag und teilweise auch Kompetenzen fehlen.((Ausführlicher dazu z.B. bei Ben Kaden: Warum Forschungsdaten nicht publiziert werden, in: LIBREAS. Library Ideas, 33 (2018), https://libreas.eu/ausgabe33/kaden-daten/)) Einen unmittelbaren Bedarf an Infrastruktur um seiner selbst willen gibt es nicht. Es gibt jedoch Bedürfnisse, die auf Infrastruktur angewiesen sind. Und es besteht ein allgemeiner Bedarf seitens der Forschenden und in zweiter Linie auch der Industrie oder der Gesellschaft, dass Forschungsdaten publiziert werden. Die Gründe und Barrieren, warum Forschungsdaten in den Geisteswissenschaften nicht veröffentlicht werden sind zahlreich und komplex, weil sie zum einen in den sich selbst stützenden Strukturen des Wissenschaftssystems liegen (z.B. das Karriere- und Reputationssystem) und zum anderen von externen Rahmenbedingungen abhängig sind, in denen Wissenschaft nur eine untergeordnete Priorität genießt (z.B. Urheberrecht). Trotzdem unterscheiden sich diese Hürden signifikant von dem Hindernis einer nicht vorhandenen Infrastruktur. Während strukturelle Widerstände situativ umschifft werden können (hier eine mutige Wissenschaftlerin, dort ein fairer Urheber), muss eine Infrastruktur wie ein Datenrepositorium grundsätzlich vorhanden sein und kann nicht umgangen werden.
Die Wirkung niedriger Schwellen und reicher Ausstattung
Technologie und Infrastruktur kann durch zwei Faktoren die eigene Nutzung positiv befördern: Verringerung des Aufwandes und Erhöhung des Ertrages. Ein Forschungsdatenrepositorium kann die Publikationspraxis also durch einen niedrigschwelligen und nutzerfreundlichen Publikationsprozess sowie durch eine umfangreiche und qualitätsvolle Featureliste befördern. Ein Factsheet des DARIAH-DE-Repository lässt nur wenig Wünsche offen: Authentifizierungsinfrastruktur, Publikationsworkflow, Identifizierung, Referenzierung, Indexierung, Repräsentation, Prozessierbarkeit, Open Access, Bitstream Preservation und (laufende) Zertifizierung. Die DARIAH-DE-AAI etwa ist eines der heimlichen Prunkstücke der DARIAH-DE-Infrastruktur, weil sie die Nutzung aller Dienste mit einem Account erlaubt, der über die meisten Hochschulaccounts zugänglich ist. Welche Bedeutung der Zugang mit einem bekannten Account für die Nutzung eines Dienstes hat, demonstrieren die Internetgiganten eindrucksvoll genug.
Obwohl die erforderliche Eigenleistung der Forschenden im klassischen Publikationsbereich stetig gestiegen ist (Ready-to-print), besteht dennoch ein (berechtigter) Anspruch an Unterstützung im Publikationsprozess, der bei wenig reputierlichen Formaten wie einer Forschungsdatenpublikation erst recht erfüllt werden sollte. Der Publikationsdienst (DARIAH-DE Publikator: eine Metadateneingabemaske mit Fileupload) ködert subtil mit wenigen Pflichtfeldern und einfachem Schema (Dublin Core Simple). Niedriger lässt sich diese Schwelle kaum mehr setzen, lediglich die Usability der Eingabemaske wird sich zunehmend verbessern. Wer zusätzlichen Aufwand nicht scheut, für die/den lässt die DARIAH-DE-Datenföderationsarchitektur mit der Collection Registry und dem Data Modelling Environment kaum Wünsche offen.((Vgl. dazu Claudio Leone: DARIAH-DE – Forschen mit digitalen Diensten und Werkzeugen für alle Geistes- und Kulturwissenschaftler, DHd-Blog, 13. Februar 2018, https://dhd-blog.org/?p=9082 und Beata Mache: Meine erste Kollektion im DARIAH-DE Repository, DHd-Blog, 07. Dezember 2017, https://dhd-blog.org/?p=8798. Die Schwachstellen beleuchten Lisa Klaffki und Timo Steyer: Kann man da eben mal was eintragen und visualisieren? Digitaler Praxistest für die DARIAH-DE-Infrastruktur, Poster auf der DHd2018 in Köln. Poster und Abstract: DOI: https://dx.doi.org/10.20375/0000-000B-CADD-9.))
Mit dem Uploadbutton erfüllt ein/e Datenautor*in aus dem Stand 93% der FAIR-Data-Prinzipien, die als Grundlage und Ritterschlag gleichermaßen für nachnutzbare Daten gelten.((Vgl. https://www.force11.org/group/fairgroup/fairprinciples, I1 und I2. Bisher werden noch keine kontrollierten Vokabulare in den Metadaten unterstützt.))Dies gilt natürlich nur für diejenigen Prinzipien, die ein Infrastrukturanbieter erfüllen kann und erhöht den Druck auf die Datenautor*innen, die inhaltlichen und formalen Qualitätsmaßstäbe, die mit den FAIR-DATA-Prinzipien an die Daten gelegt werden, zu erfüllen.((Vgl. hierzu Angelina Kraft: The FAIR Data Principles for Research Data, in: TIB-Blog – Weblog der Technischen Informationsbibliothek (TIB), 12. September 2017, https://blogs.tib.eu/wp/tib/2017/09/12/the-fair-data-principles-for-research-data/)) Trotzdem kann die Infrastruktur hier als Motor für eine Publikationspraxis von Forschungsdaten auftreten, wenn der zusätzliche Aufwand mit zusätzlichem Ertrag durch unsichtbare oder automatisierte Prozesse entlohnt wird, wie die automatisierte Indexierung in akademischen Suchmaschinen über DataCite-DOI-Metadaten. Die für die Digital Humanities Community am häufigsten nachgefragten Features erfüllt das DARIAH-DE-Repository natürlich auch: API und Downloadbutton. Die zahlreichen Entwicklungen im Bereich der Forschungsinfrastrukturen sind nicht nur ein Angebot, sondern auch eine Aufforderung an die Forschenden und deren Organisationen, diese Angebote in ihre Praktiken aufzunehmen.
SUCHEN, FINDEN, WEITERVERARBEITEN UND PUBLIZIEREN IN REPOSITORIEN DER INFRASTRUKTUR VON DARIAH-DE — Lukas Weimer zur Arbeit mit geisteswissenschaftlichen Forschungsdaten in Repositorien – Open Media Studies
[…] intuitiv verwendbare Publikator erlaubt mir, meine Daten per Drag&Drop hochzuladen; schon sind sie als Kollektion […]