Datenqualität und LOD in den Geisteswissenschaften

0 Veröffentlicht von Aline Deicke am

Nachbericht zur Session 1.1 des Barcamp „Vermittlung von Data Literacy in den Geisteswissenschaften“ auf der DHd 2020 in Paderborn.

Übersichtsblogpost zum Barcamp: Ulrike Wuttke, Marina Lemaire: „Offen, vielfältig und kreativ. Ein Bericht zum Barcamp Data Literacy #dhddatcamp20 bei der DHd 2020“, 08.06.2020, DHd Blog.

Autor*innen:
Jonathan Geiger, Digitale Akademie, Akademie der Wissenschaften und der Literatur | Mainz
Thomas Skowronek, Leibniz-Institut für Geschichte und Kultur des östlichen Europa (GWZO), Leipzig 
Aline Deicke, Digitale Akademie, Akademie der Wissenschaften und der Literatur | Mainz

Pinnwand, auf der mit bunten Zetteln die Ergebnisse der Session als Stichworte angepinnt sind
Pinnwand mit den Ergebnissen der Session (Aline Deicke, CC BY)

In der Session “Datenqualität und LOD in den Geisteswissenschaften” des Barcamps “Data Literacy”, organisiert von der DHd-AG Datenzentren auf der DHd-Konferenz 2020 in Paderborn, wurden die beiden Ausgangsfragen nach der Datenqualität in den Geisteswissenschaften und Linked Open Data in einer Trias „Datenqualität“, „Data Literacy“ und „LOD in den Geisteswissenschaften“ aufgespannt. Wie sich in der Diskussion der drei Themenfelder und ihrer Beziehung gezeigt hat, drehen sich Fragen der Qualität, Kompetenz und Standardisierung in den Geisteswissenschaften (und vermutlich nicht nur dort) einerseits um technische Entwicklungen, andererseits – und zu einem großen Teil – um Personen, Prozesse und Ressourcen.

Datenqualität und -standards

Besonders im Fokus stand dabei die Datenqualität. Es gibt einen breiten Konsens darüber, dass in der (geisteswissenschaftlichen) Forschung ein hohes Maß an Datenqualität herrschen und hergestellt werden muss. Datenqualität ist dabei ein komplexes, multidimensionales Gebilde – beispielsweise können eine technische, eine informationelle und eine didaktische Dimension unterschieden werden, die sich aber stets wechselseitig bedingen. Daten sind stets relativ zu ihren Herstellungs- und Verwendungskontexten zu betrachten, insbesondere im Hinblick auf Nachnutzungskontexte. Aufgrund dieser inhärenten Relativität und Multikontextualität sind allgemeingültige Standards in diesem Bereich problematisch, aber dennoch unumgänglich, wobei die Frage nach den Verantwortlichkeiten und Zuständigkeiten in zweifacher Hinsicht aufgeworfen wird: Einerseits „Wer legt die Standards fest?“ und andererseits „Wer kümmert sich um deren Einhaltung bzw. Durchsetzung?“. Die Frage nach der Standardsetzung scheint nur in einem dialogischen Prozess zwischen den Akteuren der allgemeinen Wissenschaftsverwaltung (z. B. der DFG, DARIAH, CLARIAH und perspektivisch der NFDI) und den einzelnen Fachcommunities beantwortet werden zu können. Was die Umsetzung der Standards angeht, so ist ein breiterer Wandel innerhalb der Fachkulturen erforderlich. Erst wenn produzierter Code, verwendete Algorithmen und Daten als eigenständige wissenschaftliche Publikationsleistung Anerkennung finden können, scheint die gewünschte Transparenz und Nachvollziehbarkeit der verwendeten Methoden, Tools und der mit ihnen erarbeiteten Ergebnisse in Aussicht zu stehen. 

Herausforderungen an das Wissenschaftssystem

Datenqualität hat also nicht nur mit Befugnissen und Verantwortlichkeiten zu tun, sondern erweist sich in zentralen Punkten als eine Ressourcenfrage. Deshalb kommt es darauf an, durch  ein effizientes wissenschaftsunterstützendes System mit entsprechenden Schulungen u. ä. die Belastung der Forschenden möglichst gering zu halten. Dazu gehört eine sorgfältige, möglichst zielgruppenspezifische und nachvollziehbare Planung sowie umfassende Kommunikation. Die Verantwortung für die eigenen Daten (FAIR, CARE) liegt zwar primär auf Seiten der Forschenden, ist mittels entsprechender Werkzeuge und Angebote aber auch durch das Wissenschaftssystem mitzutragen und herauszubilden. Ein Bewusstsein für den angemessenen Umgang mit Daten zu entwickeln, bedarf eines Lernprozesses und kollektiver Anstrengung mit Sensibilität für fach-, institutionen- und projektspezifische Anforderungen und Bedürfnisse. Der reflektierende und konsequente Blick auf Idiosynkrasien und kontextspezifische Unwägbarkeiten gilt nicht zuletzt auch dem gesamten Forschungsdatenmanagement in seiner historischen Veränderlichkeit und Unabgeschlossenheit. Trotz und wegen mancher Ungewissheit, welche Regelung im Einzelfall zutreffen mag, in welcher Bandbreite und Anwendungstiefe, trotz und wegen eventuell ungeregelter Zuständigkeiten und Finanzierungsmöglichkeiten, verlangt es eine Ermöglichungshaltung. Der sprichwörtliche Mut zur Lücke ist auch im Forschungsdatenmanagement gefragt und damit ein verständnisvolles, verantwortungsbewusstes und letztlich auch kreatives Handeln auf Seiten aller Beteiligten.   

Data Literacy als Datenbewusstsein

Data Literacy ist bei der Sicherstellung von Qualität ein essentieller Bestandteil, nicht nur in Bezug auf Forschungsdaten in den Geisteswissenschaften allgemein, sondern eben auch in Bezug auf Qualitätsstandards eben jener Daten. Vor den konkreten Data Literacy-Kompetenzen muss allerdings das Bewusstsein bzw. eine Sensibilisierung dafür hergestellt sein, wann, wo und wie man in einem Verhältnis zu Daten steht. Dies ist eine Bedingung der Möglichkeit von Data Literacy überhaupt und ermöglicht dadurch erst den verantwortungsvollen und aufgeklärten Umgang mit Daten. Die Kenntnisse von Kriterien und Metriken, die Datenqualität sicherstellen, sowie deren Anwendung und Umsetzung sind ebenfalls notwendig für ein erfolgreiches Datenqualitätsmanagement (wie z. B. bei KONDA).

Linked Open Data

Auch der Themenkomplex LOD bzw. Linked Open Data (also technisch in Beziehung gesetzte und öffentlich verfügbare Daten) ist eng mit den beiden anderen Säulen verknüpft. Die hierfür nötige Aufbereitung und Veröffentlichung von (Forschungs-)Daten stellt erneut eine Frage der Kompetenzen und zeitlicher Ressourcen dar, die beide im Forschungsprozess nicht einfach vorausgesetzt werden können und bisher noch selten berücksichtigt sind. Auch für die Transformation von Daten zu LOD sind bestimmte Kompetenzen aus dem Bereich Data Literacy gefragt, z. B. ein kompetenter Umgang mit kontrollierten Vokabularen und Ontologien (wie in den DH beispielsweise TaDiRAH). Umgekehrt können aber auch Lehrmaterialien zu Data Literacy als offene, verknüpfte Bildungsressourcen, d. h. Open Educational Resources (OER), zur Verfügung gestellt und verwendet werden. Eine Datenfeinerschließung in dem Sinne, dass konkrete Kompetenzen als eigene Ontologie abgebildet und in OER eingeschrieben werden können, steht allerdings noch aus. Auch sind Qualitätskriterien bzw. -metadaten für LOD an sich bisher noch nicht formalisiert, sondern existieren vor allem als implizites Wissen in der Community. Es stellt sich zudem die Frage, wie Datenqualitätsstandards nachträglich auf bereits publizierte LOD-Bestände angewandt werden können. In einer anderen Lesart wären hingegen als LOD formalisierte Daten zur Qualitätsbewertung anderer Daten sehr gut vorstellbar.

Wissenschaftsethos

Insgesamt lässt sich festhalten, dass jede Säule der Trias „Datenqualität“, „Data Literacy“ und „LOD“ eng mit den anderen verzahnt ist und dass es in jedem der drei Cluster auf einer Metaebene um die Struktur und Strukturierung von Daten und Informationen geht. Dies adressiert einerseits das individuelle Verantwortungsbewusstsein aller Forschenden und ist damit eine Frage des Wissenschaftsethos, andererseits ist für die individuelle Entsprechung dieses Ethos‘ auch der Zugang zu und die Kenntnis von entsprechenden Ressourcen notwendig. Eine Formalisierung der Prozesse und ethischen Prinzipien auf Datenseite (z. B. die FAIR– und CARE-Prinzipien) ermöglichen ressourcenschonendes Agieren und können es so den einzelnen Institutionen erleichtern, Forschenden Zeit, Schulungen und sonstige Formen der Unterstützung zur Verfügung zu stellen. Das konsensuale Fazit der Session war schließlich, dass letztendlich der Mensch und die durch ihn realisierten (Forschungs-)Prozesse sowie die hierauf wirkenden Rahmenbedingungen die indirekten Kondensationspunkte von Datenqualität sind. Damit ist es vor allem unser Handeln in Forschung, Wissenschaftsmanagement und den beteiligten Institutionen, das die Qualität unserer Forschungsdaten direkt und maßgeblich beeinflussen kann.

Kommentar schreiben