Noch einmal: Was sind geisteswissenschaftliche Forschungsdaten?

2 Veröffentlicht von Thomas Stäcker am

Der von Peter Andorfer in den Dariah Working Papers erschienene Beitrag zu Forschungsdaten in den (digitalen) Geisteswissenschaften (2015) hat einmal mehr gezeigt, dass der Begriff der „Forschungsdaten“ in den Geisteswissenschaften ein Fremdkörper zu sein scheint und dass Bemühungen, ihm eine ähnlich gelagerte Prägnanz wie in den Natur- und Technikwissenschaften zu geben, bislang zumindest nicht in dem Maße erfolgreich waren, wie dies in wissenschaftspolitischen Äußerungen oft unterstellt wird. Die von Geisteswissenschaftlern genutzten basalen Kategorien von Quelle und (Forschungs-)Literatur lassen sich nicht ohne weiteres als „Forschungsdaten“ deuten. Die nicht zuletzt wegen dieser Sperrigkeit in den Blick genommene „Materialsammlung“, der „Kartei“ bzw. „Datenbank“ des oder der Forschenden, enthält zwar Daten, die man „Forschungsdaten“ nennen könnte, ihr haftet aber meist der Charakter des Vorläufigen, des Unfertigen und auch Vergänglichen an, der deren Nachnutzbarkeit in Frage stellt. Sahle/Kronenwett (2013) sprechen daher zutreffend von throughput bzw. Zwischendaten (im Dreischritt von input, throughput, output), um das Transitorische von dieserlei Daten zu bezeichnen. Allerdings zeigt sich, dass „durch die Digitalisierung des Forschungsprozesses […] die verschiedenen Arten von Forschungsdaten zu einem Kontinuum [verschmelzen], das von den Ausgangsdaten bis zu den Narrativen der Ergebnisse der Forschung alle Schritte der Verarbeitung umfasst“ , so das auch dieser Begriff von Foschungsdaten zu verschwimmen scheint. Ebensowenig erfolgreich erweist sich der Versuch,  sich über den Datenbegriff einer Definition zu nähern. Überlegungen in diesem Bereich haben bisher eigentlich nur gezeigt, dass unterschiedliche Domänen unterschiedliche Definitionen von Daten hervorbringen (s. z.B. Voss 2013). Was aber sind nun geisteswissenschaftliche Forschungsdaten? Sind sie lediglich eine Chimäre, ein von den Technik- und Naturwissenschaften geborgter Begriff? Ich denke, nicht, denn geisteswissenschaftliche Forschungsdaten sind längst in die Praxis der Geisteswissenschaften eingekehrt, nur hat man bei den bisherigen Bemühungen um eine Defintion den Akzent noch nicht hinreichend auf das meines Erachtens wesentliche Charakteristikum gelegt. Zunächst ist es eine einfach zu beobachtende Tatsache, dass das Aufkommen des Begriffs „Forschungsdaten“ in den Geisteswissenschaften elementar mit der Digitalisierung oder dem digitalen Paradigma zusammenhängt und der Datenbegriff eigentlich auch nur vor diesem Hintergrund Sinn macht. Buzetti (2009) hat dazu einen wichtigen Hinweis gegeben: Data is the representation of information in a form that can be processed by a machine. Es geht dabei weniger um die Entwicklung eines hinlänglich genau bestimmten Daten- oder Informationsbegriffs, sondern um die Funktion der Prozessierbarkeit. Nur von dieser aus gewinnt der Begriff der geisteswissenschaftlichen Forschungsdaten Kontur. Sie sind nichts anderes als Quellen und Literatur oder auch Materialsammlungen, aber nicht als solche, sondern übersetzt in eine maschinenlesbare Form. Forschungsdaten sind sie darin, dass sie den Ausgangs- und, wenn er maschinenlesbar ist, auch Endpunkt eines Forschungsprozesses bilden. Ausgangs- und Endpunkt können sie aber nur sein, wenn sie einen definierten Status als akademisch verwertbares Produkt erreicht haben. Insofern sind Intermediärprodukte („Zettelkästen“) grundsätzlich problematisch und die verhaltene Reaktion aus der geisteswissenschaftlichen community zur Frage der öffentlichen Bereitstellung solcher Daten verdeutlich die bestehenden Bedenken. Solche spin-off Materialien bedürfen daher meist selbst der Aufbereitung, um als Forschungsdaten in der Wissenschaft anerkannt zu werden. Sie verlieren darin aber ihren Charakter als Zwischendaten.

Nun ist die Maschinenlesbarkeit allein noch keine hinreichende Bedingung für die Bestimmung von Forschungsdaten. Als Forschungsdaten sind sie ein Relationsbegriff, sie sind Daten für etwas oder aus etwas und nur im Verhältnis zur Methode, die angewendet wird, signifikant. Sie müssen daher nach einer bestimmten und nachvollziehbaren Regel angelegt sein. Mit anderen Worten, die Daten müssen eine für einen Algorithmus verwertbare Struktur haben. Dieser Algorithmus wiederum ist Ausdruck der Methode, die auf die Daten angewendet wird, so dass das eine das andere bedingt. So gesehen, haben wir bei der Herstellung von Forschungsdaten stets einen Modellierungsschritt, in dem Gegenstände geisteswissenschaftlicher Forschung in einem Transformationsszenario nach Maßgabe einer geisteswissenschaftlichen Fragestellung in Forschungsdaten umgewandelt werden. Für eine vergleichende (auch automatisierte) Betrachtung von mittelalterlichen Illuminationen oder eine Bildsuche könnte das die Herstellung eines digitalen Faksimiles (image) sein, für eine Volltextsuche oder allgemeine lingusitische Textanaylse müsste ein gedrucktes Dokument per OCR oder Transkription bearbeitet werden, die inhaltliche Auswertung und dynamische Visualisierung benötigt deskriptives Markup, die Analyse der Vernetzung von Personen braucht eine Aufbereitung als LOD von Personendaten, philosophische Konzepte müssen per OWL modeliert werden, um automatisert Interdependenzen auswerten zu können, etc. Entscheidend ist die Übersetzung in eine maschinenlesbare und damit regelbasiert prozessierbare Form. Der in diesem Sinn verstandene generelle Begriff von „geisteswissenschaftlichen Forschungsdaten“ bezeichnt, wenn er über den Funktions- bzw. Relationsbegriff der Prozessierbarkeit definiert wird, daher nichts anders als die Möglichkeit digitalen Arbeitens überhaupt. Man könnte auch sagen: Forschungsdaten sind die Bedingung der Möglichkeit der Digital Humanities.

 

Kommentar schreiben