DARIAH-DE Grand Tour: Reproduzierbare Forschung und Erweitertes Publizieren mit Jupyter Notebooks

2 Veröffentlicht von Malte Vogl am

Digitale Methoden entwickeln sich zunehmend zur alltäglichen Praxis in den Geisteswissenschaften. Von der Erstellung einer Sammlung, über Bildanalysen, Text-Annotierung, bis hin zu Netzwerk-Analysen für die Ideengeschichte, keiner dieser Bereiche wird heutzutage noch ohne Computer angegangen.

Durch diese wachsende Bedeutung treten Themen, die ursprünglich in der Software-Entwicklung angesiedelt waren, in den Fokus der Geisteswissenschaften. So stellt sich zum Beispiel die Frage der Nachhaltigkeit einer Software-Entwicklung für ein geisteswissenschaftliches Forschungsvorhaben oder welchen Best-Practice-Maßstäbe dabei verfolgt werden sollten.

Notebook zu DARIAH-DE Topics

Eine relativ neue Entwicklung im Bereich der Software-Entwicklung ist das sogenannte „literate programming“, wobei ein Programm eher narrativ mit starkem Fokus auf die Lesbarkeit des Codes geschrieben wird. Dieses Paradigma ist besonders für wissenschaftliche Fragestellungen in der Lehre interessant.

Ein Vorreiter in diesem Gebiet sind Jupyter Notebooks, oder kurz Notebooks, in denen neben Q uellcode auch Markdown- oder Latex-Texte erlaubt sind. Die grundlegende Idee einer Notebook-Veröffentlichung ist die enge Verzahnung von Code, der meistens in Python, Julia, oder R geschrieben wurde, mit zugehörigen Erklärungen und Motivierungen. In einer interaktiven Ansicht können die LeserInnen des Textes dann zum einen den Code ausführen, zum anderen diesen aber auch anpassen um beispielsweise statistische Behauptungen durch eine andere Parameterwahl zu überprüfen oder eine Berechnung mit anderen Start-Werten noch einmal auszuführen. Ebenso kann eine Wissenschaftlerin die Erstellung eines Referenzdatensatzes mit allen Schritten der Daten-Akquise und Selektion sowie Bereinigung dokumentieren. Kombiniert mit öffentlich verfügbaren Forschungsdaten können Jupyter Notebooks einen wichtigen Beitrag zu reproduzierbarer Forschung leisten.

Durch eine einfache Gliederungsstruktur mit Kapiteln oder Absätzen kann um einen Programm-Code eine vollwertige Veröffentlichung samt Bibliographie geschrieben werden. Bereits 2014 wurde dies durch einen Nature Artikel beispielhaft gezeigt. Inzwischen wird die Umgebung zum Beispiel auch von Verlagen wie O‘Reilly unterstützt. Eine kuratierte Sammlung von Notebooks zu wissenschaftlichen Fragestellungen findet man zum Beispiel auf Github.

Für eine größere Akzeptanz dieser Veröffentlichungsart sind zwei wichtige Aufgaben von Forschungsinfrastrukturen zu lösen. Zum einen muss um die Unterstützung von Jupyter Notebook-Publikationen geworben werden, bspw. müssen eigene Darstellungsplattformen in den Einrichtungen für Wissenschaftler bereitgestellt werden. Zum anderen sollten Forschungseinrichtungen für Mitglieder eine Editierumgebung für Notebooks anbieten, die das Teilen von Programm-Beispielen oder Datensätzen erlaubt. Eindrucksvolle Beispiele hierfür findet man zum Beispiel am Cern oder bei der GWDG.

Notebook von Fundortverteilung, basierend auf Leaflet

Ein Ansatz um den Einstieg in erweitertes Publizieren mit Jupyter Notebooks für Forschungseinrichtungen zu erleichtern, ist die Bereitstellung von „Publikations-Bausätzen“ für die Darstellung von Notebooks, zum Beispiel basierend auf Container-Technologie, durch Infrastruktur-Initiativen wie DARIAH-DE. Auf ähnliche Weise könnte ein „Editier-Bausatz“ für WissenschaftlerInnen angeboten werden, der einen möglichst barrierefreien Einstieg in das „literate programming“ ermöglicht.

Ein Prototyp einer solchen Umgebung wird bei einem Workshop zu Jupyter Notebooks während der DARIAH-DE Grand Tour 2018 präsentiert und genutzt werden. Die Idee ist eine einfache Bereitstellung einer Editier-Umgebung für alle DARIAH-DE-NutzerInnen, bei der automatisch eine Sammlung von Beispiel-Notebooks zur Verfügung stehen wird, die als Grundlage für eigene Forschungsarbeiten dienen kann. Dabei werden typische Themen der DH abgedeckt sein, wie etwa das Laden von Webressourcen, mit anschließender Datenbank-Erstellung, Textklassifizierung, und Expertensuche mittels regulärer Ausdrücke, Netzwerk-Erstellung und Analyse für Netzwerke historischer Persönlichkeiten oder das Visualisieren von Fundort-Datenbanken auf Landkarten.

2 Kommentare Kommentar schreiben
  • no image

    DARIAH-DE Grand Tour 2018, 19.-21.09.2018, TU Darmstadt: Anmeldung möglich | DHd-Blog

    Antworten

    […] Reproduzierbare Forschung und erweitertes Publizieren mit Jupyter-Notebooks […]

  • no image

    ciberaBlog » Blog Archive » Reproduzierbare Forschung und Erweitertes Publizieren mit Jupyter Notebooks

    Antworten

    […] Lesen Sie den kompletten Artikel im DHd-Blog: «DARIAH-DE Grand Tour: Reproduzierbare Forschung und Erweitertes Publizieren mit Jupyter Notebooks» […]

Kommentar schreiben