DARIAH-DE Methodenworkshop “Natural Language Processing”

1 Veröffentlicht von Steffen Pielström am

Am 18. Und 19.02. wurde in den Räumlichkeiten der Hochschule Mainz der DARIAH-DE-Methodenworkshop “Natural Language Processing” durchgeführt. Ziel der Veranstaltung war es, den angemeldeten Teilnehmerinnen und Teilnehmern, 23 studierenden des Mainzer Digital-Humanities-Masterstudienganges, methodisches Wissen über aktuelle NLP-Verfahren und deren Einsatz in den digitalen Geisteswissenschaften zu vermitteln und sie an damit verbundene Entwicklungen aus dem DARIAH-Projekt heran zu führen.
Darüber hinaus gab es eine informelle Gesprächsrunde, die es den Teilnehmenden ermöglicht hat, auch mit externen Dozentinnen und Dozenten über fachliche Fragen, aber auch über Fragen der Karriereplanung und der allgemeinen Situation des wissenschaftlichen Nachwuchses in diesem Arbeitsfeld, ins Gespräch zu kommen; und einen Abendvortrag von Evelyn Gius von der Universität Hamburg, der eher die grundsätzlichen methodologischen Aspekte digitaler Verfahren in den Geisteswissenschaften erläuterte.

Biographien: Linguistische und literarische Besonderheiten (Anna Aschauer, IEG Mainz)
Im Vortrag wurde den Studierenden einen Ausblick darüber gegeben, welche stilistische und thematische Neuerungen in der Gattung der Biographik sich ergeben haben. Anschließend wurden unterschiedliche Beispiele aus den digitalen biographischen Sammlungen vorgeführt und deren Einzelheiten in Bezug auf Stil, Form, linguistische Besonderheiten gemeinsam mit Studierenden diskutiert. Der Vortrag hat die Zuhörer auf die Inhalte und stilistischen Aufbau der Biographien aufmerksam gemacht.

Semantische Zusammenhänge analysieren in DKPro Core (Leon Martin, Universität Bamberg)
Im Programmpunkt „Semantische Zusammenhänge analysieren in DKPro Core“ wurde den Studierenden ein Einblick in das NLP-Tool DKPro Core gegeben. DKPro Core ist eine Sammlung von Software-Komponenten, die für verschiedene Aspekte des NLP genutzt werden kann. Aus den Komponenten können Pipelines aufgebaut werden, die Texte hinsichtlich verschiedener Kriterien analysieren. Der Workshop gliederte sich in zwei Teile: im ersten Teil des Workshops wurde ein Anwendungsfall dargelegt und eine theoretische Einführung in DKPro Core gegeben. Der Anwendungsfall bestand darin, Texte hinsichtlich der Akteure sowie der geographischen und zeitlichen Inhalte zu analysieren. Im zweiten Teil wurde darauf aufbauend eine prototypische Implementierung auf Basis von DKPro Core vorgeführt, die den besagten Anwendungsfall löst. In der anschließenden Diskussion wurden Fragen zur Implementierung und ihrer Performanz erörtert.

Inhaltsanalyse mit dem DARIAH-TopicsExplorer (Steffen Pielström, Universität Würzburg)
In einem 2-stündigen Block wurde LDA (Latent Dirichlet Allocation) Topic Modeling als Methode zur inhaltlichen Erschließung von Textkorpora vorgestellt. Die theoretische Einführung erläuterte ausführlich die Motivation der Methode und den dahinter stehenden Algorithmus, um so ein tieferes Verständnis für die Moglichkeiten, aber auch die Grenzen der Methode zu erzeugen, und die Auswirkungen bestimmter methodischer Entscheidungen im Forschungsprozess zu erklären. Anschließend konnten die Teilnehmenden mit dem DARIAH-TopicsExplorer selbst Modelle auf kleinen Beispielkorpora erzeugen und so die Erstellung von Topic Models auch von der praktischen Seite her erlernen.

Abendvortrag: Quantifizierbarkeit der literaturwissenschaftlicher Textanalyse (Evelyn Gius, Universität Hamburg)
Der Abendvortrag widmete sich grundsätzlichen Fragen über die Verwendung quantifizierender Methoden in der Literaturwissenschaft und dem Verhältnis von quantitativen Methoden und Hermeneutik in diesem Forschungsfeld aus epistemologischer Sicht. So wurde den Teilnehmenden dieser sonst eher Praxis- und Technik-orientierten Veranstaltung angeregt, die vermittelten Methoden in einem wissenschaftstheoretischen Gesamtkontext zu sehen.

Natural Language Processing mit dem DARIAH-DKProWrapper (Steffen Pielström, Universität Würzburg)
Der DARIAH-DKProWrapper ist ein einfaches Kommandozeilenprogramm, in dem eine DKPro-Core-Pipeline gleichsam “eingefroren” ist und ohne Kenntnisse des DKPro-Core-Frameworks für NLP-Annotationen genutzt werden kann. Die Zusammenstellung der Pipeline orientiert sich hierbei typischen Bedürfnissen geisteswissenschaftlicher Textanalyse: Für jedes Wort in einem Text wird eine Reihe von zusätzlichen Informationen in einem Tabellenformat ausgegeben, wie Lemma, Wortart, Funktion im Satz, oder die Information, ob es sich um einen Eigennamen handelt.
In dieser Hands-on-Session wurde die Funktionsweise der Software ebenso vermittelt wie mögliche Techniken zur Analyse und/oder Weiterverarbeitung der Ergebnisse mit der Programmiersprache R, bis hin zur Nutzung der Annotationsergebnisse für das zuvor eingeführte Topic Modeling.

Bei diesem Workshop konnten die Teilnehmenden einen Einblick in neue Bereiche der Digital Humanities gewinnen und gleichzeitig die grundlegenden, damit verbundenen methodisch-technischen Kompetenzen erwerben. Hierbei wurde einmal mehr deutlich, welche Rolle die im Workshop allgegenwärtigen Tools und Services von DARIAH-DE in der Forschungspraxis spielen können, oder schon spielen.
Unser Dank gilt der Hochschule Mainz für die modernen und gut ausgestatten Räumlichkeiten die wir vor Ort nutzen durften und die große Hilfsbereitschaft bei technischen Fragen, sowie dem Bundesministerium für Bildung und Forschung, das über das Projekt DARIAH-DE die Anreise der Vortragenden finanziert hat.

Allgemein   
Ein Kommentar Kommentar schreiben
  • Godewin Ortler

    Antworten

    Vielen Dank für die gute und nützliche Zusammenfassung.

Kommentar schreiben