Maschinelles Lernen als Interpretationsgrundlage!? – Ein Erfahrungsbericht zur DHd 2020

0 Veröffentlicht von Janis Pagel am

Vom 03. bis 06. März 2020 habe ich an der DHd 2020 in Paderborn teilgenommen. Im Folgenden möchte ich einen thematischen Schwerpunkt näher beleuchten, der mich als Teilnehmer besonders interessiert hat.

Das Thema, an dem ich auch persönlich forsche und das ich daher auf der diesjährigen DHd besonders gesucht und verfolgt habe, ist die Frage, wie und inwieweit Maschinelles Lernen (ML) genutzt werden kann, um geisteswissenschaftliche (und insbesondere literaturwissenschaftliche) Fragestellungen zu beantworten (oder zumindest neue Einsichten zu erzeugen).

Maschinelles Lernen bezeichnet eine Methode, bei der mittels statistischer Algorithmen und Daten Modelle erzeugt werden, die aus den gesehenen Daten (statistische) Verallgemeinerungen ziehen und somit auf neue und vorher ungesehene Daten angewendet werden können. Die Fülle an vorhandenen Algorithmen und Verfahren ist groß; eine ML-Familie ist unter dem Namen “Deep Learning” bekannt geworden und bedient sich vor allem Künstlicher Neuronaler Netze. Diese Netze waren, auch unter Verwendung von immer stärker werdenden Rechnerresourcen, in bestimmten Gebieten wie Automatische Bilderkennung oder Automatische Spracherkennung, so erfolgreich, dass sie bald zugleich für andere Gebiete im großen Stil eingesetzt wurden; darunter für Textverarbeitung.

Maschinelles Lernen und Deep Learning (DL) nehmen in den DH eine interessante Rolle ein, da sie für einige Bereiche sehr gewinnbringend eingesetzt werden können (siehe OCR etc.) und für andere Bereiche auf eher größere Hürden stoßen. Einer dieser Bereiche, die Nutzbarmachung von ML für die Interpretation von literaturwissenschaftlichen Fragestellungen, fand sich auch auf der diesjährigen DHd. Ein kurzer Blick zurück: Die DHd 2019 in Mainz/Frankfurt am Main beherbergte ein Panel mit dem Titel “Deep Learning als Herausforderung für die digitale Literaturwissenschaft”. Auf der diesjährigen DHd konnte ein Panel mit dem Titel “Maschinelles Lernen in den Geisteswissenschaften” besucht werden.1 Das Auftreten dieser Themen in aufeinanderfolgenden Jahren legt den Schluss nahe, dass das Thema Maschinelles Lernen in den deutschsprachigen Digital Humanities immer mehr an Fahrt aufnimmt.

Das diesjährige Panel bestand aus verschiedenen Aspekten, die, neben einem allgemeinen Einblick dazu, was ML eigentlich ist, zusammengefasst werden können mit: 1. Vorhandene Verwendung von ML in den DH, 2. Nutzen von ML und 3. epistemologische Herausforderungen bei der Anwendung von ML. Insbesondere wurde dafür plädiert, sich zu trauen, Maschinelles Lernen produktiv in die eigene Forschung einzubauen.

Zu der Frage danach, was ML epistemologisch bedeutet, passt die Einführung einer Arbeitsgruppe auf der diesjährigen DHd mit dem Ziel, Theorien in den DH zu beleuchten und der Frage nachzugehen, welche Theoriebegriffe die DH überhaupt bereitstellen.2 Auch der Einsatz von ML in den DH kann meiner Ansicht nach von solchen Bestrebungen profitieren, da klarer wird, was für Erkenntnisgewinne durch die Anwendung von ML überhaupt grundsätzlich möglich sind.

Ein weiterer wichtiger Aspekt, der durch Wortmeldung aus dem Publikum eingebracht wurde, war die Frage danach, inwieweit die DH dazu beitragen können, Biases, also Verzerrungen, im Maschinellen Lernen und insbesondere in Word Embeddings, also numerischen Darstellungen von Wörtern, zu untersuchen. Das Thema “Bias in ML und DL” ist ein großes Thema, das momentan von vielen verschiedenen Forschungsfeldern bespielt wird. Es scheint mir offensichtlich, dass die DH mit ihrem inbegriffenen geisteswissenschaftlichen Bezug hier wichtige Beiträge leisten können. Der andere Aspekt, der eher inwendig gerichtet ist und für den ich hier gerne werben möchte, ist der bereits angesprochene Aspekt der Nutzbarmachung von ML-Methoden, um Erkenntnisse zu geisteswissenschaftlichen Fragestellungen zu gewinnen.

Ein wichtiger Teil davon ist die Frage nach der Operationalisierung von literaturwissenschaftlichen Phänomenen, d.h. komplexe Phänomene in Teilphänomene herunterzubrechen um sie z.B. mit Computerprogrammen modellieren und untersuchen zu können. Hierzu gab es verschiedene Workshops, an denen ich teilweise mitgewirkt habe: Zum einen ein “Hackatorial”, das der Frage nachging, wie die Ergebnisse Maschinellen Lernens genutzt werden können, um neue Fragestellungen zu entwickeln und neue Einsichten zu gewinnen, z.B. über gezielte Fehleranalyse und Auswahl von geeigneten Features. Hierbei lag der Fokus auf dem Erkennen von Personen-, Organisations- und Ortsreferenzen.3 Ein weiterer Workshop behandelte die gezielte Operationalisierung von komplexen literaturwissenschaftlichen Phänomenen. Hierbei wurden Texte annotiert, was zugleich erlaubte, interessante Einzelfälle ausfindig zu machen, etwa bei der Frage von Textklassifizierung oder Erzählebenenerkennung. Maschinelles Lernen kann anschließend auf die erstellten Daten angewendet werden, um zu ermitteln, wo Modelle unvorhergesehene Entscheidungen treffen. Diese Entscheidungen können ein Auslöser dafür sein, sich die entsprechenden Textstellen genauer anzuschauen und eventuell Aspekte in den Texten zu entdecken, die sonst übersehen worden wären.4

Die finale Keynote am Freitag von Alan Liu beschäftigte sich ebenfalls ganz konkret mit dem Thema und trug den Titel “Humans in the Loop: Humanities Hermeneutics and Machine Learning”. Liu schlägt ein festgelegtes Protokoll vor, nach dem verschiedene Ebenen des Lernens von ML durchlaufen werden können und macht dies am Beispiel von Topic Modeling deutlich. Geisteswissenschaftliche Herangehensweisen und Erkenntnisse aus den speziellen Gegebenheiten des ML beeinflussen sich hier gegenseitig.

Was also bleibt nach dieser DHd an neuen Eindrücken zum Thema “ML in den DH”? Ich denke, es lässt sich auf zwei wesentliche Aspekte zusammen fassen: das Interesse an der Nutzbarmachung von ML zum besseren und neuen Verständnis der geisteswissenschaftlichen Gegenstände wächst immer weiter und gleichzeitig ist der Weg noch lang zu einer routinierten Integration von ML in die DH-Alltagspraxis.

1 Panel “Maschinelles Lernen in den Geisteswissenschaften”, Donnerstag, 05.03.2020, 9:00-10:30, Tobias Hodel, Nasrin Saef, Christof Schöch, Ulrike Henny-Krahmer

2 Link zum Blog der AG: https://dhtheorien.hypotheses.org

3 Workshop “Maschinelles Lernen lernen: Ein CRETA-Hackatorial zur reflektierten automatischen Textanalyse”, Dienstag, 03.03.2020, 9:00-12:30, Gerhard Kremer, Kerstin Jung

4 Workshop “Vom Phänomen zur Analyse – ein CRETA-Workshop zur reflektierten Operationalisierung in den DH”, Dienstag, 03.03.2020, 13:30-17:00, Nora Ketschik, Benjamin Krautter, Sandra Murr, Janis Pagel, Nils Reiter

Kommentar schreiben