Vorstellung der DARIAH DH-Award-PreisträgerInnen 2018: Thomas Schmidt
Mit dem DARIAH-DE DH-Award wurde dieses Jahr Thomas Schmidt ausgezeichnet. Der DARIAH-DE DH-AWARD fördert NachwuchswissenschaftlerInnen, die in ihren Forschungsvorhaben innovative digitale Ansätze und Methoden einsetzen und so einen Beitrag zur Weiterentwicklung der Digital Humanities leisten. Im DHd-Blog stellen wir PreisträgerInnen und Projekte in den nächsten Wochen vor.
Thomas Schmidt hat einen Master of Science in Medieninformatik von der Universität Regensburg. Thema der Masterarbeit: „Gefühl ist alles; Name ist Schall und Rauch.“ – Der Einsatz von Sentiment Analysis in der quantitativen Dramenanalyse.Seit Ende 2017 arbeitet er am Lehrstuhl für Medieninformatik der Universität Regensburg als wissenschaftlicher Mitarbeiter. Seine Forschungsinteressen umfassen Digital Humanities, Information Behavior und Human Computer Interaction.
Worum geht es in Ihrer Arbeit?
In der Masterarbeit habe ich mich mit der Sentiment Analysis auf Dramentexten von G. E. Lessing befasst. Sentiment Analysis bezeichnet dabei eine Sammlung von Methoden zur computergestützten Analyse und Prädiktion von Emotionen, Sentiments und Meinungen. Sentiment Analysis ist insbesondere im Bereich Product Reviews und Social Media populär. Es ist jedoch klar, dass insbesondere die Analyse von literarischen Texten davon profitieren kann; beispielsweise um Emotionsverläufe zu untersuchen oder die Beziehung zwischen Figuren zu modellieren. In der Arbeit habe ich zunächst einen kleinen Teil von Repliken (also Sprechakten) aus den Dramen Lessings bezüglich dem Sentiment und den Emotionen annotieren lassen, um einen Gold Standard zu erstellen und das Annotationsverhalten zu untersuchen. Details zu dieser Annotationsstudie kann man hier einsehen.
Bezüglich des Gold Standard habe ich dann die Leistung verschiedener lexikon-basierter (oder auch regel-basierter) Verfahren aus der Sentiment Analysis in Kombination mit NLP-Methoden evaluiert. Die besondere Herausforderung ist dabei der Umgang mit der historischer und poetischen Sprache. Die Ergebnisse der Sentiment Analysis aus der Methodenkombination mit der besten Leistung habe ich in einem prototypischen Web-Tool zur interaktiven Visualisierung implementiert. Über das Tool kann man Polaritäts- und Emotionsverteilungen in den Dramen Lessings explorieren. Mehr dazu kann man hier nachlesen.
Betreut und begutachtet wurde die Masterarbeit von Jun.-Prof. Dr. Manuel Burghardt von der Universität Leipzig und Prof. Dr. Christian Wolff von der Universität Regensburg.
Mit welchen Materialien und Daten arbeiten Sie?
Für die Masterarbeit habe ich die Dramen von Lessing über die Plattform Textgrid und das Textgrid-Repository bezogen, da diese dort sehr gut als mit XML strukturierten und annotierten Dateien vorliegen. Für Textanalyse jenseits von dem was auf Textgrid verfügbar ist, nutze ich das bekannte Projekt Gutenberg.
Gibt es Methoden, Theorien und Tools, welche für diese Aufgabe besonders interessant sind?
Bezüglich der theoretischen Grundlage bezieht man sich in der Sentiment Analysis meist auf Liu (2016) der zu dem Konzept Sentiment Analysis ein differenziertes theoretisches Modell erstellt hat. Problem hierbei ist, dass dieses Modell vor allem für Product Reviews, Social Media und Meinungen optimiert ist. Narrative und literarische Texte stellen jedoch einen Sonderfall dar, da die emotionalen Repräsentationen oft sehr komplex sind oder auch die Bezugsebene nicht immer eindeutig zu identifizieren ist. Ich hoffe, dass wir mit unserer Forschung zum Annotationsverhalten von Literaturwissenschaftlern einen Beitrag zur Theoriebildung für die Sentiment Analysis auf literarischen Texten leisten.
Für die Durchführung der Sentiment Analysis habe ich etablierte deutschsprachige Sentiment-Lexika benutzt. Dabei handelt es sich um Listen oder Tabellen aus Wörtern, die bezüglich ihrem Sentiment auf unterschiedliche Art und Weise annotiert sind. Über Kalkulationen, basierend auf diesen Lexika, kann man dann Metriken für das Sentiment und Emotionen kalkulieren. Diese Methodik wird vor allem dann eingesetzt, wenn große annotierte Korpora der Anwendungsdomäne fehlen, um Techniken des maschinellen Lernens durchzuführen.
Im Bereich der allgemeinen Textverarbeitung und –analyse nutze ich verschiedene Python-Libraries wie das bekannte NLTK-package, textblob aber auch Lemmatisierungstools wie TreeTagger. Bei der Visualisierung der Daten habe ich mich an anderen Textanalyse-Tools orientiert, wie zum Beispiel Voyant und nutze Datenvisualisierungs-Bibliotheken wie Google Charts und D3.js.
Um mit der historischen Sprache der Dramen zurecht zu kommen, habe ich ein Tool vom Deutschen Textarchiv genutzt insbesondere ein Tool zur Erstellung historischer linguistischer Varianten von Jurish (2012).
Um fortgeschrittene Methoden, wie zum Beispiel Machine Learning für die Sentiment Analysis zu verfolgen sind Sentiment-annotierte Korpora notwendig, die jedoch für den Anwendungsbereich von historischen Dramen noch nicht ausreichend vorliegen. Zwar gibt es große und gut annotierte Korpora für andere Anwendungsbereiche (Product Reviews, Twitter), jedoch haben diese das Problem, dass es sich eben nicht um historische und poetische Sprache handelt. Auch haben wir festgestellt, dass Sentiment-Annotationen auf literarischen Texten detailliertere Annotationen benötigt, wie zum Beispiel die Angabe von Lügen, Ironie oder den tatsächlichen Sentiment-Zielen. Derartige Annotation sind selbst in etablierten Anwendungsgebieten nicht häufig. Diesbezüglich sind natürlich Annotations- und Crowdsourcing-Tools aus den Digital Humanities besonders interessant für uns, um größere Annotationsstudien durchzuführen und derartige Korpora zu generieren.
Wie haben Sie begonnen, sich mit digitalen Geisteswissenschaften zu beschäftigen?
Zum ersten Mal habe ich mich mit Digital Humanities (DH) im Rahmen des Master-Programms für den Master Medieninformatik an der Universität Regensburg befasst. DH ist dabei ein Wahlmodul, das man belegen kann. Als Projektarbeit war ich im Kurs dann an der Realisierung eines Tools zur quantitativen Dramenanalyse unter der Leitung von Jun.-Prof. Dr. Manuel Burghardt beteiligt. Dabei habe ich auch erste Erfahrungen zur Zusammenarbeit mit Geisteswissenschaftlern gesammelt, da wir in dem Projekt eng mit der Literaturwissenschaftlerin PD Dr. Katrin Dennerlein von der Universität Würzburg zusammen gearbeitet haben.
Im weiteren Studium habe ich dann immer mal wieder in Projektkursen an DH-Themen mitgewirkt, zum Beispiel bei der Digitalisierung einer Liedblattsammlung der Universität Regensburg. Für meine Masterarbeit habe ich mich dann entschlossen auf den bisherigen Arbeiten zur quantitativen Dramenanalyse aufzubauen und die Dramenanalyse um Techniken der Sentiment Analysis zu erweitern.
An den Digital Humanities interessiert mich vor allem die Vielfalt an Themen und die Zusammenarbeit mit Geisteswissenschaftlern. Des Weiteren finde ich die Zusammenführung von Geisteswissenschaften mit ihrer jahrhundertelangen Traditionen, Theorien und Ergebnissen und den Möglichkeiten der noch recht jungen Informatik sehr faszinierend und denke, dass sich beide Gebiete gegenseitig bereichern können.
Welche Angebote der digitalen Geisteswissenschaften fänden Sie für Ihre Forschungsprojekte in Zukunft besonders hilfreich?
In Zukunft planen wir unter anderem noch größere Annotationsstudien mit verschiedenen Nutzergruppen und differenzierteren Annotations-Schemata zur Sentiment Annotation auf literarischen Texten. Ziel ist die Analyse von Annotationsverhalten und die Erstellung von größeren Korpora zur Evaluation und zur Anwendung von Maschinellen Lernen. Dafür exploriere ich momentan den Einsatz und die Möglichkeiten von bekannten Annotationstools wie WebAnno sowie Optionen die Annotation über Crowdsourcing umzusetzen.
Um besser mit historischer und poetischer Sprache der Dramentexte zurecht zukommen, wären natürlich mehr digitale Wörterbücher oder gar Sentiment-Lexika für den jeweiligen historischen Kontext nützlich. Im Bereich der domänenspezifischen Sentiment Analysis gibt es auch semi-automatische Methoden für die Erstellung derartiger Lexika, die wir in Zukunft explorieren wollen.
Für die Weiterentwicklung der Dramenanalyse ist die Verknüpfung von quantitativen Metriken aus dem vergangenen Projekt zur quantitativen Dramenanalyse mit Ergebnissen der Sentiment Analysis sicherlich interessant. Auch die Verknüpfung und Integration von aktuell sehr populären Textanalyse-Methoden wie Topic Modelling mit der Sentiment Analysis
Weitere Informationen:
- Thomas Schmidt / @thomasS_UniR
- Lehrstuhl für Medieninformatik
- Digital Humanities Blog der Universität Regensburg
- Webseite des Digital Humanities Master an der Universität Regensburg
DARIAH-DE unterstützt mit digitalen Ressourcen und Methoden arbeitende Geistes- und KulturwissenschaftlerInnen in Forschung und Lehre. Dafür baut das Projekt eine digitale Forschungsinfrastruktur für Werkzeuge und Forschungsdaten auf und entwickelt Materialien für Lehre und Weiterbildung im Bereich der Digital Humanities (DH). DARIAH-DE ist der deutsche Beitrag von DARIAH-EU und arbeitet in diesem Kontext mit einer Vielzahl von europäischen Partnern und Projektverbündeten zusammen.
Kommentar schreiben