Textkomplexität als Stilmerkmal – Ein Veranstaltungsbericht
Was macht einen Roman „komplex“? Kann man die „Komplexität“ eines literarischen Textes messen, und ist Komplixität ein Merkmal, daß bestimmte Autoren, oder bestimmte Literaturgattungen von anderen unterscheidet?
Um diesen und ähnlichen Fragen nachzugehen fand am 07. und 08. Dezember 2015 am Lehrstuhl für Computerphilologie der Universität Würzburg der DARIAH-DE Expertenworkshop „Complexity Measures in Stylometry„ statt. Ziel der Veranstaltung war es, innerhalb der quantitativ arbeitenden Literaturwissenschaft eine Diskussion über das Thema „Textkomplexität“ anzuregen und in gemeinsamen Gesprächen auszuloten, welche Rolle Indikatoren der Textkomplexität in der Stilometrie spielen könnten. Dabei sollte zudem demonstriert werden, wie der in DARIAH-DE entwicklte DARIAH-DKPro-Wrapper dazu beitragen kann, die Berechnung solcher Indikatoren wesentlich zu vereinfachen.
Geladen waren Maciej Eder (Institute of Polish Studies, Pedagogical University of Krakow), Jeremi Ochab (Department of Theory of Complex Systems, Jagiellonian University, Krakow), Allan Riddell (Leslie Center for the Humanities, Dartmouth College) und Nils Reiter (Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart).
Ziel und Kern der Veranstaltung war, die wissenschaftliche Diskussion unter den Teilnehmern anzuregen. Das Gerüst hierfür bildete eine Reihe von kurzen Vorträgen die Denkanstöße zu verschiedenen Aspekten des Themas liefern sollten. In einem ersten Beitrag stellte Stefan Pernes die sogenannten Readability Measures und ihre historische Entwicklung vor. Er zeigte verschiedene Ansätze aus dem Bereich der Grundschulpädagogik, um die Lesbarkeit von Texten mathematisch zu erfassen. Wenngleich solche Lesbarkeitsmetriken primär für pädagogische Zwecke entwickelt wurden lässt sich die Lesbarkeit eines Textes doch zumindest als ein Aspekt seiner Komplexität auffassen. Aufgrund des ständigen Bedürfnisses von Pädagogen Lesetexte nach Schwierigkeitsgraden einzustufen hat dieses Feld eine immerhin bereits mehrere Jahrzehnte zurückreichende Forschungs- und Entwicklungsgeschichte.
Wie solche Readability Measures und andere Komplexitätsindikatoren mit Hilfe des DARIAH-DKPro-Wrappers implementiert und als Stilmerkmale in einer Autorenschaftsanalyse genutzt werden können demonstrierte Steffen Pielström in seinem Vortrag Complexity Measures as Style Markers. Neben den readability measures kamen hier andere linguistische Indikatoren, wie die durchschnittliche Satzlänge, die type-token ratio und die Shanon-Entropie zu Einsatz. Des Weiteren konnte Jeremi Ochab zeigen, wie sich das Repertoire zur linguistischen Beschreibung sprachlicher Komplexität noch zusätzlich um die Zeitreihenanalyse erweitern lässt. Aus den gezeigten Beispielen wurde deutlich, dass diese statistischen Mittel sehr gut geeignet sind, Autoren zu unterscheiden, und folglich geeignet sind, den spezifischen Stil eines Autors zumindest auf der Sprachlichen Ebene zu beschreiben.
Wie Fotis Jannidis jedoch seinem Beitrag mit dem Titel ‚Formalizing the concept of complexity in literary language‘ darlegen konnte, lässt sich das Thema „Komplexität“ kaum auf jene Aspekte reduzieren, die durch linguistische Metriken erfasst werden. Readability measures versuchen vor allem, den cognitive load beim lesen und verstehen einzelner Sätze abzubilden, wohingegen aus literaturwissenschaftlicher Sicht noch ganz andere Faktoren dazu beitragen, dass ein Text als komplex empfunden wird. Dazu zählen Metaphern und Allegorien, Intertextualität, die Komplexität der beschriebenen Welt, in der sich die Handlung abspielt, der Aufbau der Handlungs- und Erzählebenen – und nicht zuletzt die inhaltliche Polyvalenz. All diese Aspekte formal zu quantifizieren scheint beim derzeitigen Forschungsstand keine realistische Option. Die pragmatische Lösung, die sich schnell im Laufe der Diskussion herauskristallisierte, ist ein „Goldstandard“, der auf möglichst vielen Leserbewertungen, also letztlich auf der subjektiven Wahrnehmung von Komplexität beim Leser basiert.
Christof Schöch und Maciej Eder versuchten sich der Frage nach inhaltlicher Komplexität über das Topic Modeling zu nähern. Hierbei wurden Texte im Hinblick auf vier inhaltliche Komplexitätsdimensionen betrachtet: Die Größe des Themenspektrums, die Identifizierbarkeit und eindeutige Abgrenzbarkeit einzelner Themen, ihre Variation im Textverlauf, und die inhaltliche der Komplexität des Themas selbst. Konkrete Vorschläge zur Modellierung dieser Aspekte wurden hierbei für die Abgrenzbarkeit (durch sog. Kohärenzmaße) und das Spektrum (über die Skewedness und die Kurtose der Topic-Verteilungen) gemacht und anhand von Beispielanalysen vorgestellt. Doch auch hier zeigte sich im Verlauf der Diskussion das Fehlen eines auf der Leserwahrnehmung basierenden Goldstandards als grundsätzliches Problem.
Einen ersten Schritt hin zu empirischen Erforschung von Leserbewertungen stellen die Arbeiten der Gruppe um Karina van Dalen-Oskam an der Huyens-Universität. Von diesem Projekt berichtete Allan Riddell, zu diesem Zeitpunkt als Gastwissenschaftler in Den Haag. Die Probanden dieser Studie werden aufgefordert aktuelle Bestseller zu bewerten, und dabei anzugeben, wie sehr ihnen ein Buch gefallen hat, und wie sehr sie es für ein ‚literarisches‘ Werk halten. Natürlich ist ‚Literarizität‘ wiederum eine abstrakte Größe, von der wiederum die ‚literarische Komplexität‘ überhaupt nur ein Teilaspekt sein kann, womit die erhobenen Daten für die konkrete Fragestellung auch nur als grobe Annäherung verstanden werden können.
Im Laufe der Diskussionen wurde vor allem klar, wie weit die quantitative Textforschung zum jetzigen Zeitpunkt tatsächlich noch davon entfernt ist, all das, was beim Lesen eines Textes als ‚Komplexität‘ wahrgenommen wird, quantifizieren zu können. Gleichzeitig ist es den Teilnehmern aber gelungen, die drängendsten Probleme um das Phänomen aufzuzeigen und das Thema als mögliches Forschungsfeld für die quantitative Textanalyse in verschiedene Richtungen auszuloten. Hierbei ist man weitgehend zu dem Schluss gekommen, dass erst das ein gezieltes Zusammenspiel aus quantitativer Textanalyse und empirischer Erforschung der Leserwahrnehmung dieses Thema greifbar machen kann.
Ein erster Schritt hin zur empirischen Erforschung des Phänomens ‚Textkomplexität‘ wurde damit auf diesem DARIAH-Expertenworkshop getan, weitere Schritte für die Zukunft im Kreis der Teilnehmer verabredet. Man darf nun gespannt sein, wie sich dieses Forschungsfeld weiter entwickelt.
Kommentar schreiben