Computerlinguistik und Digital Humanities

2 Veröffentlicht von Michael Piotrowski am

In einem Kommentar zu meinem Kurzbericht von der GSCL 2013 hat Patrick Sahle folgendes geschrieben:

Das finde ich spannend: Computerlinguistik/Sprachtechnologie ist
nach diesem Beitrag KEIN “Teil” von DH, sondern macht (auch) Sachen,
die für DH relevant sind.

Michael, könntest Du ein paar Hinweise dazu geben,
a) wieso CL/ST nicht als Teil der DH aufzufassen sind und
b) wie Du DH definierst, so dass man daraus ableiten kann, welche
CL/ST-Themen für die DH einschlägig/relevant/interessant sind
?
Das würde bei mir vermutlich vieles erhellen.

Ich möchte hier zunächst Frage (a) beantworten, also die Frage, ob Computerlinguistik (CL) und Sprachtechnologie (NLP) ein »Teil« der Digital Humanities sind. Diese Frage führt natürlich direkt zur Frage, was die Digital Humanities sind. In meinem Buch definiere ich sie wie folgt:

The emerging field of digital humanities aims to exploit the possibilities offered by digital data for humanities research. The digital humanities combine traditional qualitative methods with quantitative, computer-based methods and tools, such as information retrieval, text analytics, data mining, visualization, and geographic information systems (GIS).

Nach meiner Definition ist DH also die Ergänzung traditioneller geisteswissenschaftlicher Methoden durch rechnergestützte quantitative Methoden und Werkzeuge zur Beantwortung geisteswissenschaftlicher Forschungsfragen.

Was ist unter CL und NLP zu verstehen? CL und NLP hängen eng zusammen, im üblichen Sprachgebrauch wird CL meist für stärker linguistisch und theoretisch orientierte Forschung verwendet, während NLP nicht umsonst oft auch als »language engineering« bezeichnet wird: Hier geht es nicht um linguistische Forschungsfragen, sondern primär darum, effektive und effiziente Algorithmen, Datenstrukturen usw. für die Verarbeitung natürlicher Sprachen zu erforschen und für praktische Anwendungen nutzbar zu machen. Ein gutes Beispiel dafür ist die aktuelle Forschung im Bereich der maschinellen Übersetzung (MÜ).
Diese Definition nimmt bereits einen Teil der Antwort vorweg: NLP ist meines Erachtens kein Teil der DH, da sich NLP nicht mit geisteswissenschaftlichen Forschungsfragen beschäftigt. Die Situation ist vergleichbar mit der Rolle von NLP in der Pharmaforschung: Biomedizinisches Textmining spielt ein wichtige Rolle, dennoch ist Sprachtechnologie kein Teil der Pharmazie.

Auch wenn NLP kein Teil der DH ist, ist NLP aber eine wichtige Grundlage, oder, wie ich es in meinem Buch (S. 10) ausgedrückt habe: »NLP—and NLP for historical texts in particular—should be considered a foundation for the emerging discipline of digital humanities.«
Wenn Computerlinguistik und Sprachtechnologie nicht das selbe sind, wie sieht es dann mit der Computerlinguistik aus? Die Linguistik wird ja üblicherweise zu den Geisteswissenschaften gerechnet.

Zunächst ist hier zu beachten, dass die Linguistik eine der »naturwissenschaftlichsten« geisteswissenschaftlichen Disziplinen ist; ihre Methoden unterscheiden sich deutlich von – zum Beispiel – der Geschichtswissenschaft oder der Literaturwissenschaft.
Dazu kommt, dass sich die Computerlinguistik in den letzten 50 Jahren weitgehend von der Linguistik emanzipiert hat. Natürlich gibt es noch Forscher in der Computerlinguistik, die linguistische Fragestellungen bearbeiten, der Mainstream hat sich aber stark in Richtung NLP entwickelt. Wissensfreie statistische Verfahren haben sich etabliert, und angesichts der schnellen Erfolge, die man mit ihnen insbesondere in der MÜ erreicht hat, muss man sich heutzutage für regelbasierte, linguistisch motivierte Ansätze oft rechtfertigen. Die geringe Rolle der Linguistik in der Computerlinguistik wird andererseits aber auch seit einiger Zeit innerhalb der CL diskutiert (siehe etwa die Proceedings des EACL 2009 Workshop on the Interaction between Linguistics and Computational Linguistics oder die Artikel Computational Linguistics: What About the Linguistics? von Karen Spärck Jones und What Science Underlies Natural Language Engineering? von Shuly Wintner).

Ich würde daher auch die heutige CL nicht – jedenfalls nicht als Ganzes – als Teil der DH betrachten. Da die CL aber eine der Grundlagen für NLP sind, sind sie auch eine Grundlage für DH.

CL-Forschung mit einer stärkeren linguistischen Ausrichtung – also quasi die »klassische« CL, bei der es um die rechnergestützte Modellierung sprachlicher Phänomene geht, um ein besseres Verständnis von natürlicher Sprache zu erreichen – könnte man durchaus als Teil der DH betrachten, diese Forschung ist aber heute eher in der Korpuslinguistik angesiedelt.
Die Antwort auf die Frage (a) ist jetzt schon recht lang geraten, daher werde ich mich mit (b) in einem weiteren Beitrag beschäftigen.

2 Kommentare Kommentar schreiben
  • Patrick Sahle

    Antworten

    Ich finde, das ist eine sehr klare und plausible Antwort! Wo die CL linguistische Fragen bearbeitet ist sie als Geisteswissenschaft Teil der DH. Wo sie rein an generischen Algorithmen interessiert ist, die sich nicht aus Fachfragestellungen ergeben, liefert sie Bausteine oder Grundlagen für DH-Lösungen.

  • Michael Piotrowski

    Antworten

    Genau. Danke für die positive Rückmeldung!

Kommentar schreiben