„Korpora in Text+: Kennenlernen und nachhaltig nutzen“ – Bericht vom 1. Community-Workshop der Text+ Task Area Collections

1 Veröffentlicht von Lukas Weimer am 19. Juli 2022

Am 13. Juli fand der erste Workshop der AG Dissemination/Community Activities der Text+ Task Area Collections statt. Es war gleichzeitig der erste Workshop, den Text+ in Präsenz veranstalten konnte. Über 30 Text+-interne und –externe Teilnehmende folgten dem Aufruf an die Deutsche Nationalbibliothek (DNB) nach Frankfurt am Main und bescherten dem Workshop ein diskussionsfreudiges Publikum.

Gerahmt wurde der Workshop von Grußworten von Frank Scholze, dem Generaldirektor der Deutschen Nationalbibliothek, sowie Elke Teich (Universität des Saarlands), einer wissenschaftlichen Co-Sprecherin von Text+. Außerdem hielt Lukas Weimer (SUB Göttingen, Text+ Office) einen kurzen Einführungsvortrag mit Grundlageninformationen zum NFDI-Konsortium Text+, um die übergreifende Perspektive des Workshops darzustellen: Text+ ist ein Konsortium der Nationalen Forschungsdateninfrastruktur (NFDI) und hat zum Ziel, sprach- und textbasierte Forschungsdaten langfristig zu erhalten und ihre Nutzung in der Wissenschaft zu ermöglichen.

Das Workshopprogramm gliederte sich in insgesamt vier jeweils 80-minütige thematische Blöcke.

Der erste Workshopblock beschäftigte sich mit dem Thema linguistisch und nicht linguistisch aufbereiteter Zeitungskorpora. Christian Mair (Universität Freiburg) fragte als Moderator einleitend provokativ in die Runde, ob die Beschäftigung mit Zeitungen im 21. Jahrhundert der Beschäftigung mit einem alten, fast toten Medium gleichkomme, das nur von älteren Menschen rezipiert werde. Die drei Sprecher Lisa Landes (Deutsche Digitale Bibliothek), Marc Kupietz (Leibniz-Institut für Deutsche Sprache) und Peter Leinen (Deutsche Nationalbibliothek) bewiesen eindrucksvoll, dass es sich hierbei nicht um ein totes Medium handelt.
Lisa Landes stellte in einer Live-Präsentation das Deutsche Zeitungsportal (1671–1950) vor, das Volltextsuchen, aber auch Suchen über Titel, Ort und Jahr erlaubt. Um distant reading zu erlauben, gibt es für das Deutsche Zeitungsportal auch eine API. Laut Nutzendenstudie stammn über 75% der wissenschaftlichen Nutzer des Portals aus den Geistes- und Gesellschaftswissenschaften.
Marc Kupietz stellte das Deutsche Referenzkorpus (DeReKo) vor, das bereits seit 1964 am IDS Mannheim beheimatet ist. Es ist für die nicht-kommerzielle, sprachwissenschaftliche Nutzung bestimmt und dient der Forschungsdatengewinnung sowie der Methoden- und Werkzeugentwicklung. Um mit diesem mehrfach linguistisch annotierten, hochdimensionalen und teilweise rechtlich eingeschränkten Korpus rechtskonform und anwendungsgerecht zu arbeiten, stellt das IDS das Werkzeug KorAP bereit.
Peter Leinen sprach schließlich über den Sammlungsauftrag der DNB, der dazu führt, dass sich der Bestand der DNB jährlich um ca. 8 Regalkilometer physischer Medienwerke erweitert. Der jährliche Erhalt digitaler Werke sei dabei nochmals deutlich höher. Dank der Urheberrechtsreform von 2018 sind die Texte der DNB nun auch legal durch text und data mining nutzbar.
Alle drei Sprecher sprachen auch über das jeweilige Verhältnis zu Text+. So wird das Deutsche Zeitungsportal derzeit noch weiter ausgebaut, soll aber später auch über die Text+ Registries auffindbar sein. In DeReKo können und sollen in Zukunft weitere, auch in Text+ entwickelte Korpora integriert werden. Außerdem ist DeReKo natürlich durch Text+ nutzbar, um linguistische Werkzeuge und Methoden zu entwickeln. Wichtige Facetten für die Weiternutzung der DNB-Daten sind z.B. Artikelseparation, xml-Formate, Volltextsuchen und Forschungsdatenstandards.

Der zweite Workshopblock drehte sich unter der Moderation von Peter Leinen um historische Korpora. Konkret wurden dabei von Jörg Knappen (Universität des Saarlands) und Magnus Huber (Universität Gießen) zwei englischsprachige Korpora der Late Modern Period vorgestellt. Dabei stellte Jörg Knappen das Royal Society Corpus vor, das die Zeitschriften der Royal Society of London von 1665 bis 1996 enthält. Es ist linguistisch auf vielfältige Weise aufbereitet und ermöglicht daher eine umfangreiche Auswertung mit Methoden des distant readings. Es ist am zertifizierten CLARIN-D-Zentrum der Universität des Saarlands beheimatet.
Magnus Huber sprach über das Old Bailey Corpus, das stenographische Mitschriften von ca. 200.000 Gerichtsverhandlungen von Londons Strafgerichtshof enthält. Es ist über einen allgemeinen, sozialhistorischen und einen linguistischen Zugang verfügbar. Jede im Korpus enthaltene Äußerung ist soziobiographisch annotiert und lässt sich mit Hilfe des linguistischen Zugangs auf verschiedene Weise durchsuchen.
Beide Korpora sind in der Community bereits bekannt. In Text+ können sie als Beispiele für aufwendig aufbereitete historische Korpora dienen, aber auch mit noch weiteren Annotationen ausgezeichnet oder mit Normdaten verknüpft werden.

Der dritte Workshopblock zum Thema „Open Science in den Literaturwissenschaften“ wurde ebenfalls von Peter Leinen moderiert. In ihm stellten Ingo Börner (Universität Potsdam) und Janis Pagel (Universität zu Köln) computerphilologisch aufbereitete Korpora vor. Im Fokus stand DraCor, eine Datenbank computerphilologisch aufbereiteter Dramentexte aus zwölf Sprachen und in 15 Subkoprora. Ein genauerer Blick wurde dabei in das deutschsprachige Dramenkorpus GerDraCor geworfen. Die Korpora von DraCor lassen sich als „programmable corpora“ bezeichnen, d.h. sie sind offen, erweiterbar, auf Linked Open Data ausgerichtet und infrastrukturell-forschungsorientiert. Sie sollen besonders dazu dienen, auf niederschwellige Art Forschungsfragen der digitalen Literaturwissenschaft zu beantworten.
Neben eine grundlegenden Einführung zu DraCor, die auch die DraCor-API umfasste, wurde praxisnah einige Anwendungen und Forschungsergebnisse aus dem Projekt QuaDramA vorgestellt. In diesem Projekt wurden u.a. Analysen zu Protagonisten, Figurenpräsenz und Figurenbeziehungen anhand der DraCor-Texte und angereichert durch manuelle Annotationen durchgeführt. Diese Annotationen konnten dann wieder an DraCor zurückgespielt werden, so dass sie nun der gesamten Community zur Verfügung stehen.
DraCor bildet damit ein anschauliches Beispiel, wie Korpora vielfältig aufbereitet werden können, für weitere Überarbeitungen offen sind und der digitalen Literaturwissenschaft als umfangreiche Datengrundlage dienen können.

Im letzten Workshopblock wurden die Erkenntnisse des Tages unter Moderation von Andreas Witt (IDS Mannheim) zusammengefasst und offene Punkte diskutiert.
Ein größeres Spannungsfeld betraf den Bereich der Annotationen. Für Einzelforschende stellt sich immer die Frage, welche Annotationen für die eigene Arbeit konkret nötig sind. Sollten Anbieter von Forschungskorpora daher besser allgemeine Annotationen oder detaillierte, tiefgehende Annotationen anbieten? Eine Möglichkeit wäre hier, mehrere Versionen der Korpora anzubieten: eine Version mit geringem Komplexitätsgrad, aber auch solche mit tiefen Annotationen für Experten. Gleichzeitig sollte es eine Infrastruktur aber leisten können, Annotationen je nach Bedarf mit wenigen Klicks ein- und auszublenden. Eine Annotation in Schichten bzw. Ebenen wäre daher wünschenswert, wobei die einzelnen Schichten je nach Fragestellung zur Verfügung gestellt werden könnten. Daher ist es besser, möglichst umfangreich zu annotieren, so dass eine möglichst maximale Zahl unterschiedlicher Fragestellungen bedient werden kann.
Sowohl für annotierte Korpora als auch für sonstige Daten und Programme müssen die Verantwortlichkeiten auch über Projektlaufzeiten hinweg geklärt sein. Eine Forschungsdateninfrastruktur kann nicht Verwaltung und Support in allen Ebenen übernehmen. Dies soll bei der Kuratierung weiterer Angebote beachtet werden, die in den nächsten Monaten im Fokus der Arbeit stehen soll. Dabei wurde die Frage aufgeworfen, wie hier auch kleinere Communities integriert werden können, deren Daten nicht derart zahlreich nachgefragt werden.
Für Folgeworkshops, die mindestens einmal jährlich stattfinden werden, sollen Rückmeldungen und Verbesserungsvorschläge aus den Communities eingeholt werden, die Text+-Ressourcen nutzen. Folgeworkshops sollen dann noch breiter beworben werden, um die Zahl der Teilnehmenden zu erhöhen.

Insgesamt konnte der Workshop zeigen, dass Text+ eine große Anzahl Korpora zu verschiedenen Fragestellungen in seinem Portfolio hat, dass diese umfangreich annotiert, nachhaltig gespeichert und für viele Anwendungsfälle nutzbar sind. Dennoch bieten auch die bestehenden Korpora noch Potenziale für weitere Auszeichnungen, um das Forschungspublikum noch zu erweitern. Außerdem gibt es Bedarf für die Erweiterung des Portfolios durch weitere Korpora. Die Text+ AG bedankt sich bei allen Teilnehmenden des Workshops für interessante Vorträge und ausführliche, fruchtbare Diskussionen.

Der inhaltliche Workshop wurde gerahmt durch zwei Führungen: Am Vorabend fand eine Führung durch die Deutsche Nationalbibliothek statt und im Anschluss an den Workshop wurde das Deutsche Exilarchiv 1933–1945 besichtigt. Beide Führungen erfreuten sich des Zuspruchs und wurden ausführlich gelobt.

PS: Am 12./13. September find das erste Text+ Plenary statt. Haben Sie sich bereits angemeldet? Anmeldung und weitere Informationen finden Sie hier: https://events.gwdg.de/event/269

Community, Forschungsdaten, Forschungsinfrastruktur, Veranstaltungen Korpora, NFDI, Text+, Textkorpora, Workshop

„Korpora in Text+: Kennenlernen und nachhaltig nutzen“ – Bericht vom 1. Community-Workshop der Text+ Task Area Collections

No. 25 - RfII 20. Juli 2022

Kommentar schreiben