{"id":18129,"date":"2022-07-19T08:44:56","date_gmt":"2022-07-19T06:44:56","guid":{"rendered":"https:\/\/dhd-blog.org\/?p=18129"},"modified":"2022-07-19T09:44:57","modified_gmt":"2022-07-19T07:44:57","slug":"korpora-in-text-kennenlernen-und-nachhaltig-nutzen-bericht-vom-1-community-workshop-der-text-task-area-collections","status":"publish","type":"post","link":"https:\/\/dhd-blog.org\/?p=18129","title":{"rendered":"&#8222;Korpora in Text+: Kennenlernen und nachhaltig nutzen&#8220; \u2013 Bericht vom 1. Community-Workshop der Text+ Task Area Collections"},"content":{"rendered":"\n\n\n<p><a href=\"https:\/\/dhd-blog.org\/app\/uploads\/2022\/01\/2020-06-29-Text-Logo-dt.png\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-medium wp-image-17359\" src=\"https:\/\/dhd-blog.org\/app\/uploads\/2022\/01\/2020-06-29-Text-Logo-dt-300x300.png\" alt=\"\" width=\"300\" height=\"300\" srcset=\"https:\/\/dhd-blog.org\/app\/uploads\/2022\/01\/2020-06-29-Text-Logo-dt-300x300.png 300w, https:\/\/dhd-blog.org\/app\/uploads\/2022\/01\/2020-06-29-Text-Logo-dt-1024x1024.png 1024w, https:\/\/dhd-blog.org\/app\/uploads\/2022\/01\/2020-06-29-Text-Logo-dt-150x150.png 150w, https:\/\/dhd-blog.org\/app\/uploads\/2022\/01\/2020-06-29-Text-Logo-dt-768x768.png 768w, https:\/\/dhd-blog.org\/app\/uploads\/2022\/01\/2020-06-29-Text-Logo-dt-1536x1536.png 1536w, https:\/\/dhd-blog.org\/app\/uploads\/2022\/01\/2020-06-29-Text-Logo-dt-50x50.png 50w, https:\/\/dhd-blog.org\/app\/uploads\/2022\/01\/2020-06-29-Text-Logo-dt.png 1667w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><\/p>\n\n\n\n<p>Am 13. Juli fand der <a href=\"https:\/\/events.gwdg.de\/event\/235\/\">erste Workshop der AG Dissemination\/Community Activities<\/a> der Text+ Task Area Collections statt. Es war gleichzeitig der erste Workshop, den Text+ in Pr\u00e4senz veranstalten konnte. \u00dcber 30 Text+-interne und \u2013externe Teilnehmende folgten dem Aufruf an die <a href=\"https:\/\/www.dnb.de\/\">Deutsche Nationalbibliothek<\/a> (DNB) nach Frankfurt am Main und bescherten dem Workshop ein diskussionsfreudiges Publikum.<\/p>\n<p>Gerahmt wurde der Workshop von Gru\u00dfworten von Frank Scholze, dem Generaldirektor der Deutschen Nationalbibliothek, sowie Elke Teich (Universit\u00e4t des Saarlands), einer wissenschaftlichen Co-Sprecherin von Text+. Au\u00dferdem hielt Lukas Weimer (SUB G\u00f6ttingen, Text+ Office) einen kurzen Einf\u00fchrungsvortrag mit Grundlageninformationen zum <a href=\"https:\/\/www.text-plus.org\/\">NFDI-Konsortium Text+<\/a>, um die \u00fcbergreifende Perspektive des Workshops darzustellen: Text+ ist ein Konsortium der <a href=\"https:\/\/www.nfdi.de\/\">Nationalen Forschungsdateninfrastruktur (NFDI)<\/a> und hat zum Ziel, sprach- und textbasierte Forschungsdaten langfristig zu erhalten und ihre Nutzung in der Wissenschaft zu erm\u00f6glichen.<\/p>\n<p>Das Workshopprogramm gliederte sich in insgesamt vier jeweils 80-min\u00fctige thematische Bl\u00f6cke.<\/p>\n<p>Der erste Workshopblock besch\u00e4ftigte sich mit dem Thema linguistisch und nicht linguistisch aufbereiteter Zeitungskorpora. Christian Mair (Universit\u00e4t Freiburg) fragte als Moderator einleitend provokativ in die Runde, ob die Besch\u00e4ftigung mit Zeitungen im 21. Jahrhundert der Besch\u00e4ftigung mit einem alten, fast toten Medium gleichkomme, das nur von \u00e4lteren Menschen rezipiert werde. Die drei Sprecher Lisa Landes (Deutsche Digitale Bibliothek), Marc Kupietz (Leibniz-Institut f\u00fcr Deutsche Sprache) und Peter Leinen (Deutsche Nationalbibliothek) bewiesen eindrucksvoll, dass es sich hierbei nicht um ein totes Medium handelt.<br \/>Lisa Landes stellte in einer Live-Pr\u00e4sentation das <a href=\"https:\/\/www.deutsche-digitale-bibliothek.de\/newspaper\">Deutsche Zeitungsportal (1671\u20131950)<\/a> vor, das Volltextsuchen, aber auch Suchen \u00fcber Titel, Ort und Jahr erlaubt. Um distant reading zu erlauben, gibt es f\u00fcr das Deutsche Zeitungsportal auch eine API. Laut Nutzendenstudie stammn \u00fcber 75% der wissenschaftlichen Nutzer des Portals aus den Geistes- und Gesellschaftswissenschaften.<br \/>Marc Kupietz stellte das <a href=\"https:\/\/www.ids-mannheim.de\/digspra\/kl\/projekte\/korpora\/\">Deutsche Referenzkorpus<\/a> (DeReKo) vor, das bereits seit 1964 am IDS Mannheim beheimatet ist. Es ist f\u00fcr die nicht-kommerzielle, sprachwissenschaftliche Nutzung bestimmt und dient der Forschungsdatengewinnung sowie der Methoden- und Werkzeugentwicklung. Um mit diesem mehrfach linguistisch annotierten, hochdimensionalen und teilweise rechtlich eingeschr\u00e4nkten Korpus rechtskonform und anwendungsgerecht zu arbeiten, stellt das IDS das Werkzeug <a href=\"https:\/\/korap.ids-mannheim.de\/\">KorAP<\/a> bereit.<br \/>Peter Leinen sprach schlie\u00dflich \u00fcber den <a href=\"https:\/\/www.dnb.de\/DE\/Professionell\/Sammeln\/sammeln_node.html\">Sammlungsauftrag der DNB<\/a>, der dazu f\u00fchrt, dass sich der Bestand der DNB j\u00e4hrlich um ca. 8 Regalkilometer physischer Medienwerke erweitert. Der j\u00e4hrliche Erhalt digitaler Werke sei dabei nochmals deutlich h\u00f6her. Dank der Urheberrechtsreform von 2018 sind die Texte der DNB nun auch legal durch text und data mining nutzbar.<br \/>Alle drei Sprecher sprachen auch \u00fcber das jeweilige Verh\u00e4ltnis zu Text+. So wird das Deutsche Zeitungsportal derzeit noch weiter ausgebaut, soll aber sp\u00e4ter auch \u00fcber die Text+ Registries auffindbar sein. In DeReKo k\u00f6nnen und sollen in Zukunft weitere, auch in Text+ entwickelte Korpora integriert werden. Au\u00dferdem ist DeReKo nat\u00fcrlich durch Text+ nutzbar, um linguistische Werkzeuge und Methoden zu entwickeln. Wichtige Facetten f\u00fcr die Weiternutzung der DNB-Daten sind z.B. Artikelseparation, xml-Formate, Volltextsuchen und Forschungsdatenstandards.<\/p>\n<p>Der zweite Workshopblock drehte sich unter der Moderation von Peter Leinen um historische Korpora. Konkret wurden dabei von J\u00f6rg Knappen (Universit\u00e4t des Saarlands) und Magnus Huber (Universit\u00e4t Gie\u00dfen) zwei englischsprachige Korpora der Late Modern Period vorgestellt. Dabei stellte J\u00f6rg Knappen das <a href=\"https:\/\/fedora.clarin-d.uni-saarland.de\/rsc\/\">Royal Society Corpus<\/a> vor, das die Zeitschriften der Royal Society of London von 1665 bis 1996 enth\u00e4lt. Es ist linguistisch auf vielf\u00e4ltige Weise aufbereitet und erm\u00f6glicht daher eine umfangreiche Auswertung mit Methoden des distant readings. Es ist am zertifizierten CLARIN-D-Zentrum der Universit\u00e4t des Saarlands beheimatet.<br \/>Magnus Huber sprach \u00fcber das <a href=\"https:\/\/fedora.clarin-d.uni-saarland.de\/oldbailey\/\">Old Bailey Corpus<\/a>, das stenographische Mitschriften von ca. 200.000 Gerichtsverhandlungen von Londons Strafgerichtshof enth\u00e4lt. Es ist \u00fcber einen allgemeinen, <a href=\"https:\/\/www.oldbaileyonline.org\/\">sozialhistorischen<\/a> und einen <a href=\"https:\/\/obc-client.de\/\">linguistischen<\/a> Zugang verf\u00fcgbar. Jede im Korpus enthaltene \u00c4u\u00dferung ist soziobiographisch annotiert und l\u00e4sst sich mit Hilfe des linguistischen Zugangs auf verschiedene Weise durchsuchen.<br \/>Beide Korpora sind in der Community bereits bekannt. In Text+ k\u00f6nnen sie als Beispiele f\u00fcr aufwendig aufbereitete historische Korpora dienen, aber auch mit noch weiteren Annotationen ausgezeichnet oder mit Normdaten verkn\u00fcpft werden.<\/p>\n<p>Der dritte Workshopblock zum Thema \u201eOpen Science in den Literaturwissenschaften\u201c wurde ebenfalls von Peter Leinen moderiert. In ihm stellten Ingo B\u00f6rner (Universit\u00e4t Potsdam) und Janis Pagel (Universit\u00e4t zu K\u00f6ln) computerphilologisch aufbereitete Korpora vor. Im Fokus stand <a href=\"https:\/\/dracor.org\/\">DraCor<\/a>, eine Datenbank computerphilologisch aufbereiteter Dramentexte aus zw\u00f6lf Sprachen und in 15 Subkoprora. Ein genauerer Blick wurde dabei in das deutschsprachige Dramenkorpus <a href=\"https:\/\/dracor.org\/ger\">GerDraCor<\/a> geworfen. Die Korpora von DraCor lassen sich als \u201eprogrammable corpora\u201c bezeichnen, d.h. sie sind offen, erweiterbar, auf Linked Open Data ausgerichtet und infrastrukturell-forschungsorientiert. Sie sollen besonders dazu dienen, auf niederschwellige Art Forschungsfragen der digitalen Literaturwissenschaft zu beantworten.<br \/>Neben eine grundlegenden Einf\u00fchrung zu DraCor, die auch die <a href=\"https:\/\/dracor.org\/doc\/api\">DraCor-API<\/a> umfasste, wurde praxisnah einige Anwendungen und Forschungsergebnisse aus dem Projekt <a href=\"https:\/\/quadrama.github.io\/\">QuaDramA<\/a> vorgestellt. In diesem Projekt wurden u.a. Analysen zu Protagonisten, Figurenpr\u00e4senz und Figurenbeziehungen anhand der DraCor-Texte und angereichert durch manuelle Annotationen durchgef\u00fchrt. Diese Annotationen konnten dann wieder an DraCor zur\u00fcckgespielt werden, so dass sie nun der gesamten Community zur Verf\u00fcgung stehen.<br \/>DraCor bildet damit ein anschauliches Beispiel, wie Korpora vielf\u00e4ltig aufbereitet werden k\u00f6nnen, f\u00fcr weitere \u00dcberarbeitungen offen sind und der digitalen Literaturwissenschaft als umfangreiche Datengrundlage dienen k\u00f6nnen.<\/p>\n<p>Im letzten Workshopblock wurden die Erkenntnisse des Tages unter Moderation von Andreas Witt (IDS Mannheim) zusammengefasst und offene Punkte diskutiert.<br \/>Ein gr\u00f6\u00dferes Spannungsfeld betraf den Bereich der Annotationen. F\u00fcr Einzelforschende stellt sich immer die Frage, welche Annotationen f\u00fcr die eigene Arbeit konkret n\u00f6tig sind. Sollten Anbieter von Forschungskorpora daher besser allgemeine Annotationen oder detaillierte, tiefgehende Annotationen anbieten? Eine M\u00f6glichkeit w\u00e4re hier, mehrere Versionen der Korpora anzubieten: eine Version mit geringem Komplexit\u00e4tsgrad, aber auch solche mit tiefen Annotationen f\u00fcr Experten. Gleichzeitig sollte es eine Infrastruktur aber leisten k\u00f6nnen, Annotationen je nach Bedarf mit wenigen Klicks ein- und auszublenden. Eine Annotation in Schichten bzw. Ebenen w\u00e4re daher w\u00fcnschenswert, wobei die einzelnen Schichten je nach Fragestellung zur Verf\u00fcgung gestellt werden k\u00f6nnten. Daher ist es besser, m\u00f6glichst umfangreich zu annotieren, so dass eine m\u00f6glichst maximale Zahl unterschiedlicher Fragestellungen bedient werden kann.<br \/>Sowohl f\u00fcr annotierte Korpora als auch f\u00fcr sonstige Daten und Programme m\u00fcssen die Verantwortlichkeiten auch \u00fcber Projektlaufzeiten hinweg gekl\u00e4rt sein. Eine Forschungsdateninfrastruktur kann nicht Verwaltung und Support in allen Ebenen \u00fcbernehmen. Dies soll bei der Kuratierung weiterer Angebote beachtet werden, die in den n\u00e4chsten Monaten im Fokus der Arbeit stehen soll. Dabei wurde die Frage aufgeworfen, wie hier auch kleinere Communities integriert werden k\u00f6nnen, deren Daten nicht derart zahlreich nachgefragt werden.<br \/>F\u00fcr Folgeworkshops, die mindestens einmal j\u00e4hrlich stattfinden werden, sollen R\u00fcckmeldungen und Verbesserungsvorschl\u00e4ge aus den Communities eingeholt werden, die Text+-Ressourcen nutzen. Folgeworkshops sollen dann noch breiter beworben werden, um die Zahl der Teilnehmenden zu erh\u00f6hen.<\/p>\n<p>Insgesamt konnte der Workshop zeigen, dass Text+ eine gro\u00dfe Anzahl Korpora zu verschiedenen Fragestellungen in seinem Portfolio hat, dass diese umfangreich annotiert, nachhaltig gespeichert und f\u00fcr viele Anwendungsf\u00e4lle nutzbar sind. Dennoch bieten auch die bestehenden Korpora noch Potenziale f\u00fcr weitere Auszeichnungen, um das Forschungspublikum noch zu erweitern. Au\u00dferdem gibt es Bedarf f\u00fcr die Erweiterung des Portfolios durch weitere Korpora. Die Text+ AG bedankt sich bei allen Teilnehmenden des Workshops f\u00fcr interessante Vortr\u00e4ge und ausf\u00fchrliche, fruchtbare Diskussionen.<\/p>\n<p>Der inhaltliche Workshop wurde gerahmt durch zwei F\u00fchrungen: Am Vorabend fand eine F\u00fchrung durch die Deutsche Nationalbibliothek statt und im Anschluss an den Workshop wurde <a href=\"https:\/\/www.dnb.de\/DE\/Ueber-uns\/DEA\/dea_node.html\">das Deutsche Exilarchiv 1933\u20131945<\/a> besichtigt. Beide F\u00fchrungen erfreuten sich des Zuspruchs und wurden ausf\u00fchrlich gelobt.<\/p>\n<p>\u00a0<\/p>\n<p>PS: Am 12.\/13. September find das erste Text+ Plenary statt. Haben Sie sich bereits angemeldet? Anmeldung und weitere Informationen finden Sie hier: <a href=\"https:\/\/events.gwdg.de\/event\/269\">https:\/\/events.gwdg.de\/event\/269<\/a><\/p>\n<p><a href=\"https:\/\/dhd-blog.org\/app\/uploads\/2022\/07\/Poster_Plenary.png\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-medium wp-image-18131\" src=\"https:\/\/dhd-blog.org\/app\/uploads\/2022\/07\/Poster_Plenary-211x300.png\" alt=\"\" width=\"211\" height=\"300\" srcset=\"https:\/\/dhd-blog.org\/app\/uploads\/2022\/07\/Poster_Plenary-211x300.png 211w, https:\/\/dhd-blog.org\/app\/uploads\/2022\/07\/Poster_Plenary.png 619w\" sizes=\"auto, (max-width: 211px) 100vw, 211px\" \/><\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Am 13. Juli fand der erste Workshop der AG Dissemination\/Community Activities der Text+ Task Area Collections statt. Es war gleichzeitig der erste Workshop, den Text+ in Pr\u00e4senz veranstalten konnte. \u00dcber 30 Text+-interne und \u2013externe Teilnehmende folgten dem Aufruf an die Deutsche Nationalbibliothek (DNB) nach Frankfurt am Main und bescherten dem Workshop ein diskussionsfreudiges Publikum. Gerahmt [&hellip;]<\/p>\n","protected":false},"author":268,"featured_media":17365,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[103,773,5,4],"tags":[1377,802,1424,480,98],"class_list":["post-18129","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-community","category-forschungsdaten","category-forschungsinfrastruktur","category-veranstaltungen","tag-korpora","tag-nfdi","tag-text-2","tag-textkorpora","tag-workshop"],"_links":{"self":[{"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/posts\/18129","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/users\/268"}],"replies":[{"embeddable":true,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=18129"}],"version-history":[{"count":3,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/posts\/18129\/revisions"}],"predecessor-version":[{"id":18133,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/posts\/18129\/revisions\/18133"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/media\/17365"}],"wp:attachment":[{"href":"https:\/\/dhd-blog.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=18129"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=18129"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=18129"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}