{"id":18534,"date":"2022-10-28T11:22:00","date_gmt":"2022-10-28T09:22:00","guid":{"rendered":"https:\/\/dhd-blog.org\/?p=18534"},"modified":"2022-10-28T11:26:26","modified_gmt":"2022-10-28T09:26:26","slug":"18534","status":"publish","type":"post","link":"https:\/\/dhd-blog.org\/?p=18534","title":{"rendered":"Workshop \u201cKorpusbildung\u201d der DHd-AG Zeitungen &amp; Zeitschriften \u2013 ein R\u00fcckblick"},"content":{"rendered":"\n<p><em>Von Matthias Arnold, Nanette Ri\u00dfler-Pipka und Torsten Roeder<\/em><\/p>\n\n\n\n<p>In unserer Workshopreihe zu Methoden der Forschung zu digitalisierten historischen Zeitungen und Zeitschriften haben wir im letzten November \u2013 nach mehreren Workshops zu OCR und zu Metadaten (<a href=\"https:\/\/dhd-ag-zz.github.io\/events.html\" target=\"_blank\" rel=\"noreferrer noopener\">Ank\u00fcndigungen und Berichte dazu auf der AG-Seite<\/a>) \u2013 die Veranstaltungsreihe mit einem Workshop zur Korpusbildung fortgesetzt.<\/p>\n\n\n\n<figure class=\"wp-block-image is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/lh6.googleusercontent.com\/laBVDf6CoRr1-ZZ2Z5zQP-lOxz3HjAUP3TlJ1xuWm4408i1ByJJuTlc8h341suL9YV6STUZAs7g4opqtSt78y6HP2eI8D9yNLpXXKQeV-G5OKL22EbaDC32z15joeWTebgE0nLVAmdc3_EBVSazI3kC90_kKW1kdNtUvwc44K9bYBQZToZz3O0gKUg\" alt=\"\" width=\"370\" height=\"224\" \/><\/figure>\n\n\n\n<p>Der Workshop begann mit einer Vorstellung des im Oktober 2021 gestarteten <a rel=\"noreferrer noopener\" href=\"https:\/\/www.deutsche-digitale-bibliothek.de\/newspaper\" target=\"_blank\">Deutschen Zeitungsportals<\/a> der <a rel=\"noreferrer noopener\" href=\"https:\/\/www.deutsche-digitale-bibliothek.de\/\" target=\"_blank\">Deutschen Digitalen Bibliothek<\/a> durch Lisa Landes (<a rel=\"noreferrer noopener\" href=\"https:\/\/zo-pandora.zo.uni-heidelberg.de\/BJJ\/player\/00:00:01#embed\" target=\"_blank\">Videoaufzeichnung des Vortrags<\/a>). Sie stellte das Frontend vor und demonstrierte an einer Reihe von Suchbeispielen die besonderen Funktionalit\u00e4ten des Portals, deren vier Schwerpunkte die Volltextsuche, der integrierte Viewer, verschiedene browsende Zug\u00e4nge sowie eine stabile Referenzierbarkeit darstellen.<\/p>\n\n\n\n<p>Im Zeitungsportal werden historische Best\u00e4nde und Sammlungen aus den letzten vier Jahrhunderten zusammengef\u00fchrt und frei zur Verf\u00fcgung gestellt. Dort sind 247 Zeitungen, 591.837 Zeitungsausgaben und zusammen 4.464.846 Zeitungsseiten (Stand November 2021) aus neun Bibliotheken durchsuchbar. Das Angebot soll kontinuierlich ausgebaut werden und langfristig alle digitalisierten historischen Zeitungen umfassen, die in deutschen Kultur- und Wissenseinrichtungen aufbewahrt werden.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/lh6.googleusercontent.com\/YkRqBnzX1ykV-5DqRMiZu9zFG_-6JSrorWjOEdoQMYjzOY6OZlYYADZIFSdQV85IhF16DgX8iJn73j-hXQwRqatOYgPxB3BHwZojE8efFpjsPFsX1TIihh2r9K1JcFBxftqbF2RwzmzXgEyvTw2pxWM1NoG4442LuasoGjaCpPE1ZXvQwb0PEH_e\" alt=\"\" \/><\/figure>\n\n\n\n<p><em>Beispielseite aus dem Zeitungsportal: Badische Presse vom 7. Oktober 1931<\/em><\/p>\n\n\n\n<p>Die Daten des Zeitungsportals \u2013 Bilder, Volltexte und Metadaten \u2013 k\u00f6nnen auch \u00fcber eine ausf\u00fchrlich <a href=\"https:\/\/labs.deutsche-digitale-bibliothek.de\/app\/ddbapi\/\" target=\"_blank\" rel=\"noreferrer noopener\">dokumentierte offene API<\/a> abgerufen und extern ausgewertet und weiterverarbeitet werden. Dazu ist lediglich die Erstellung eines API-Keys n\u00f6tig, f\u00fcr den im Bereich \u201e<a href=\"https:\/\/www.deutsche-digitale-bibliothek.de\/login\" target=\"_blank\" rel=\"noreferrer noopener\">Meine DDB<\/a>\u201c ein kostenfreies Nutzerkonto eingerichtet werden kann. Weitere Informationen und Antworten auf andere Fragen finden sich auf der <a href=\"https:\/\/www.deutsche-digitale-bibliothek.de\/content\/newspaper\/fragen-antworten\" target=\"_blank\" rel=\"noreferrer noopener\">entsprechenden Webseite<\/a>.<\/p>\n\n\n\n<p>Im Fokus des Workshops stand das Thema Korpusbildung in der Praxis. Daf\u00fcr konnte die AG Z&amp;Z die beiden Kolleginnen Sarah Oberbichler und Eva Pfanzelter aus dem EU-gef\u00f6rderten Horizon-2020-Projekt <a href=\"https:\/\/www.newseye.eu\/\" target=\"_blank\" rel=\"noreferrer noopener\">NewsEye: A Digital Investigator for Historical Newspapers<\/a> (2018\u20132022) gewinnen. Eva Pfanzelter startete mit theoretischen Einf\u00fchrungen am Beispiel historischer Fragestellungen aus dem Projekt mit dem Thema: <a href=\"https:\/\/zo-pandora.zo.uni-heidelberg.de\/BJM\/player\/00:00:01#embed\" target=\"_blank\" rel=\"noreferrer noopener\">Korpusbildung f\u00fcr geisteswissenschaftliche Fragestellungen<\/a>. Sarah Oberbichler schloss daran ihren Vortrag zu <a href=\"https:\/\/zo-pandora.zo.uni-heidelberg.de\/BJK\/player\/00:00:01#embed\" target=\"_blank\" rel=\"noreferrer noopener\">Methoden f\u00fcr die Verbesserung der Repr\u00e4sentativit\u00e4t von Korpora<\/a> an. Anschlie\u00dfend ging es zusammen mit den Teilnehmenden an die praktische Arbeit der Korpuserstellung, bei der das <a href=\"https:\/\/platform2.newseye.eu\/\" target=\"_blank\" rel=\"noreferrer noopener\">NewsEye-Portal<\/a> und eigens daf\u00fcr eingerichtete Zug\u00e4nge verwendet wurden.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/lh4.googleusercontent.com\/ndZvvguXyZa-AX9QIcavrokKCTqCK9UdyfB4_yb8eHe_t6F9zCEw129mmxykwe9ZFV3O9bIu28__fj-aK8TJGEnrJS-GGKfifBdNkVJaKiPPs4wodch0raFQnccfxcE1jV-YbdyaRZYFCIgLTqWE0refJE7VJ4ePWMoKas0pjIEm5Gj1SsgqVSgiOg\" alt=\"\" \/><\/figure>\n\n\n\n<p><em>Such- und Filterseite des NewsEye-Portals<\/em><\/p>\n\n\n\n<p>Mit Hilfe von Jupyter Notebooks, die via <a href=\"https:\/\/mybinder.org\/v2\/gh\/soberbichler\/Korpusbildung_Workshop\/HEAD\" target=\"_blank\" rel=\"noreferrer noopener\">myBinder<\/a> eine interaktive Arbeitsumgebung zulassen, wurden am zweiten Tag verschiedene NLP-Methoden ausprobiert. Dabei wurden konkrete Fragestellungen bez\u00fcglich der Eindeutigkeit von Suchbegriffen aufgegriffen. Anhand von Forschungsfragen bez\u00fcglich Genre oder Diskurs (beispielsweise im Bereich Medizin oder Migration) wurden verschiedene Workflows praktisch ausprobiert.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/lh6.googleusercontent.com\/oDZBjhWMXHCD_MODkFhH_6rVvFW7bhiS-qTPXMNOG0r89p3nc2Ui8kWsxpUkNJa0xY8D65_qtigMDT0YIOuobasjqcRMD1CeqoIMCKk7S8wgDrhkcZ1e7WuwGd0fBPUaG9e5lLm4SvKAle9kJH-XeCBs0qhqZRRYCqNZHpnPC_rVBI9PDMDV8uZm7w\" alt=\"\" \/><\/figure>\n\n\n\n<p><em>Interaktives Jupyter Notebook zur Korpusbildung in der MyBinder-Umgebung<\/em><\/p>\n\n\n\n<p>Insgesamt wurde deutlich, dass bei der Korpusbildung nicht nur im Bereich Zeitungen und Zeitschriften die Kontextualisierung des vorhandenen Materials und auch dessen notwendige Beschr\u00e4nkungen immer mitgedacht werden m\u00fcssen. Das betrifft zum einen die Plattform, \u00fcber die ein Korpus erstellt wird, sowie die Menge der darin verf\u00fcgbaren Materialien. Es betrifft zum anderen aber auch den Kontext des Materials selbst, wie es Amalia S. Levi in ihrem Er\u00f6ffnungsvortrag <a href=\"https:\/\/www.youtube.com\/watch?v=BhJiZ7t6s98\" target=\"_blank\" rel=\"noreferrer noopener\">Filling the Gaps: Digital Humanities as Restorative Justice<\/a> zur Jahrestagung der DHd 2022 ansprach.<\/p>\n\n\n\n<p>Ebenso haben auch Zeitungen eine Agenda, wird ein bestimmtes Zielpublikum adressiert und arbeitet ein ganzer Stab an Editoren mit, die jeweils noch eigene Ansichten einbringen. Alle Schl\u00fcsse, die man aus den Analysen eines bestimmten Korpus zieht, m\u00fcssen vor diesem spezifischen Hintergrund auf ihren inneren <em>bias<\/em> hin gepr\u00fcft, hinterfragt und transparent gemacht werden. Andernfalls besteht die Gefahr, dass die bereits den Materialien innenliegenden Asymmetrien in der eigenen Forschung wiederholt und verstetigt werden. Jedoch setzt das voraus, dass zu bestimmten Perioden \u00fcberhaupt (digitales) Material aufbewahrt und verf\u00fcgbar gemacht wird. Dies ist, wie Eva Pfanzelter zu Beginn ihres Vortrags betonte, insbesondere f\u00fcr die Zeitungsforschung und Zeitgeschichte zu den Jahrzehnten nach den 1950ern noch eine sehr gro\u00dfe Herausforderung, da diese Zeitr\u00e4ume in den Digitalisierungsstrategien derzeit noch kaum Ber\u00fccksichtigung finden. Um hier die \u201cdigital dark decades\u201d zu verhindern, ist noch viel zu tun \u2013 vielleicht kann das auch Thema eines zuk\u00fcnftigen Workshops der DHd AG Zeitungen und Zeitschriften werden.<\/p>\n\n\n\n<p><strong>Die Vortr\u00e4ge des Workshops wurden mitgeschnitten:&nbsp;<\/strong><\/p>\n\n\n\n<p>Das Deutsche Zeitungsportal (Lisa Landes):\u00a0<br><a rel=\"noreferrer noopener\" href=\"https:\/\/zo-pandora.zo.uni-heidelberg.de\/BJJ\/player\/00:00:01#embed\" target=\"_blank\">https:\/\/zo-pandora.zo.uni-heidelberg.de\/BJJ\/player\/00:00:01#embed<\/a><\/p>\n\n\n\n<p>Korpusbildung f\u00fcr geisteswissenschaftliche Fragestellungen (Eva Pfanzelter):\u00a0<br><a rel=\"noreferrer noopener\" href=\"https:\/\/zo-pandora.zo.uni-heidelberg.de\/BJM\/player\/00:00:01#embed\" target=\"_blank\">https:\/\/zo-pandora.zo.uni-heidelberg.de\/BJM\/player\/00:00:01#embed<\/a><\/p>\n\n\n\n<p>Methoden f\u00fcr die Verbesserung der Repr\u00e4sentativit\u00e4t von Korpora (Sahra Oberbichler):\u00a0<br><a rel=\"noreferrer noopener\" href=\"https:\/\/zo-pandora.zo.uni-heidelberg.de\/BJK\/player\/00:00:01#embed\" target=\"_blank\">https:\/\/zo-pandora.zo.uni-heidelberg.de\/BJK\/player\/00:00:01#embed<\/a><\/p>\n\n\n\n<p><strong>Ausgew\u00e4hlte Literatur:<\/strong><\/p>\n\n\n\n<p>Deutsche Digitale Bibliothek. \u2018Errichtung eines nationalen Zeitungsportals auf der Basis der organisatorischen und technischen Infrastruktur der Deutschen Digitalen Bibliothek (DDB) \u2013 \u201eDDB-Zeitungsportal\u201c\u2019. Deutsche Digitale Bibliothek. 2017. <a href=\"https:\/\/pro.deutsche-digitale-bibliothek.de\/downloads-links\/dfg-antrag-zeitungsportal\" data-type=\"URL\" data-id=\"https:\/\/pro.deutsche-digitale-bibliothek.de\/downloads-links\/dfg-antrag-zeitungsportal\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/pro.deutsche-digitale-bibliothek.de\/downloads-links\/dfg-antrag-zeitungsportal<\/a><\/p>\n\n\n\n<p>Deutsche Digitale Bibliothek. \u2018Ausbau und Optimierung des DDB-Zeitungsportals \u2013 (\u201eDDB-Zeitungsportal V. 2.0\u201c)\u2019. Deutsche Digitale Bibliothek. 2021. <a href=\"https:\/\/pro.deutsche-digitale-bibliothek.de\/downloads-links\/dfg-antrag-zeitungportal-2-projektphase\" data-type=\"URL\" data-id=\"https:\/\/pro.deutsche-digitale-bibliothek.de\/downloads-links\/dfg-antrag-zeitungportal-2-projektphase\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/pro.deutsche-digitale-bibliothek.de\/downloads-links\/dfg-antrag-zeitungportal-2-projektphase<\/a>\u00a0<\/p>\n\n\n\n<p>Oberbichler, Sarah, and Eva Pfanzelter. \u2018Topic-Specific Corpus Building: A Step towards a Representative Newspaper Corpus on the Topic of Return Migration Using Text Mining Methods\u2019. <em>Journal of Digital History<\/em>, no. 1 (October 2021).<a rel=\"noreferrer noopener\" href=\"https:\/\/journalofdigitalhistory.org\/en\/article\/4yxHGiqXYRbX\" target=\"_blank\"> https:\/\/journalofdigitalhistory.org\/en\/article\/4yxHGiqXYRbX<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Von Matthias Arnold, Nanette Ri\u00dfler-Pipka und Torsten Roeder In unserer Workshopreihe zu Methoden der Forschung zu digitalisierten historischen Zeitungen und Zeitschriften haben wir im letzten November \u2013 nach mehreren Workshops zu OCR und zu Metadaten (Ank\u00fcndigungen und Berichte dazu auf der AG-Seite) \u2013 die Veranstaltungsreihe mit einem Workshop zur Korpusbildung fortgesetzt. Der Workshop begann mit [&hellip;]<\/p>\n","protected":false},"author":10,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1,4,1163],"tags":[1174,937,1175,1176,804,1125,1124],"class_list":["post-18534","post","type-post","status-publish","format-standard","hentry","category-allgemein","category-veranstaltungen","category-webinar","tag-ag-zeitungen-zeitschriften","tag-analyse","tag-dhd-ags","tag-jupyter-notebook","tag-webinar","tag-zeitschriften","tag-zeitungen"],"_links":{"self":[{"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/posts\/18534","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/users\/10"}],"replies":[{"embeddable":true,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=18534"}],"version-history":[{"count":10,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/posts\/18534\/revisions"}],"predecessor-version":[{"id":18552,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/posts\/18534\/revisions\/18552"}],"wp:attachment":[{"href":"https:\/\/dhd-blog.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=18534"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=18534"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=18534"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}