{"id":14064,"date":"2020-07-10T19:59:39","date_gmt":"2020-07-10T17:59:39","guid":{"rendered":"https:\/\/dhd-blog.org\/?p=14064"},"modified":"2020-07-10T19:59:39","modified_gmt":"2020-07-10T17:59:39","slug":"ueberlegungen-zu-harmonisierung-und-standardisierung-im-rahmen-des-projekts-clariah-de-oder-aus-der-suppenkueche-von-arbeitspaket-1-forschungsdaten-standards-und-verfahr","status":"publish","type":"post","link":"https:\/\/dhd-blog.org\/?p=14064","title":{"rendered":"\u00dcberlegungen zu Harmonisierung und Standardisierung im Rahmen des Projekts CLARIAH-DE \u2013 oder: Aus der \u201eSuppenk\u00fcche\u201c von Arbeitspaket 1: Forschungsdaten, Standards und Verfahren"},"content":{"rendered":"\n<p><span style=\"font-weight: 400;\">von Daniela Schulz<\/span><\/p>\n<p><i><span style=\"font-weight: 400;\">Anmerkung: Der nachfolgende Text gibt einen groben Einblick in aktuelle Arbeiten und ist damit als Werkstattbericht zu verstehen.<\/span><\/i><\/p>\n<p><span style=\"font-weight: 400;\">In den vergangenen Jahren haben sich die beiden Verb\u00fcnde <\/span><a href=\"https:\/\/www.clarin-d.net\/de\/\"><span style=\"font-weight: 400;\">CLARIN-D<\/span><\/a><span style=\"font-weight: 400;\"> und <\/span><a href=\"https:\/\/de.dariah.eu\/\"><span style=\"font-weight: 400;\">DARIAH-DE<\/span><\/a><span style=\"font-weight: 400;\"> als digitale Forschungsinfrastrukturen f\u00fcr Werkzeuge und Forschungsdaten in Deutschland etabliert und beispielsweise auch an der Entwicklung von Materialien f\u00fcr Lehre und Weiterbildung im Bereich der digitalen Geisteswissenschaften gearbeitet. W\u00e4hrend DARIAH-DE einen klaren Schwerpunkt auf textuellen Daten und z.B. deren Aufbereitung in Form digitaler Editionen hat, liegt der Fokus von CLARIN-D eher auf der Bereitstellung von Daten und Werkzeugen f\u00fcr linguistische Analysen. Aufbauend auf fr\u00fcheren Kooperations- und Abstimmungsprozessen, und gef\u00f6rdert durch das <\/span><a href=\"https:\/\/www.bmbf.de\/\"><span style=\"font-weight: 400;\">Bundesministerium f\u00fcr Bildung und Forschung (BMBF)<\/span><\/a><span style=\"font-weight: 400;\">, werden beide Infrastrukturen im Kontext des Projektes <\/span><a href=\"https:\/\/www.clariah.de\/\"><span style=\"font-weight: 400;\">CLARIAH-DE<\/span><\/a><span style=\"font-weight: 400;\"> (2019-2021) zusammengef\u00fchrt. Ziel ist die Herstellung von Interoperabilit\u00e4t (auch im Sinne der <\/span><a href=\"https:\/\/www.force11.org\/group\/fairgroup\/fairprinciples\"><span style=\"font-weight: 400;\">Fair Data Principles<\/span><\/a><span style=\"font-weight: 400;\">), sodass beispielsweise Daten des einen Verbundes mit Werkzeugen des anderen verwendet werden k\u00f6nnen. Die Etablierung einheitlicher Workflows sowie entsprechende Dokumentationen und Handreichungen sollen den geistes- und kulturwissenschaftlich Forschenden die Nutzung der komplexen digitalen Werkzeuge innerhalb der gemeinsamen Infrastruktur von CLARIAH-DE erleichtern. Das Projekt leistet damit konkrete Vorarbeiten zur Entwicklung und Etablierung der Nationalen Forschungsdateninfrastrukturen (NFDI).<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Das <\/span><a href=\"https:\/\/www.clariah.de\/projektbeschreibung.html#AP1\"><span style=\"font-weight: 400;\">Arbeitspaket (AP) 1 &#8222;Forschungsdaten, Standards und Verfahren&#8220;<\/span><\/a><span style=\"font-weight: 400;\"> von CLARIAH-DE erprobt zur F\u00f6rderung der Interoperabilit\u00e4t, verbreitete Konkretisierungen der Guidelines der <\/span><a href=\"https:\/\/tei-c.org\/guidelines\/\"><span style=\"font-weight: 400;\">Text Encoding Initiative (TEI)<\/span><\/a><span style=\"font-weight: 400;\"> wie das <\/span><a href=\"http:\/\/www.deutschestextarchiv.de\/doku\/basisformat\/\"><span style=\"font-weight: 400;\">Basisformat des Deutschen Textarchivs (DTABf)<\/span><\/a><span style=\"font-weight: 400;\"> als Austauschformat zu verwenden. Das DTABf ist bereits als Format f\u00fcr Textsammlungen, insbesondere f\u00fcr die Annotation von Volltexten historischer Drucke, aber auch f\u00fcr Zeitungen und einfach strukturierte Manuskripte etabliert. Nun wird evaluiert, inwieweit seine Verwendung auch auf das sehr diverse Feld der digitalen Editionen \u00fcbertragbar ist und welche Anpassungen notwendig sein k\u00f6nnten. Dahinter steht der Gedanke, dass ein Austauschformat nicht alle vormals kodierten Informationen in der urspr\u00fcnglichen Tiefe abbildet, aber dennoch als &#8222;Kernkodierung&#8220; die n\u00f6tigsten inhaltlichen und strukturellen Informationen eines Textes darstellen kann. Dies erm\u00f6glicht eine Integration der eigentlich sehr diversen Editionsdaten in Korpora mit einheitlichen und damit strengen Kodierungsvorgaben. Der Text ist dort dann auch durch jene Tools und Service nutzbar, die speziell f\u00fcr diese TEI-Anpassung entwickelt wurden.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Die Evaluation basiert auf Fallstudien ausgew\u00e4hlter digitaler Editionen. Um die Vielfalt und damit die Repr\u00e4sentativit\u00e4t der der Evaluation zugrunde gelegten Daten zu gew\u00e4hrleisten, sollen sich die Editionen, die f\u00fcr die Auswertung herangezogen werden, m\u00f6glichst deutlich voneinander unterscheiden, z.B. hinsichtlich des zugrunde liegenden Quellenmaterials, des gew\u00e4hlten Editionsmodells oder der Art der TEI-Auszeichnung. Daher wurden auf der Grundlage einer Durchsicht relevanter editionswissenschaftlicher Literatur und anhand der digitalen Editionen, die an den am Projekt beteiligten Institutionen entstehen oder entstanden sind, insgesamt sieben Kriterien entwickelt und zu einer sog. Editionsmatrix (EdMa) zusammengef\u00fchrt. Diese soll \u2013 auch \u00fcber den Zweck der konkreten Projektarbeit hinaus \u2013 eine grobe Kategorisierung digitaler Editionen im Allgemeinen erlauben. Geplant ist daher, dieses Hilfsmittel zeitnah auch der Allgemeinheit zug\u00e4nglich zu machen.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Die Evaluation des DTABf hinsichtlich seiner Eignung als Austauschformat f\u00fcr digitale Editionen im Rahmen von AP 1 wird von den folgenden Fragen geleitet:<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">Welche Ph\u00e4nomene, die in digitalen Editionen vorkommen, werden nicht durch das DTABf-Tag-Set abgedeckt?<\/span><\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">Welche Ph\u00e4nomene sind im DTABf anders kodiert als in den vorliegenden digitalen Editionen? Ist ein Mapping unproblematisch oder gibt es grundlegende (semantische) Unterschiede in der Auszeichnung?<\/span><\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">Welche Informationen werden im DTABf ben\u00f6tigt, sind aber in den digitalen Editionen nicht kodiert worden?<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400;\">Anhand des bisherigen Erkenntnisstandes lassen sich die erfassten Ph\u00e4nomene als (1) verlustfrei \u00fcbertragbar, (2) partiell \u00fcbertragbar und (3) fehlend klassifizieren. Je nach erforderlichem Aufwand und Ergebnis der Konvertierung, kann diese entweder zu einem DTABf-validen Text f\u00fchren, in dem alle vorhandenen Informationen verlustfrei in das DTABf konvertiert werden k\u00f6nnen, oder zu einem DTABf-konformen Text, der im Kern einen DTABf-validen Text darstellt, aber auch \u00fcber das DTABf hinausgehende Annotationen aufweisen kann. Diese &#8222;zus\u00e4tzlich&#8220; enthaltenen und kodierten Informationen k\u00f6nnten f\u00fcr eine Verarbeitung im Kontext des DTA ignoriert werden. Durch eine DTABf-konforme Auszeichnung wird einerseits der Spielraum der Editorinnen und Editoren in der Kodierung nicht zu stark eingeschr\u00e4nkt, andererseits bereits bei der Anlage einer Edition eine m\u00f6gliche sp\u00e4tere Aufbereitung f\u00fcr eine (Nach)Nutzung im DTA erleichtert. Somit w\u00e4re der prospektive Mehrwert einer Eingliederung in ein gr\u00f6\u00dferes Korpus \u2013 und damit auch eine bessere Sichtbarkeit der eigenen Edition \u2013 gegeben.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Bei der Entscheidung, ob eine bestimmte Edition f\u00fcr die \u00dcberf\u00fchrung geeignet ist, sind Aufwand der \u00dcberf\u00fchrung und daraus zu erwartender Mehrwert gegeneinander abzuw\u00e4gen. Mithilfe der im Kontext des CLARIAH-DE-Projekts entwickelten Editionsmatrix, ausf\u00fchrlicher Evaluationsberichte zu den einzelnen Fallbeispielen inklusive Mapping-Empfehlungen sowie entsprechender Handreichungen bzw. Schritt-f\u00fcr-Schritt-Anleitungen, die gerade entstehen, erhoffen sich die am Arbeitspaket Beteiligten, Anwenderinnen und Anwendern das n\u00f6tige R\u00fcstzeug an die Hand zu geben, ihre Editionen standardisiert und somit m\u00f6glichst nachnutzbar aufzubereiten (oder direkt anzulegen).\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400;\">In ausf\u00fchrlicherer Form h\u00e4tten die aktuellen Arbeiten des AP eigentlich in diesem Monat im Rahmen der <\/span><a href=\"https:\/\/dh2020.adho.org\/\"><span style=\"font-weight: 400;\">DH2020<\/span><\/a><span style=\"font-weight: 400;\"> in Ottawa (jetzt als <\/span><a href=\"https:\/\/dh2020.hcommons.org\/\"><span style=\"font-weight: 400;\">DH2020<\/span><\/a><span style=\"font-weight: 400;\">v) erstmals einer breiteren \u00d6ffentlichkeit pr\u00e4sentiert und zur Diskussion gestellt werden sollen. Der Beitrag mit dem Titel &#8222;Crossroads, shortcuts, detours, bypasses or dead ends? Attempts to standardization and interoperability within the context of the CLARIAH-DE project&#8220; wird in absehbarer Zeit im Book of Abstracts zur Veranstaltung nachzulesen sein. Eine weitere Pr\u00e4sentation zum Thema &#8222;Criteria for Recording and Categorizing Scholarly Digital Editions&#8220; beim zwischenzeitlich in den November verschobenen <\/span><a href=\"https:\/\/www.dariah.eu\/event\/dariah-annual-event-2020\/\"><span style=\"font-weight: 400;\">DARIAH Annual Event 2020<\/span><\/a><span style=\"font-weight: 400;\"> ist geplant.<\/span><\/p>\n","protected":false},"excerpt":{"rendered":"<p>von Daniela Schulz Anmerkung: Der nachfolgende Text gibt einen groben Einblick in aktuelle Arbeiten und ist damit als Werkstattbericht zu verstehen. In den vergangenen Jahren haben sich die beiden Verb\u00fcnde CLARIN-D und DARIAH-DE als digitale Forschungsinfrastrukturen f\u00fcr Werkzeuge und Forschungsdaten in Deutschland etabliert und beispielsweise auch an der Entwicklung von Materialien f\u00fcr Lehre und Weiterbildung [&hellip;]<\/p>\n","protected":false},"author":182,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-14064","post","type-post","status-publish","format-standard","hentry","category-allgemein"],"_links":{"self":[{"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/posts\/14064","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/users\/182"}],"replies":[{"embeddable":true,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=14064"}],"version-history":[{"count":2,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/posts\/14064\/revisions"}],"predecessor-version":[{"id":14066,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/posts\/14064\/revisions\/14066"}],"wp:attachment":[{"href":"https:\/\/dhd-blog.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=14064"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=14064"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=14064"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}