Workshop-Bericht „Nicht-lateinische Schriften in multilingualen Umgebungen: Forschungsdaten und Digital Humanities in den Regionalstudien“

1 Veröffentlicht von Cosima Wagner am

Welche Anforderungen und Bedarfe hinsichtlich der Ausgestaltung einer (nationalen) Forschungsdateninfrastruktur bestehen aus Sicht geisteswissenschaftlicher Fächer? Diese Frage wird derzeit – nicht zuletzt auf Initiative des DHd-Verbands –  intensiv diskutiert und in Positionspapieren dokumentiert.[i]

Ein vom BMBF-Forschungsprojekt FDM_OAS-Orient[ii] am 03.07.2018 an der Campusbibliothek der Freien Universität Berlin organisierter Workshop  nahm in diesem Zusammenhang das Thema „Nicht-lateinische Schriften in multilingualen Umgebungen: Forschungsdaten und Digital Humanities in den Regionalstudien“ in den Blick.  27 Wissenschaftlerinnen und Wissenschaftler, IT-/Daten-Expertinnen und Experten, Bibliothekarinnen und Bibliothekare kamen aus ganz Deutschland[iii] zusammen, um Herausforderungen und Bedarfe der Erstellung, Verarbeitung, Analyse, Archivierung und Nachnutzung von Forschungsdaten in nicht-lateinischen Schriften im allgemeinen sowie vor dem Hintergrund der im Entstehen begriffenen Nationalen Forschungsdateninfrastruktur (NFDI) im Besonderen zu diskutieren.

Hauptanliegen des Workshops war es, die verschiedenen Problemstellungen im Umgang mit Daten in nicht-lateinischen Schriften zusammenzutragen und diesbezügliche Bedarfe von Forschungsprojekten zu bündeln. Es gab Gelegenheit, bisherige Erfahrungen mit Software und Originalschrift / nicht-lateinischen Schriften zu teilen und gemeinsam mögliche Lösungsansätze zu skizzieren.

Nach einer kurzen Einführung in den wissenschaftspolitischen Kontext von Aufgabenstellungen des Forschungsdatenmanagements (DFG Anforderung bei Drittmittelprojekten, Anschreiben von DFG und RfII an die Fachgesellschaften, sich zum Thema “FDM” zu positionieren),  wurde die Frage “Was sind Forschungsdaten in den jeweiligen Arbeitsbereichen und welche Rolle spielt der Aspekt ‘Originalschrift’/nicht-lateinische Schriften?” anhand einiger Beispiele von Projektdaten der Teilnehmenden diskutiert. Im Anschluss gab die Workshop-Methode “Pro Action Café” am Nachmittag die Möglichkeit, an vier Arbeitstischen zu den Themen Infrastruktur, Digitale Werkzeuge, Technische Anforderungen und Lehre und Weiterbildung in drei Durchläufen tiefer in die jeweilige Thematik einzusteigen und gemeinsam Herausforderungen, Bedarfe und nächste Schritte zu formulieren.

Im Folgenden sind einige wichtige Diskussionsbefunde und -ergebnisse dieser gemeinsamen Arbeit zusammengefasst:

Grundtenor des Workshops war, dass die Diskussion um das Thema “Forschungsdaten in den Geistes- und Sozialwissenschaften” in den jeweils vertretenen Fachcommunities noch nicht oder nur in Ansätzen geführt wird, Positionspapiere wie beispielsweise vom Historiker-Verband noch nicht vorliegen – geschweige denn, in Arbeit sind. Ebenso wenig bestehe bereits ein gemeinsames Verständnis dessen, was in den jeweiligen Fachcommunities/Regionalstudienfächer unter dem Begriff “Forschungsdaten” zu verstehen sei.[iv] Der Aspekt “Originalschrift / nicht-lateinische Schriften” stelle jedoch eine grundlegende Klammer für die jeweiligen Anforderungen an ein fachspezifisches Datenmanagement dar.

Die Teilnehmenden erörterten anhand von Projektbeispielen die Schwierigkeiten des Managements von heterogenen Daten (Textkorpora, Archivmaterialien, audiovisuelle Daten, Metadaten etc.) im allgemeinen sowie bei der Verwendung nicht-lateinischer Schriften im Besonderen. Software, Informationssysteme und Informationsinfrastruktur seien in der Regel nicht oder nur bedingt für die Verwendung von Originalschrift ausgelegt und könnten diese zum einen nicht abbilden, z.B. nicht mit den verschiedenen Schreibrichtungen (links – rechts; rechts – links; oben – unten) umgehen oder zum anderen diese nicht auffinden (Discovery-Retrieval Problem), da Suchalgorithmen nicht für nicht-lateinische Sprachen optimiert seien (z.B. fehlendes Mapping zwischen verschiedenen Zeichensystemen, Transkriptionen, Einbezug von Schreibvarianten sowie Tokenisierung). Ebenso gebe es in den Ostasienwissenschaften, Orientwissenschaften und Altertumswissenschaften komplexe, bzw. sehr seltene Zeichen, die (bisher) nicht in Unicode enthalten sind. Selbst wenn Unicode verwendet werde, sei häufig nur die “Basic Multilingual Plane” eingebunden, die Ebene von Unicode, in der die meisten Zeichen moderner Sprachen codiert sind. Die für die Forschung mit Quellen zur Geschichte Asiens wichtigen „seltenen“ CJK-Schriftzeichen befinden sich jedoch in der “Supplementary Ideographic Plane” und können nur abgebildet werden, wenn auch diese Ebene eingebunden wird.  Um Werkzeuge und Systeme mit nicht-lateinischen Schriften zu nutzen, müssten daher bislang häufig zeit- und kostenintensive Erweiterungen vorgenommen werden. Diese Anpassungen würden jedoch selten publiziert und seien dadurch nicht auffindbar bzw. nachnutzbar.

Weiterhin wurden Erfahrungen mit semantischen Kuratierungstechnologien wie Mustererkennung, Deep Learning, OCR und HTR erörtert, die in vielen Bereichen für Originalschrift noch gar nicht bzw. nicht gleichwertig weit entwickelt seien wie für lateinische Schriften. Druckqualität, Scanqualität und Mischung verschiedener Schriftsätze in einem Dokument minderten die OCR-Genauigkeit zusätzlich. Als ein wichtiges Desiderat wurde während des Workshops formuliert, dass zuständige IT-Mitarbeiter/innen auf die vielfältigen Herausforderungen aufmerksam gemacht werden (“raising awareness”), um existierende Werkzeuge, Infrastrukturen und Suchmaschinen zu optimieren und erarbeitete Erweiterungen und Optimierungen aktiv zu teilen. Außerdem könnten bei einer stärkeren Vernetzung von Digital-Humanities-Projekten untereinander Erfahrungswerte ausgetauscht und somit die Forschungsprozesse effizienter gestaltet werden. Diskutiert wurde in diesem Zusammenhang, ob und wie die FIDs (anwesend waren die Leiter der FIDs CrossAsia und Nahost-, Nordafrika- und Islamstudien) ein solcher Ort der “Vernetzung” bzw. zentralen Speicherung von Erkenntnissen und Tools für DH-Projekte und Originalschrift sein können.

Schließlich wurde eine mangelnde Standardisierung bei der Vergabe von Metadaten, der Verwendung/Programmierung von Schnittstellen sowie bei der Festlegung von Austauschformaten thematisiert, die bislang ebenfalls die Sichtbarkeit und Nachnutzbarkeit von Daten mindere. Einheitliche Metadatenelemente, die Mehrsprachigkeit kennzeichnen, sowie sprachliche Spezifika (z.B. verwendete Transkription) beschreibbar machen, wurden daher als genauso empfehlenswert wie standardisiertes Vokabular und Taxonomien zur inhaltlichen Beschreibung angesehen. Verwiesen wurde jedoch darauf, dass dabei nationale Standards (auch in den Regionen vor Ort, z.B. aus Japan, China, Deutschland) auf internationale Standards (wie ISO und Unicode) abgestimmt sein sollten.

Überhaupt war für die anwesenden Vertreter der Regionalstudienfächer (Ägyptologie, Altorientalistik, Japanologie, Judaistik, Sinologie), die häufig mit Partnern in und Daten aus den Regionen zusammenarbeiten, die internationale Interoperabilität ihrer Forschung(sdaten) eine Grundvoraussetzung, um einen wissenschaftlichen Diskurs mit der Fachcommunity zu führen. Multilinguale Normdaten und semantische Verknüpfung der Daten würden den Zugang zu und die Nachnutzung von Forschungsdaten in nicht-lateinischen Schriften verbessern bzw. insbesondere bei Forschungsprojekten mit Partnern in den Regionen erst ermöglichen. Angeregt wurde, verwendete Software, Packages und Workflows sowie das verwendete Metadatenschema zukünftig in den Metadaten zu dokumentieren, damit die Daten für Dritte verständlich und nachnutzbar seien. Eine diesbezügliche Leitlinie könne im Rahmen des NLS-Netzwerks erarbeitet und in die jeweiligen Fachcommunities zur weiteren Ausgestaltung getragen werden.

Wie auch die kurzen Vorstellungen der Projektdaten von den Teilnehmenden widerspiegelten, sind Forschungsdaten in den Regionalwissenschaften wegen der multi-disziplinären Ansätze (philologisch, empirisch, ethnologisch, medienwissenschaftlich, geschichtswissenschaftlich etc.) sehr heterogen. Dazu gehörten u.a. Digitalisate (z.B. von Archivmaterialien), Texte, Bilder, Filme, Audio-, Videospieledaten, dynamische Daten und Datenbanken. Insbesondere die Teilnehmenden aus den archäologischen Fächern betonten, dass viele ihrer digital erfassten Forschungsgegenstände einzige “Zeugen” von zum Teil zerstörten Kulturgütern seien und dauerhaft (über die in den Empfehlungen der guten wissenschaftlichen Praxis[v] empfohlenen 10 Jahre hinaus) als Quellen gesichert werden müssten. Langzeitarchivierung wird daher als ein wichtiger Faktor für ein qualitatives Forschungsdatenmanagement in diesen Disziplinen angesehen.

Aufgegriffen wurde zudem die Frage der “Anwendungskonservierung” von Forschungsdaten. Wie in anderen geistes- und sozialwissenschaftlichen Disziplinen entstehen auch in regionalwissenschaftlichen Forschungsprojekten nicht nur “statische” Daten, sondern nicht zuletzt dank der Zunahme an Digital Humanities Projekten auch Anwendungen wie z.B. Digitale Editionen. Diese “dynamischen” Daten könnten jedoch bislang in der Regel nicht in Repositorien an Hochschulen vor Ort gespeichert werden, daher bedürfe es neuer Lösungen für solche Anwendungskonservierungen. Hier wurde auf das Grundsatzpapier der AG Datenzentren des Verbands DHd verwiesen, in dem eine Bestandsaufnahme an derartigen, bereits bestehenden Datenzentren sowie Empfehlungen und Zukunftsperspektiven skizziert wurden.[vi]

Bezüglich des Themas Forschungsdaten-Repositorien wurde zudem festgestellt, dass die Mehrzahl von ihnen bislang noch nicht für nicht-lateinische Schriften ausgelegt sind. Eine Veröffentlichung der Daten ist i.d.R. möglich, wichtige Informationen können jedoch nicht in den vorgegebenen Metadaten abgebildet werden. Das schwerwiegendste Hindernis für die Auffindbarkeit von FD in nicht-lateinischen Schriften stellt jedoch die mangelnde multilinguale Anpassung von Suchalgorithmen in gängigen Suchmaschinen/Discovery-Systemen der Repositorien dar. Die Daten bleiben somit trotz Publikation “unsichtbar”. Dies mache die Nutzung derartiger (institutioneller) Repositorien für Forschende unattraktiv.

Schließlich wurden auch Lehre und Weiterbildung als wichtige Ansatzpunkte für die Veränderung der Forschungsdatenmanagementpraxis erörtert. Hierbei wurde festgestellt, dass die Methodenkompetenz Studierender im Bereich digitaler Werkzeuge bislang kaum vorhanden sei und FDM z.B. für Abschlussarbeiten / Promotionen wie in der Forschung auch in der Lehre bisher selten eine Rolle spiele. Ebenso bestünde ein hoher Bedarf an der Vermittlung von  Informationskompetenz und Suchstrategien im Zusammenhang mit nicht-lateinischen Schriften.

Zum Erwerb von Kompetenzen im Bereich “digitale Tools” / DH-Projekte wurde festgestellt, dass es aktuell eine Frage des persönlichen Engagements von befristet angestellten Wissenschaftlichen Mitarbeiter/innen sei, sich neben ihren eigentlichen Qualifizierungsaufgaben im Forschungsprojekt in digitale Grundlagen wie Programmiersprachen und digitale Methoden einzuarbeiten, sodass diese auch kompetent gelehrt bzw. angewendet werden können. Außerdem fehlten “safe spaces” mit restriktiven Zugangsrechten, in denen FD und digitale Werkzeuge Studierenden als “Trainingsmaterial” zur Verfügung gestellt werden können. Wünschenswert seien DH-Weiterbildungsprogramme für Fachwissenschaftler/innen, diese sollten institutionalisiert und kontinuierlich erweitert werden, um gezielt DH-Kompetenzen allgemein sowie mit Fokus auf DH-Werkzeuge für nicht-lateinischen Schriften zu erwerben. Des Weiteren wünschten sich Forschende Informationen und Beratung zu neuen Arten der Publikation von Forschungsergebnissen (enhanced publication, Open Access etc.).

Am Ende wurden Überlegungen geäußert, inwiefern Informatik-Methodenkompetenzen in den genannten Feldern bereits als fester Bestandteil von Bachelor- und Masterstudium-Curricula in den Geistes- und Sozialwissenschaften eingeführt werden können. Wichtige Inhalte wären hier: Informationskompetenz, Retrieval/Suchmethoden, Metadaten, Repositorien, TEI und digitale Werkzeuge.

Fazit

Die Teilnehmenden des Workshops waren sich einig, dass als ein wichtiger nächster Schritt eine stärkere Vernetzung untereinander erfolgen müsse, um den Wissensaustausch zu Spezifika des Managements von Daten in nicht-lateinischen Schriften und eine engere Zusammenarbeit bei der Erarbeitung von Lösungen zu fördern. Ein Format hierfür sollen weitere Workshops sein, aber auch eine Mailingliste, über die Erfahrungen mit Software und selbst entwickeltem Code oder fachspezifische Kurationsleitfäden geteilt werden können. Hierzu wurde die Mailingliste “nicht-lateinische Schriften” eingerichtet, die unter dem Link https://lists.fu-berlin.de/listinfo/nicht-lateinische-schriften allen am Netzwerk NLS Interessierten zum Abonnement offen steht.

Als eine weitere Möglichkeit, bestehende Lösungen sichtbar zu machen, ist der Aufbau einer kuratierten Webseite mit digitalen Werkzeugen und Software, die für die Arbeit mit nicht-lateinischen Schriften(weiter-) entwickelt wurden, angedacht.[vii] Eine zentrale Informationsstelle für DH-Werkzeuge und -Anwendungen würde nicht nur neue Forschungsmöglichkeiten sichtbar machen, es würde vor allem den Zeitaufwand, den Projekte bisher in der Planungsphase für Recherche nach möglicher Software und Lösungen für nicht-lateinische Schriften haben, stark reduzieren und Doppelentwicklungen vermeiden.

Es wäre außerdem denkbar, Handreichungen für die Forschungssoftwareentwicklung zu formulieren, in denen die speziellen technischen Herausforderungen, die im Zusammenhang mit nicht-lateinischen Schriften beachtet werden müssen, erläutert werden. Diese könnten durch generisch nachnutzbare Lösungen (wie z.B. Code-Segmente) ergänzt werden.

Solche Werkzeugsammlungen und Handreichungen könnten von den jeweiligen fachspezifischen Netzwerken im NLS-Netzwerk erarbeitet und von Institutionen, Fachgesellschaften und Fachinformationsdienste – z. B. auf den Portalen der beteiligten FIDs CrossAsia oder Nahost-, Nordafrika- und Islamstudien – verbreitet werden.

Schließlich sei eine Diskussion in den Fachgesellschaften über die Anerkennung der Produktion und Publikation von Software, Erweiterungen, Metadatenschemata, Mapping-Tabellen usw. als wissenschaftliche Leistung wünschenswert.

Aus dem Workshop gingen zwei Arbeitsgruppen hervor, von denen eine sich mit der Formulierung einer Vorlage für Positionspapiere von Fachgesellschaften befasst und die andere einen gemeinsamen Projektantrag im Rahmen der neuen Ausschreibung des BMBF,  Förderlinie zur “Förderung von Forschungsvorhaben zur Entwicklung und Erprobung von Kurationskriterien und Qualitätsstandards von Forschungsdaten im Zuge des digitalen Wandels im deutschen Wissenschaftssystem”, erarbeitet hat.

Als nächste Schritte sind ein weiterer Workshop im Frühsommer 2019 und ein Themenheft “Digital Humanities/ Forschungsdatenmanagement und nicht-lateinische Schriften” bei der Open Access Zeitschrift 027.7 Zeitschrift für Bibliothekskultur geplant.

Workshop-Leitung: Martin Lee

(Co-)Moderator/innen: Esther Asef, Dr. Andreas Gräff, Dr. Cosima Wagner

 

Kontakt für Interessierte am Netzwerk NLS:

Freie Universität Berlin

Campusbibliothek

E-Mail: fdm@campusbib.fu-berlin.de

Web: https://www.fu-berlin.de/sites/campusbib/bibliothek/Forschungsdatenmanagement

 

Mailingliste “nicht-lateinische Schriften”: https://lists.fu-berlin.de/listinfo/nicht-lateinische-schriften

 

Vertretene Sprachen/ Schriften (Stand: Juli 2018):

  • Akkadisch
  • Altägyptisch (alle Sprachstufen ohne Koptisch)
    • Hieratisch
    • Abnorm- oder Kursivhieratisch
    • Kursivhieroglyphen
    • Hieroglyphen
  • Arabisch
  • Bengali
  • Chinesisch (hant / traditional und hans / simplified)
  • Deutsch
  • Englisch
  • Französisch
  • Hattisch
  • Hebräisch
  • Hethitisch
  • Hindi
  • Hurritisch
  • Japanisch
  • Jiddisch
  • Koreanisch
  • Luwisch
  • Mandschu
  • /chem. Sonderzeichen
  • Nepali
  • Palaisch
  • Persisch
  • Russisch
  • Sanskrit
  • Turksprachen

Endnoten:

[i] Für einen Überblick zu vorliegenden FDM-Positionspapieren aus geisteswissenschaftlichen Fächern siehe https://forschungsinfrastrukturen.de/doku.php/positionspapiere

[ii] Förderkennzeichen: 16FDM022. Laufzeit: 1. April 2017 bis 30. September 2018. Fördermaßnahme „Erforschung des Managements von Forschungsdaten in ihrem Lebenszyklus an Hochschulen und außeruniversitären Forschungseinrichtungen“ https://www.bmbf.de/foerderungen/bekanntmachung-1233.html

Projektseite auf der Webseite der Campusbibliothek: https://www.fu-berlin.de/sites/campusbib/bibliothek/Forschungsdatenmanagement/16fdm022.html

[iii] Herkunftsorte der Teilnehmenden: Berlin, Essen, Erlangen, Frankfurt/Main, Halle, Hamburg, Heidelberg, Leipzig, Mainz, Potsdam, Tübingen, Würzburg.

[iv] Für eine kritische Analyse des Begriffs “Forschungsdaten” aus Sicht der Geisteswissenschaften siehe Fabian Cremer, Lisa Klaffki, & Timo Steyer (2018). Der Chimäre auf der Spur: Forschungsdaten in den Geisteswissenschaften. O-Bib. Das Offene Bibliotheksjournal / Herausgegeben Vom VDB, 5(2), 142-162 https://doi.org/10.5282/o-bib/2018H2S142-162

[v] Deutsche Forschungsgemeinschaft (2013): Sicherung guter wissenschaftlicher Praxis. Online verfügbar unter http://www.dfg.de/download/pdf/dfg_im_profil/reden_stellungnahmen/download/empfehlung_wiss_praxis_1310.pdf, zuletzt geprüft am 02.08.2018.

[vi] Siehe: DHd AG Datenzentren. Geisteswissenschaftliche Datenzentren im deutschsprachigen Raum – Grundsatzpapier zur Sicherung der langfristigen Verfügbarkeit von Forschungsdaten (Version 1.0). Zenodo, 03. 02. 2018. Link: http://doi.org/10.5281/zenodo.1134760

[vii] Eine beispielhafte Sammlung ist auf der Webseite der Campusbibliothek an der Freien Universität Berlin einsehbar: https://www.fu-berlin.de/sites/campusbib/bibliothek/Forschungsdatenmanagement/tools-os/index.html

Kommentar schreiben