Inhaltsbasierte Suche in Lehrmaterialien

0 Veröffentlicht von Robin Jegan am

Der CLARIAH-DE Tutorial Finder

Im Rahmen von CLARIAH-DE entsteht mit dem CLARIAH-DE Tutorial Finder eine Suche über geisteswissenschaftliche Lehrmaterialien, die an unterschiedlichen Stellen des Internets, wie Portalen, Internetseiten und Repositorien angeboten werden. Das wesentliche Ziel der Suchlösung besteht darin, digital arbeitenden Geisteswissenschaftlerinnen und Geisteswissenschaftlern einen integrativen Zugang zu verteilten Schulungsmaterialien bereitzustellen und im Zuge dessen auch die Sichtbarkeit und Nachnutzbarkeit relevanter Materialien zu erhöhen.

Abbildung 1: CLARIAH-DE Tutorial Finder

Für die Registrierung, Anreicherung und Aufbereitung der derzeit mehrheitlich als Text und Video vorliegenden Materialien stehen die bereits in weiteren Kontexten erprobten CLARIAH-DE Tools der Collection Registry (CR) und des Data Modeling Environments (DME) zur Verfügung [1]. Die schlussendliche Integration und Herstellung der Durchsuchbarkeit ist im Rahmen des Tutorial Finders durch eine spezifische Installation der DARIAH-DE Generic Search realisiert.

Einbindung externer Ressourcen an den Tutorial Finder

Um die Schritte aufzuzeigen, die nötig sind, um eine Sammlung in den Tutorial Finder zu integrieren, soll ein konkretes Anwendungsbeispiel dienen. Mit DARIAH-Campus wurde eine Plattform aus dem DARIAH Verbund gewählt, auf der geisteswissenschaftliche Lehr- und Lernmaterialien verfügbar gemacht werden [2]. Die Daten liegen im Fall von DARIAH-Campus als unstrukturierte Textdateien vor, die jedoch im Markdown-Format annotiert sind.

Abbildung 2: Browserdarstellung einer Ressource in DARIAH-Campus

Neben den Primärdaten der in DARIAH-Campus hinterlegten Texte können mit Hilfe einer gezielten Modellierung der Inhalte weitere, für die Suche bedeutende Informationen extrahiert werden. Darunter zählen unter anderem Metadaten, wie Autoren, Schlagworte und Zeitangaben, sprachlich unterschiedliche Bereiche und multimediale Bestandteile der Markdown-Dateien oder auch Verweise auf externe bzw. weiterführende Inhalte. Im Beispiel von DARIAH-Campus finden sich insbesondere Referenzen zu YouTube Videos, die im ursprünglichen Artikel eingebettet sind. Über eine Anfrage an die YouTube Data API werden zusätzliche Daten bereitgestellt, mit deren Hilfe der Tutorial Finder in die Lage versetzt wird, entsprechende Videos direkt bei den Suchergebnissen anzeigen zu können. Die nötigen Schritte für die Verarbeitung derartiger Ressourcen mithilfe der CR und DME werden im Folgenden grob skizziert. Eine ausführliche Anleitung, die insbesondere auf die Details im Umgang mit Ressourcen aus Git-Repositories und die Modellierung von Inhalten näher eingeht, wurde als DARIAH Working Paper veröffentlicht.

Beschreibung der Daten und der Sammlung

Um die Zugänglichkeit und Nachnutzbarkeit einer Sammlung und der beinhalteten Daten herzustellen, ist ein entsprechender Eintrag in der CR anzulegen. Im Sammlungseditor der CR werden die nötigen Informationen eingetragen, die im Falle einer Sammlung wie DARIAH-Campus die URI, den Dateityp und die anzuwendenden Zugriffsmuster umfassen. Weitere Elemente wie den Branch des jeweiligen Git-Repositories, falls es sich bei der Sammlung um ein in Git gehostetes Repository handelt, oder das zu verwendende Datenmodell können hier ebenso angegeben werden.

Abbildung 3: Datenmodell von DARIAH-Campus in der DME

Das Datenmodell spielt hierbei eine wichtige Rolle, da die in der DME verzeichneten Modelle es den weiteren Diensten in der CLARIAH-Infrastruktur, wie etwa dem Tutorial Finder, erlauben, sammlungsübergreifend in den Daten zu suchen oder diese weiter zu verarbeiten. Im konkreten Fall von DARIAH-Campus wird das mdx (DARIAH-Campus) Datenmodell verwendet, welches durch die Anwendung von Grammatiken (z. B. ParseText) und Transformationsregeln (z. B. ExtractMetadata) strukturelle Regeln der Daten expliziert und semi-strukturierte Daten gewinnt.

Interoperabilität und Integration von Daten

Die durch die Modellierung gewonnene Elementhierarchie führt zu einer angereicherten und strukturierten Repräsentation von Daten, welche nun zur Herstellung von Mappings eingesetzt werden kann. Für den im Beispiel modellierten Anwendungsfall des CLARIAH-DE Tutorial Finders besteht das derzeit gewählte Integrationsmodell (Facettierung der Suche, Filtern von Suchergebnissen, etc.) im DataCite Metadata Schema, welches um eine Möglichkeit zur Einbettung von Volltexten erweitert wurde. Der Bildschirmausschnitt in Abbildung 4 zeigt eine Übersichtsansicht des Mappings des DARIAH-Campus Datenmodells auf das erweiterte DataCite Datenmodell.

Abbildung 4: Darstellung des Mappings zweier Datenmodelle am Beispiel einer DARIAH-Campus Ressource

Durch die Anwendung des Mappings auf Beispieldaten werden diese in das Zielformat überführt. Abbildung 4 zeigt im rechten Bereich einen Ausschnitt der transformierten Daten im Zielformat.
Mit der Eintragung der Sammlung in der CR, der Modellierung der Daten und der Herstellung des Mappings stehen dem CLARIAH-DE Tutorial Finder alle Informationen zur Verfügung, die für den Abruf, die Anreicherung, die Indexierung und die Integration der DARIAH-Campus Daten erforderlich sind. Abbildung 5 präsentiert die DARIAH-Campus Ressource, die über den Tutorial Finder gesucht wurde und wie diese Daten hier dargestellt werden.

Abbildung 5: Darstellung der Suchergebnisse im Tutorial Finder, erneut am Beispiel von DARIAH-Campus

Weiterführende Links und Kontakt

Eine ausführliche Anleitung zu der in diesem Blogpost beschriebenen Integration von Daten in die CLARIAH-DE Infrastruktur mittels der Collection Registry und dem Data Modeling Environment finden Sie in Form eines DARIAH Working Papers [3]. Sollten Sie über Lehrmaterialien verfügen, die Sie gerne über den Tutorial Finder zugänglich machen wollen, zögern Sie nicht, einen entsprechenden Eintrag in der CR anzulegen oder sich an den CLARIAH-DE Support zu wenden. Dieser steht Ihnen auch bei Fragen gerne zur Verfügung.

 


 

[1] Tobias Gradl, Andreas Henrich. „Die DARIAH-DE-Föderationsarchitektur – Datenintegration im Spannungsfeld forschungsspezifischer und domänenübergreifender Anforderungen“. Bibliothek Forschung und Praxis Vol. 40 Nr. 2. S. 222-228, 2016. https://doi.org/10.1515/bfp-2016-0027

[2] Mehr Informationen zu DARIAH-Campus sind in diesem Blogpost beschrieben: https://dhd-blog.org/?p=15439

[3] Tobias Gradl, Robin Jegan. „Nachnutzung Git-basierter Sammlungen im Rahmen der Infrastrukturdienste von CLARIAH-DE“. DARIAH-DE Working Papers Nr. 42. Göttingen: DARIAH-DE, 2021. URN: urn:nbn:de:gbv:7-dariah-2021-2-5

Kommentar schreiben