Die Einbindung externer Werkzeuge in das TextGrid Repository

0 Veröffentlicht von Lukas Weimer am

Das TextGrid Repository

Das TextGrid Repository (TextGridRep) ist ein nachhaltiges, dauerhaftes und sicheres Digitalarchiv für geisteswissenschaftliche Forschungsdaten. Es basiert auf Open Access und orientiert sich an den FAIR-Datenprinzipien, wofür es 2020 mit dem CoreTrustSeal zertifiziert wurde. Für Forschende ist das TextGridRep sehr wertvoll, da es zitierfähige und mit Metadaten angereicherte Daten zur Verfügung stellt. Die Daten bestehen zum Großteil aus Texten, die in XML/TEI kodiert sind, aber auch aus Bildern. Der Datenbestand des TextGridRep wächst stetig weiter, da es offen für projektspezifische, wissenschaftliche Editionen sowie Forschungsdaten im Allgemeinen und dabei frei von sprachlichen Beschränkungen ist. Zur Bearbeitung und Analyse der Daten sind im TextGridRep einige Werkzeuge eingebunden.

Warum braucht es externe Werkzeuge?

Einer schnellen, unkomplizierten Annotation und computergestützten Analyse von Forschungsdaten sind Anwender*innen häufig einige Grenzen gesetzt: Zur Bearbeitung ist es oft nötig, mehrere einzelne, auf einen spezifischen Task ausgerichtete Werkzeuge herunterzuladen und diese technisch auf dem eigenen Rechner einzurichten. Da aber teilweise ortsflexibel und in größeren Teams gearbeitet wird, sind die Installationsschritte häufig mehrfach nötig. Sind sie erfolgt, kann nur lokal gerechnet werden – wenn es die eigene Rechenleistung in adäquater Zeit zulässt. Hinzu kommt ein regelmäßiger Download der Forschungsdaten, verbunden mit einem Upload derselben in die verschiedenen Tools und ein Teilen der Daten im eigenen Arbeitskreis, um Mehrfacharbeit oder Versionskonflikte zu vermeiden.

Durch die Einbindung von Werkzeugen in das TextGridRep können Installationen vermieden, Mehrfacharbeit vorgebeugt und kollaboratives Arbeiten ermöglicht werden – ohne an die Grenzen der eigenen Rechenleistung zu stoßen. Nutzende rufen lediglich den von ihnen gewünschten Text auf, wählen das für ihren Anwendungsfall benötigte Tool und können direkt mit der Analyse beginnen bzw. erhalten eine computergestützte Auswertung/Annotation. Sie profitieren davon, dass Datenressource und Tool in einer gemeinsamen Infrastruktur auffindbar und anwendbar sind.

Welche Werkzeuge sind in das TextGridRep eingebunden?

Verlinkung der externen Werkzeuge im TGRep

Derzeit sind in das TextGridRep die Voyant Tools eingebunden, die webbasiert einfache explorative und analytische Zugänge zu Texten ermöglichen, eine Annotate-Funktion zur manuellen (kollaborativen) Freitextannotation sowie das Language Resource Switchboard, das eine Vielzahl automatischer Annotations- und Analysetools zu vielfältigen Anwendungsfällen in sich vereint. Die Verwendung dieser Tools im TextGridRep ist kleinschrittig dokumentiert.

Voyant Tools

Beispielauswertungen der Voyant Tools

Mit einer Reihe von Analyseverfahren wollen die Voyant Tools Studierenden, Forschenden und der interessierten Öffentlichkeit Methoden der digitalen Geisteswissenschaften näherbringen. So ist es möglich, am konkreten Fallbeispiel zu lernen, wie einfache quantitative Analysen funktionieren und diese auf eigene Texte oder Textsammlungen anzuwenden. Die Ergebnisse können verwendet werden, um eigene Forschungsthesen zu untermauern, Resultate zu visualisieren oder um neue Forschungsthesen zu generieren.

Im TextGridRep können die Voyant Tools für ausgewählte Texte z.B. Worthäufigkeiten, -verteilungen und Kookurrenzen berechnen und visualisieren, sodass einfache stilistische Untersuchungen möglich sind. Außerdem erlauben es die Voyant Tools, mehrere im eigenen Regal gespeicherte Texte gemeinsam zu analysieren und so textübergreifende Studien vorzunehmen.

Annotation Viewer

Dokument im Annotation Viewer

Der Annotation Viewer ermöglicht die Freitextannotation von im TextGridRep vorhandenen Texten. Nutzende können direkt in den in TextGrid gespeicherten Versionen Textpassagen auszeichnen, Kommentare einfügen und Tags vergeben. Durch den Login mittels DARIAH-AAI werden sämtliche Annotationen automatisch personalisiert gespeichert. Die Annotationen werden in einer Tabelle angezeigt, die in nur einem Schritt extrahiert oder in den eigenen Bereich im TextGrid Laboratory übertragen werden können. Außerdem erlaubt der Annotation Viewer die Erstellung von Gruppen, sodass kollaborative Annotationsarbeit möglich ist.

Language Resource Switchboard

Diensteübersicht im Language Resource Switchboard (Ausschnitt)

Das Language Resource Switchboard (LR Switchboard) schließlich versammelt eine Vielzahl von Werkzeugen aus dem Bereich Natural Language Processing und linguistischer Annotation unter sich, die im Rahmen von Korpuserstellung und -aufbereitung wichtig sind. Diese Tools, die im Rahmen von CLARIAH-DE mit weiteren nationalen und internationalen Partnern entwickelt wurden, sollen einen benutzerfreundlichen Zugang zu etablierten Werkzeugen ermöglichen. Generell ist es im LR Switchboard möglich, einen Text vom eigenen Rechner hochzuladen, einen Text mittels URL zu verlinken oder einen Text direkt in das Eingabefeld zu schreiben oder zu kopieren. Im TextGridRep funktioniert diese Einbindung direkt.

Wird ein Text aus dem TextGridRep mit dem LR Switchboard geladen, schlägt dieses automatisch jene Tools vor, die sich aufgrund des Dateiformats des Textes anbieten. Die Nutzenden werden dann auf die Seiten der jeweiligen Tools verlinkt, auf denen bereits der zu analysierende Text verarbeitet oder zur Verarbeitung vorbereitet ist. Darüber hinaus ist auch die Dokumentation der jeweiligen Tools im LR Switchboard verlinkt. Das Toolinventar des LR Switchboards wird ständig erweitert.

Vorteile für die Nutzenden

Neben den oben genannten Vorteilen des orts- und rechenleistungsunabhängigen kollaborativen Arbeitens sowie der Zeitersparnis durch unnötige Toolinstallation und -einrichtung sowie dem Verzicht auf Upload und Download von Texten ist es für die Anwendenden von besonderem Nutzen, während des gesamten Arbeitens auf Seiten von TextGrid bzw. mit TextGrid assoziierten Seiten bleiben zu können. Denn so wie das TextGridRep auf Nachhaltigkeit und Sicherheit fokussiert ist, garantieren insbesondere die durch CLARIAH-DE angebotenen Dienste und Werkzeuge durch deren Selbstverpflichtung zur Nachhaltigkeit dauerhaften und stabilen Service sowie Support bei Schwierigkeiten und Problemen.

Kontakt

Bei Fragen steht das Supportteam von TextGrid jederzeit bereit: support@de.dariah.eu

Kommentar schreiben