Das Monitoring von CLARIAH-DE

1 Veröffentlicht von Stefan Buddenbohm am

Worum geht es?

Das bis Ende März 2021 geförderte BMBF-Projekt CLARIAH-DE führt die Angebote von CLARIN-D und DARIAH-DE nachhaltig zusammen, um Synergien sowie neue Nutzendengruppen zu erschließen. Gerade mit Blick auf generische Dienste oder Basisinfrastrukturkomponenten ist dies ein logischer Schritt, da so der Gesamtaufwand sinken und Ressourcen gebündelt werden können. Das gemeinsame Monitoring von CLARIAH-DE ist dafür ein mustergültiges Beispiel, das im Folgenden exemplarisch vorgestellt wird.

Wie werden Dienste von CLARIAH-DE bereitgestellt?

CLARIN-D und DARIAH-DE richten sich an Forschende aus den Geistes-, Kultur- und Sprachwissenschaften und bieten eine große Bandbreite an Diensten für den Umgang mit (digitalen) Forschungsdaten an. Diese werden im Rahmen von CLARIAH-DE zusammengeführt.

Sofern es sich bei den angebotenen Diensten um Webservices handelt, werden diese von den beteiligten Rechenzentren gehostet, d.h. betrieben, gewartet und, wenn notwendig, weiterentwickelt. Diese Leistungen gehören zum Kern einer Forschungsinfrastruktur und werden in der Regel durch die Nutzenden nicht weiter wahrgenommen. Für die Nutzenden ist eine derartige Form der Bereitstellung sehr komfortabel, denn zum einen ist die Zugänglichkeit von Webservices einfach und zum anderen wird die Funktionsfähigkeit dieser Dienste vom Anbieter aufrechterhalten.

Dagegen ist die Bereitstellung von – individuell angepassten – Werkzeugen in Eigenverantwortung der Forschungsprojekte weit verbreitet, doch der vermeintliche Vorteil kann in der Realität zum Nachteil werden: Zwar können prinzipiell eine eigene technische Infrastruktur und eigene Werkzeuge “vor Ort” für jedes einzelne Projekt aufgebaut (und Ressourcen gebunden) werden, aber zugleich stellt ein solches Vorgehen für viele Vorhaben eine große Hürde dar. 

Die gemeinsame digitale Forschungsinfrastruktur stellt somit eine niedrigschwellige und zugleich hochwertige Unterstützung für Forschungsvorhaben in den digitalen Geistes-, Kultur- und Sprachwissenschaften dar, indem sie nicht nur geeignete Hostingumgebungen für Dienste bereitstellt, sondern diese auch potenziell in ein Monitoring einbinden kann.

Warum Monitoring?

In unserem Kontext des gemeinsamen Monitorings ist aber eher ein anderer Aspekt wichtig: durch das CLARIAH-DE-Monitoring wird eine hohe Diensteverfügbarkeit sichergestellt. Solche Dienste sind bspw. der DARIAH-DE Geo-Browser, das DARIAH-DE Repository oder CLARIN Weblicht.

Die vorher unabhängig voneinander aufgebauten und betriebenen Systeme von CLARIN-D und DARIAH-DE wurden Mitte 2020 zusammengeführt und vereinheitlicht. Seither werden alle von CLARIAH-DE als Webservices angebotenen Dienste durch das gemeinsame Monitoring überwacht. 

Durch das Monitoring werden die individuellen Betriebszustände der eingebundenen Dienste (sowie der konstituierenden Komponenten) in Echtzeit überwacht und bei Veränderungen automatisch Benachrichtigungen an die technischen Betreibenden ausgelöst. Diese können dann schnellstmöglich an der Behebung einer Nichtverfügbarkeit arbeiten, so dass die Nutzenden im Idealfall von einer Störung nichts mitbekommen.

Wo dies sinnvoll ist, wird ein Teil dieser Informationen auch für die Nutzenden bereitgestellt, bspw. in Form von Betriebsmeldungen (beispielhaft für DARIAH-DE), um über Ausfälle oder geplante Wartungen zu informieren.

Ein Monitoringsystem leistet zusammengefasst folgendes:

Überwachung von Betriebszuständen der eingebundenen Komponenten in Echtzeit und dadurch ein zuverlässiges und aktuelles Lagebild für die BetreiberInnen.

Das aktuelle Lagebild ermöglicht den BetreiberInnen ein zeitnahes Reagieren und Beheben etwaiger Störungen. (Was “zeitnahes Beheben” einer Störung ist, kann bspw. in einem Service Level Agreement (SLA) definiert sein.)

Sofern der Betriebszustand eines Dienstes den Nutzenden zugänglich ist, können diese sich ebenfalls direkt informieren. Dies hat den Vorteil, dass für die Nutzenden erkennbar ist, dass an einer Behebung der Störung bereits gearbeitet wird und sie so von unnötigen Anfragen Abstand nehmen.

Im Rahmen des Monitorings können Daten erhoben werden, die für das Berichtswesen verwendet werden können, etwa zur Nutzung/Auslastung von Diensten. Diese Daten sind ebenfalls Grundlage für langfristige Analysen der Verfügbarkeit von Services und damit für die Identifikation möglicher Problemstellen bzw. benötigter Ressourcenanpassungen.

Technische Umsetzung des CLARIAH-DE-Monitorings

Das CLARIAH-DE-Monitoring basiert auf der Standardsoftware Icinga2. Die Plattform ist ein Zusammenschluss der beiden Icinga2-Anwendungen von CLARIN und DARIAH-DE. Das System wird vom CLARIAH-Zentrum Leipzig betrieben, das auch die Konfiguration des europäischen CLARIN-Monitorings betreut. Die Niedersächsische Staats- und Universitätsbibliothek Göttingen (SUB Göttingen) und die Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen (GWDG) pflegen die DARIAH Komponenten. Gehostet wird das System am Jülich Supercomputing Centre (JSC) des Forschungszentrums Jülich.

Abbildung: Beispielhafte Darstellung einiger Probes im Monitoring

Im Wesentlichen besteht das Monitoring-System aus einem Core Service, der in regelmässigen Abständen die angeschlossenen Clients und dessen Dienste auf Verfügbarkeit bzw. Einhaltung festgelegter Gütekriterien und Schemavalidität prüft. Die hierfür eingesetzten Nagios-Plugins bieten eine Reihe von Möglichkeiten. Der autorisierte Anwender oder die Anwenderin kann den aktuellen Systemstatus über eine Weboberfläche erfassen oder sich per Mail informieren lassen. In der Regel sind dies die Personen, die den Dienst entwickeln oder betreiben. Für eine bessere Übersicht werden Server in Hostgruppen und Dienste in Servicegruppen zusammengefasst.

Das gesamte Monitoring überwacht derzeit etwa 200 Hosts und die auf ihnen laufenden Dienste. Neben den üblichen Überprüfungen zur Verfügbarkeit von Services (bpsw. Prüfung der generellen Erreichbarkeit einer Webseite per HTTP-Check) werden unter anderem auch spezifische Checks für Standardschnittstellen wie SRU/CQL und OAI-PMH durchgeführt. So lässt sich prüfen, ob ein Webserver funktionsfähig ist und korrekt auf Anfragen reagiert. Viele Hosts stellen mehrere Services (typischerweise als REST-Schnittstellen) bereit, wobei für jeden dieser Services mehrere Checks angewendet werden können. So kann eine große Menge an Statusinformationen granular dargestellt werden.

Für jeden der rund 45 Hosts aus dem DARIAH-DE-Teilprojekt werden Standard-Checks u.a. für vorhandenen Speicherplatz auf der Festplatte, Auslastung der CPU, Anzahl der Prozesse oder das Ablaufdatum von TLS-Zertifikaten ausgeführt. Insgesamt werden hier allein mehrere 100 Service-Probes eingesetzt.

Für das CLARIN-Projekt werden aktuell bis zu 170 Hosts überwacht. Die entsprechende Teil-Konfiguration wird automatisch auf Basis der zentralen CLARIN Centre Registry erstellt und in festen Intervallen aktualisiert. Änderungen in der Organisationsstruktur des europäischen CLARIN-Projektes wirken sich dadurch unmittelbar auf den durch das Monitoring überprüften Servicebestand aus.

Abbildung: Kartendarstellung des Servicestatus für CLARIN-Dienste in Mitteleuropa

Eine eingeschränkte Sicht auf die Monitoringergebnisse wird auf der CLARIAH-DE-Webseite öffentlich verfügbar gemacht. Hierbei werden Informationen zu Checks, die die Sicherheit des Monitorings oder der überwachten Hosts beeinträchtigen könnten, ausgeblendet. Aktuell kann hier der Status von über 170 Services überprüft werden, so dass eine transparente Übersicht über den Servicestatus der technischen CLARIAH-DE-Infrastruktur gewährleistet ist.

Die technische Umsetzung des Monitorings erfolgte insbesondere in Hinblick auf eine möglichst flexible und skalierbare Implementierung. Um das Monitoring weiterer Projekte bzw. Teilprojekte flexibel zu ermöglichen, erfolgt die Konfiguration dynamisch auf Basis verschiedener Git-Repositorien, in denen die jeweiligen ServiceanbieterInnen die Überwachung ihrer eigenen Services flexibel konfigurieren können. Das CLARIAH-DE-Monitoring ergibt sich damit aus der Vereinigung aller Checks dieser Repositorien. 

Fragen zum Thema können gerne an support@clariah.de oder info@dariah.de.eu  gerichtet werden.

Ausblick

Das CLARIAH-DE-Monitoring hat sich als flexible Lösung zur Überwachung der technischen Infrastruktur bewährt. Weitere Arbeiten erfolgen u.a. zur verbesserten Darstellung von Montoringergebnissen durch übersichtliche Visualisierungen, zu vereinfachten Zugangsmöglichkeiten auf Basis etablierter Single-Sign-on-Verfahren (Shibboleth) sowie zur Unterstützung des Servicemonitorings für externe Interessenten.

Ein Kommentar Kommentar schreiben
  • no image

    DHdBlog: Das Monitoring von CLARIAH-DE - UNIDIGITAL

    Antworten

    […] Zum Beitrag vom 12.01.2021  […]

Kommentar schreiben