Tagungsbericht zum <philtag n=“13″/>
Am 25. und 26. Februar 2016 wurde unter der Leitung von KALLIMACHOS, dem Zentrum für digitale Edition und quantitative Analyse der Universitätsbibliothek Würzburg, der 13. Workshop der Reihe <philtag/> abgehalten. Die etablierte Würzburger Tagungsreihe zum Einsatz digitaler Methoden in den Geistes- und Kulturwissenschaften bietet den Teilnehmern die Möglichkeit, sich über neue Trends, Projekte und Technologien im Bereich der Digital Humanities zu informieren und auszutauschen.
Einen Themenschwerpunkt in diesem Jahr bildeten OCR-Verfahren, die am 1. Seminartag vorgestellt, diskutiert und praktisch erprobt wurden. Nach der Begrüßung und der Vorstellung des KALLIMACHOS-Projekts durch Dr. Hans-Günter Schmidt (UB Würzburg) folgte mit Dr. Uwe Springmann (CIS München) der erste Kurzvortrag zum Thema OCR von Inkunabeln. Galten diese lange als ungeeignet für die automatische Texterkennung, konnten inzwischen mithilfe neuer OCR-Ansätze auf der Basis neuronaler Netze erste Erfolge verzeichnet werden. Im anschließenden Vortrag stellte Dirk Wintergrün (MPIWG Berlin) die Bedeutung von OCR-Verfahren für die Erforschung wissenschaftlicher Überlieferungstraditionen und die Erfassung wissenschaftshistorischer Aktenbestände heraus. Elisa Herrmann (OCR-D Wolfenbüttel) stellte das Koordinationsprojekt OCR-D vor, dessen Ziel es ist, die Erfassung der Drucke des 16.-19. Jahrhunderts im deutschsprachigen Raum zu optimieren und künftige Förderlinien der DFG vorzubereiten. Dr. Syed Saqib Bukhari (DFKI Kaiserslautern) gewährte einen Einblick in das am DFKI entwickelte OCR-System OCRopus++, das Erkennungsgenauigkeiten auf historischen Drucken von über 98% verspricht, bevor Dr. Josep Lladós (CVC Barcelona) den ersten Vortragsblock mit einem Bericht über die automatisierte Informationsextraktion aus historischen Urkunden, Ehestandsverzeichnissen und weiteren genealogischen Quellen und die Nutzung der so erfassten Daten für die Rekonstruktion historischer sozialer Netzwerke abschloss.
Im Nachmittagsprogramm folgte der interaktive OCR-Workshop, bei dem die im Rahmen von KALLIMACHOS etablierten Arbeitsabläufe und Tools vorgestellt wurden und durch die Teilnehmerinnen und Teilnehmer auch ausprobiert werden konnten. Zunächst stellten Felix Kirchner und Marco Dittrich die Anforderungen an die Bilderfassung und -Vorverarbeitung sowie die zu beachtenden Spezifika der Glyphen und Typeninventare historischer Drucktexte vor. Prof. Dr. Frank Puppe und Christian Reul (Lehrstuhl Informatik VI Würzburg) präsentierten jüngste Erfolge bei der automatischen Segmentierung von Textblöcken. Benedikt Budig (Lehrstuhl Informatik I Würzburg) stellte das eigens entwickelte Tool Glyph Miner für die vereinfachte Extraktion von Glyphen vor, das von den Anwesenden begeistert aufgenommen wurde. Unter der Anleitung durch die studentischen Hilfskräfte Phillip Beckenbauer und Maximilian Nöth konnten die Teilnehmerinnen und Teilnehmer die Funktionsweise der Tools Aletheia und Franken++ kennenlernen, die der Vorbereitung von Glypheninventaren für das Training von Tesseract dienen. Der Workshop endete mit der Produktion und der anschließenden Validierung der OCR-Ergebnisse.
Der Ausklang des ersten Seminartages erfolgte im Rahmen eines gemeinsamen Abendessens im Würzburger Bürgerspital, bei dem zu Speis und Trank die Eindrücke des ersten Seminartags (und mehr) lebhaft diskutiert und zahlreiche Kontakte geknüpft werden konnten.
Der 2. Seminartag behandelte aktuelle Digital Humanities-Projekte in Würzburg mit besonderem Schwerpunkt auf Textmining-Verfahren. Zunächst erläuterte Stefan Evert (FAU Erlangen-Nürnberg) die statistischen Grundlagen des stilometrischen Abstandsmaßes Burrow´s Delta, das sich v.a. für die automatische Autorschaftsattribution bewährt hat. Darauf aufbauend stellte Andreas Büttner das KALLIMACHOS-Teilprojekt Identifikation von Übersetzern vor, in dem Delta eingesetzt wird, um bislang anonyme lateinische Übersetzer von arabischen philosophischen Texten des 12. Jahrhunderts zu ermitteln. Daniel Schlör, Stefanie Popp und Christof Schöch (Nachwuchsgruppe CLiGS) befassten sich mit der Problematik der Erkennung wörtlicher Rede in französischsprachigen Romanen. Da hier für gewöhnlich keine Anführungszeichen verwendet werden, muss die wörtliche Rede anhand anderer Merkmale erkannt werden; die Projektgruppe setzt dabei auf Verfahren des maschinellen Lernens. Markus Krug stellte die Methoden und erste Ergebnisse des KALLIMACHOS-Teilprojekts Leserlenkung in Bezug auf Romanfiguren vor. Hier werden Romanfiguren automatisch annotiert und die gewonnenen Informationen zur Erstellung von Figurennetzwerken verwendet. Dabei sollen neben Eigennamen auch Koreferenzen, z.B. durch Pronomina, korrekt erkannt werden. Abschließend erläuterte Isabella Reger (KALLIMACHOS-AG Narrative Techniken), wie im Rahmen einer Sentimentanalyse der Stimmungsverlauf in einem Romantext erkannt werden kann und wie diese Information zur Klassifizierung literarischer Gattungen genutzt werden kann.
Angesichts der Publikumsstärke von zeitweise knapp 80 Personen, der intensiven, konzentrierten Arbeitsatmosphäre und des großen Zuspruchs aller Teilnehmerinnen und Teilnehmer darf der 13. <philtag/> als voller Erfolg gelten. Wir bedanken uns sehr herzlich sowohl bei den engagierten Rednerinnen und Rednern als auch beim Publikum für die zahlreiche Anregungen und die aktive Teilnahme am Tagungsprogramm. Wir freuen uns darauf, Sie bald wieder bei uns begrüßen zu dürfen.
Kommentar schreiben