{"id":20564,"date":"2024-02-07T16:43:04","date_gmt":"2024-02-07T15:43:04","guid":{"rendered":"https:\/\/dhd-blog.org\/?p=20564"},"modified":"2024-02-07T16:44:55","modified_gmt":"2024-02-07T15:44:55","slug":"vortrag-wie-funktioniert-ocr-grundlagen-stand-der-technik-und-aktuelle-herausforderungen-clemens-neudecker-staatsbibliothek-zu-berlin","status":"publish","type":"post","link":"https:\/\/dhd-blog.org\/?p=20564","title":{"rendered":"Vortrag: Wie funktioniert OCR? Grundlagen, Stand der Technik und aktuelle Herausforderungen. Clemens Neudecker (Staatsbibliothek zu Berlin)"},"content":{"rendered":"\n<p>Texterkennung (Optical Character Recognition, OCR) ist die Technologie um aus Scans (also Bildern) von Dokumenten digitale, editierbare und durchsuchbare Volltexte zu erzeugen. Sowohl durch Digital Humanities als auch K\u00fcnstliche Intelligenz steigt der Bedarf von Wissenschaft und Forschung an digitalen Texten. Jedoch ist die Texterkennung, insbesondere f\u00fcr historische Dokumente, noch stets eine sowohl technisch als auch organisatorisch hoch komplexe Aufgabe. Der Vortrag hat daher zum Ziel die Grundlagen, technischen Verfahren und den aktuellen Stand der Entwicklungen im Bereich der OCR vorzustellen um so einen gr\u00fcndlichen \u00dcberblick \u00fcber die M\u00f6glichkeiten und Herausforderungen zu geben. Dabei werden neben Ursprung und Geschichte der OCR insbesondere die vielf\u00e4ltigen Verarbeitungsschritte in einem typischen OCR-Workflow, die besonderen Anforderungen von historischem Material sowie aktuelle Forschungsprojekte und technologische Entwicklungen im Zentrum stehen.<\/p>\n\n\n\n<p><a href=\"https:\/\/cneud.net\/\">Clemens Neudecker<\/a> arbeitet als Forscher, Projektmanager und Library Hacker an der Staatsbibliothek zu Berlin. Er ist dort unter anderem eingebunden in das umfangreiche <a href=\"https:\/\/ocr-d.de\/de\/\">Verbundprojekt OCR-D<\/a>. Seine Arbeitsschwerpunkte sind Computer Vision, Natural Language Processing, Machine Learning &amp; Artificial Intelligence und ihr Einsatz in den Bereichen Digitale Bibliotheken und Digital Humanities.<\/p>\n\n\n\n<p><strong>Der Vortrag ist Teil der Reihe \u201eWerkzeug. Zur Praxis computergest\u00fctzter Forschung in den Geistes- und Kulturwissenschaften\u201c der Kompetenzwerkstatt Digital Humanities (KDH) an der Universit\u00e4tsbibliothek der Humboldt-Universit\u00e4t zu Berlin.<\/strong><\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Hinweis zur Veranstaltung<\/h2>\n\n\n\n<p>Vortrag und Gespr\u00e4ch auf deutsch.<\/p>\n\n\n\n<p>Datum: <strong>15.02.2024, 14-16 Uhr<\/strong><\/p>\n\n\n\n<p>Ort: <strong>Jacob-und-Wilhelm-Grimm-Zentrum<\/strong>, Auditorium (Universit\u00e4tsbibliothek, Geschwister-Scholl-Stra\u00dfe 1\/3, 10117 Berlin)<\/p>\n\n\n\n<p>Die Veranstaltung findet hybrid statt. Zugangsdaten schicken wir nach Anmeldung per Mail an <a href=\"mailto:ub.makerspace@hu-berlin.de?subject=Zugangsdaten Werkzeug-Reihe\">ub.makerspace@hu-berlin.de<\/a>.<\/p>\n\n\n\n<p><a rel=\"noreferrer noopener\" href=\"https:\/\/blogs.hu-berlin.de\/furesh\/2023\/10\/31\/werkzeug-zur-praxis-computergestutzter-forschung-in-den-geistes-und-kulturwissenschaften\/#blog\" target=\"_blank\">Weitere Informationen zur Vortragsreihe <em>Werkzeug<\/em> auf der Homepage der KDH<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Texterkennung (Optical Character Recognition, OCR) ist die Technologie um aus Scans (also Bildern) von Dokumenten digitale, editierbare und durchsuchbare Volltexte zu erzeugen. Sowohl durch Digital Humanities als auch K\u00fcnstliche Intelligenz steigt der Bedarf von Wissenschaft und Forschung an digitalen Texten. Jedoch ist die Texterkennung, insbesondere f\u00fcr historische Dokumente, noch stets eine sowohl technisch als auch [&hellip;]<\/p>\n","protected":false},"author":337,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-20564","post","type-post","status-publish","format-standard","hentry","category-allgemein"],"_links":{"self":[{"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/posts\/20564","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/users\/337"}],"replies":[{"embeddable":true,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=20564"}],"version-history":[{"count":3,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/posts\/20564\/revisions"}],"predecessor-version":[{"id":20567,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=\/wp\/v2\/posts\/20564\/revisions\/20567"}],"wp:attachment":[{"href":"https:\/\/dhd-blog.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=20564"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=20564"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/dhd-blog.org\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=20564"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}