Illustrierte Digitial Humanities – Die Vorträge der DHd2023 visualisiert mit Stable Diffusion

1 Veröffentlicht von Lukas Panzer am

Lukas Panzer (Universität Bamberg)

Dieser Beitrag ist im Rahmen meines Reisestipendiums für die DHd 2023 “Open Humanities Open Culture“ vom 13. bis 17. März 2023 entstanden. Ich möchte mich hier nochmals bei NFDI 4Culture und den Organisatoren bedanken, die mir mit dem Stipendium dieses Erlebnis ermöglicht haben.

Spätestens seit dem Release von ChatGPT von OpenAI letzten Jahres ist die Generierung von alltäglichen Inhalten mittels AI in aller Munde [7]. Darunter fallen – wie jüngst in den Medien diskutiert [12] – nicht nur Texte, wie Hausaufgaben, E-Mails oder Briefen, sondern mit Hilfe anderer Systeme auch Grafiken, die im Alltag Verwendung finden können.

Stable Diffusion ist eines der prominentesten Beispiele für bildgenerierende Modelle, das einige Monate vor dem Alleskönner ChatGPT veröffentlicht wurde und beeindruckende Ergebnisse verspricht [3, 11]. Die DHd2023 schien mir perfekt geeignet, um durch die Generierung von Illustrationen der Vorträge dieses Verfahren zu testen und zu reflektieren.

Stable Diffusion ist ein Text-zu-Bild-Modell, das anhand von Text sowohl Bilder generieren als auch verändern oder Details hinzufügen kann. Hierfür wird ein sogenanntes latentes Diffusionsmodell genutzt, eine Variante eines mehrschichtigen generativen neuronalen Netzwerks, das vom CompVis-Team der LMU München entwickelt wurde [3, 9]. Um gute Ergebnisse zu erzielen, wurde das Modell, wie auch andere ähnliche Modelle (z.B. DALL-E 2 [6]) an Milliarden von Bildern trainiert. Ein latentes Diffusionsmodell lernt – stark vereinfacht – indem es den vorhandenen Daten schrittweise Rauschen hinzufügt und danach versucht diese durch Entfernen des Rauschens wiederherzustellen. Zum Generieren von Bildern wird einem trainierten Modell dann zufällig gewähltes Rauschen in den Entrauschungsprozess gegeben [5, 9].

Die Bilder habe ich mit dem speziellen Stable Diffusion Modell “Openjourney” [8] erstellt, welches das Standardmodell mit von einer anderen AI “Midjourney” [4] generierten Bilder gefinetuned hat. So kann – wenn gewollt – einen etwas abstrakten, Fantasy-lastigen Style in die Ergebnisse einfließen. In Abbildung 1 ist an Beispielen zu sehen, wie Bilder dieses Modells im Vergleich zum Original aussehen. Als komfortables Interface habe ich ein WebUI von camenduru verwendet, der für viele verschiedene Modelle Interfaces bereitstellt [2].

Abbildung 1: Ergebnisse desselben Inputs von Stable Diffusion v1.5 (links) und Openjourney mit gewolltem Midjourney Einfluss (rechts);
Quelle: [8]

Bei der Erstellung der Bilder habe ich viele Funktionen von StableDiffusion genutzt, wie img2img und impainting, um die Ergebnisse zu verbessern und möglichst verständlich zu gestalten. Die initiale Generierung und Selektion geschahen manuell, um unangemessene und ethisch problematische Ergebnisse auszusortieren. Außerdem wurde keines der Bilder mit Hilfe von Photoshop oder ähnlichem nachbearbeitet. Grund für solche Ergebnisse ist der umstrittene LAION Datensatz, der sehr vielen solcher Modelle zu Grunde liegt [1, 9, 10].
Dieser beinhaltet eine riesige Ansammlung verschiedener Text und Bild-Daten aus dem Internet. Da diese ohne einen Filterprozess einfließen, sind unter diesen sowohl Texte als auch Bilder obszöner Art [10]. Zwar filtern neuere bildgenerierende Modelle mittlerweile unangemessene Ergebnisse, allerdings funktioniert dies noch nicht zuverlässig genug.
Zudem ist das Copyright der generierten Bilder aktuell noch eine rechtliche Grauzone [10].

Eine Auswahl der generierten Bilder:

 

Literaturverzeichnis

[1] A. Birhane, V. U. Prabhu, und E. Kahembwe, „Multimodal datasets: misogyny, pornography, and malignant stereotypes“, 2021.
[2] camenduru, „stable-diffusion-webui-colab“. https://github.com/camenduru/stable-diffusion-webui-colab (zugegriffen 14. März 2023).
[3] CompVis, „stable-diffusion · Hugging Face“. https://huggingface.co/CompVis/stable-diffusion (zugegriffen 14. März 2023).
[4] Midjourney, „Midjourney“. https://www.midjourney.com/home/ (zugegriffen 14. März 2023).
[5] R. O’Connor, „Introduction to Diffusion Models for Machine Learning“, 12. Mai 2022. https://www.assemblyai.com/blog/diffusion-models-for-machine-learning-introduction/ (zugegriffen 14. März 2023).
[6] OpenAI, „DALL·E 2“. https://openai.com/product/dall-e-2 (zugegriffen 14. März 2023).
[7] OpenAI, „Introducing ChatGPT“, 30. November 2022. https://openai.com/blog/chatgpt (zugegriffen 14. März 2023).
[8] prompthero, „openjourney · Hugging Face“. https://huggingface.co/prompthero/openjourney (zugegriffen 14. März 2023).
[9] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, und B. Ommer, „High-Resolution Image Synthesis With Latent Diffusion Models“, in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Juni 2022, S. 10684–10695.
[10] C. Schuhmann, R. Vencu, R. Beaumont, R. Kaczmarczyk, C. Mullis, A. Katta, T. Coombes, J. Jitsev, und A. Komatsuzaki, „LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs“, 2021.
[11] Stability AI, „Stable Diffusion Public Release“. https://stability.ai/blog/stable-diffusion-public-release (zugegriffen 14. März 2023).
[12] M. Wedig, „ChatGPT in der Schule: »KI ersetzt nicht den gemeinsamen Unterricht« - DER SPIEGEL“, 12. März 2023. https://www.spiegel.de/deinspiegel/chatgpt-in-der-schule-ki-ersetzt-nicht-den-gemeinsamen-unterricht-a-416fae9d-c377-41cb-94b5-d642c69da133 (zugegriffen 14. März 2023).

Allgemein   
Ein Kommentar Kommentar schreiben
  • no image

    Das war die DHd2023! | DHd-Blog

    Antworten

    […] Lukas Panzer, Illustrierte Digitial Humanities – Die Vorträge der DHd2023 visualisiert mit Stable DiffusionLink zum Blogpost […]

Kommentar schreiben