{"id":12200,"date":"2025-10-14T09:13:16","date_gmt":"2025-10-14T07:13:16","guid":{"rendered":"https:\/\/gilbertbrands.de\/blog\/?p=12200"},"modified":"2025-10-14T09:13:17","modified_gmt":"2025-10-14T07:13:17","slug":"bild-ki-basis-workflow","status":"publish","type":"post","link":"https:\/\/gilbertbrands.de\/blog\/2025\/10\/14\/bild-ki-basis-workflow\/","title":{"rendered":"Bild-KI: Basis-Workflow"},"content":{"rendered":"\n<p>Zu Bild KI habe ich schon einmal etwas geschrieben. Sucht einfach unter &#8222;Einf\u00fchrung in die Bild-KI&#8220; mit der Suchfunktion. Ab hier in loser Folge der eine oder andere Workflow. Als Arbeitsumgebung empfehle ich Comfy. Ist problemlos installierbar und zeigt auch recht anschaulich, wie das Ganze funktioniert. Ich beginne mit dem Basis-Workflow. Und der sieht so aus:<\/p>\n\n\n\n<!--more-->\n\n\n\n<figure class=\"wp-block-image size-large\"><a href=\"https:\/\/gilbertbrands.de\/blog\/wp-content\/uploads\/2025\/10\/grafik-1.png\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"438\" src=\"https:\/\/gilbertbrands.de\/blog\/wp-content\/uploads\/2025\/10\/grafik-1-1024x438.png\" alt=\"\" class=\"wp-image-12202\" srcset=\"https:\/\/gilbertbrands.de\/blog\/wp-content\/uploads\/2025\/10\/grafik-1-1024x438.png 1024w, https:\/\/gilbertbrands.de\/blog\/wp-content\/uploads\/2025\/10\/grafik-1-300x128.png 300w, https:\/\/gilbertbrands.de\/blog\/wp-content\/uploads\/2025\/10\/grafik-1-768x329.png 768w, https:\/\/gilbertbrands.de\/blog\/wp-content\/uploads\/2025\/10\/grafik-1.png 1423w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/a><\/figure>\n\n\n\n<p>&#8222;LoadCheckpoint&#8220; l\u00e4dt das Modell, mit dem gearbeitet werden soll. Wie man sieht, besteht es aus drei Komponenten: dem eigentlichen Bildmodell (MODEL), dem Textinterpreter (CLIP) und dem VAE-Decoder. Bei manchen Modellen kommen die Komponenten auch getrennt voneinander und man muss sie einzeln laden.<\/p>\n\n\n\n<p>Der Textencoder k\u00fcmmert sich zun\u00e4chst um positive und negative Spezifikationen, was man eigentlich m\u00f6chte. CLIP vom Loader wird mit den entsprechenden Eing\u00e4ngen an den Textknoten verbunden. Da alles farblich kodiert ist, sind Fehler ausgeschlossen. Die Texte (in der Regel Englisch) werden vom Textencoder in interne Maschinenanweisungen \u00fcbersetzt und an den Sampler weitergeleitet.<\/p>\n\n\n\n<p>An den Sampler werden zus\u00e4tzlich das Modell und ein leeres Bild angeschlossen. Die Modelle werden zwar mit Text\/Bildpaaren trainiert, aber dass genau die Beschreibung, die man eingibt, in den Trainingsdaten ist, ist relativ unwahrscheinlich. Der Sampler sucht nun Bildteile, die statistisch in der N\u00e4he der Textteile sind, und komponiert daraus das seiner Ansicht nach wahrscheinlichste Bild, das der Auftraggeber w\u00fcnscht. Die Komposition wird in Schritten (STEPS) verfeinert &#8211; je mehr Schritte, desto detailreicher das Bild. Zus\u00e4tzlich wird noch etwas Rauschen hinzu gef\u00fcgt (SEED), was daf\u00fcr sorgt, dass mit dem gleichen Text und anderem SEED ein etwas anderes Bild entsteht. Falls der erste Versuch misslingt, kann der Aufraggeber weitere Versuche starten, ohne etwas \u00e4ndern zu m\u00fcssen.<\/p>\n\n\n\n<p>Das Ergebnis wird dann mit dem VAE-Decoder von der maschineninternen Darstellung in ein f\u00fcr den Menschen erkennbares Bildtransformiert. Diese Kodierung ist exakt, d.h. man kann ein Bild kodieren und wieder dekodieren und erh\u00e4lt das gleiche Bild zur\u00fcck.<\/p>\n\n\n\n<p>Da die Texte nicht exakt den Trainingsdaten entsprechen, liefert der Sampler ein Bild, dass nach den Regeln der Wahrscheinlichkeitsrechnung dem Wunsch am Besten entspricht. Das muss nat\u00fcrlich nicht stimmen. Der Auftraggeber kann in diesem Fall seinen Auftragstext anpassen und versuchen, das besser zu beschreiben, was er haben m\u00f6chte. Das Modell k\u00f6nnte trotzdem auf die Idee kommen, eine Person mit 3 Armen und 4 Beinen sei erw\u00fcnscht. Dass das nicht so ist, kann man im negativen Prompt mitteilen, also &#8222;3 arme, 4 beine&#8220;, und das Modell vermeidet das. Iterativ n\u00e4hert man sich so dem gew\u00fcnschten Bild.<\/p>\n\n\n\n<p>Das muss nicht immer gl\u00fccken. Wenn die W\u00fcnsche zu weit von den Trainingsdaten entfernt sind, ist das Modell \u00fcberfordert. Wenn man ein Bild w\u00fcnscht, in dem Gozilla einen Wolkenkratzer niedertrampelt, in den Trainingsdaten Gozilla aber gar nicht auftaucht, kann das Modell das nicht. Man bekommt irgendwas, aber vermutlich Schwachsinn. Auch wenn Tante Frieda einen Tanz auff\u00fchren soll, geht das nur, wenn das Modell Tante Frieda aus den Trainingsdaten kennt.<\/p>\n\n\n\n<p>Das Einfachste ist nat\u00fcrlich, das Modell zu wechseln und eines zu suchen, dass f\u00fcr die eigenen Bed\u00fcrfnisse besser trainiert ist. Es gibt aber noch einige andere Tricks, die wir in weiteren Beitr\u00e4gen anschauen werden. Die Workflows sind nat\u00fcrlich etwas komplexer, weshalb ein Einstieg an dieser Stelle erfolgen sollte, m\u00f6chte man alles wirklich verstehen.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Zu Bild KI habe ich schon einmal etwas geschrieben. Sucht einfach unter &#8222;Einf\u00fchrung in die Bild-KI&#8220; mit der Suchfunktion. Ab hier in loser Folge der eine oder andere Workflow. Als Arbeitsumgebung empfehle ich Comfy. Ist problemlos installierbar und zeigt auch recht anschaulich, wie das Ganze funktioniert. Ich beginne mit dem Basis-Workflow. Und der sieht so &hellip; <a href=\"https:\/\/gilbertbrands.de\/blog\/2025\/10\/14\/bild-ki-basis-workflow\/\" class=\"more-link\"><span class=\"screen-reader-text\">Bild-KI: Basis-Workflow<\/span> weiterlesen <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-12200","post","type-post","status-publish","format-standard","hentry","category-allgemein"],"post_mailing_queue_ids":[],"_links":{"self":[{"href":"https:\/\/gilbertbrands.de\/blog\/wp-json\/wp\/v2\/posts\/12200","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/gilbertbrands.de\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/gilbertbrands.de\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/gilbertbrands.de\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/gilbertbrands.de\/blog\/wp-json\/wp\/v2\/comments?post=12200"}],"version-history":[{"count":1,"href":"https:\/\/gilbertbrands.de\/blog\/wp-json\/wp\/v2\/posts\/12200\/revisions"}],"predecessor-version":[{"id":12203,"href":"https:\/\/gilbertbrands.de\/blog\/wp-json\/wp\/v2\/posts\/12200\/revisions\/12203"}],"wp:attachment":[{"href":"https:\/\/gilbertbrands.de\/blog\/wp-json\/wp\/v2\/media?parent=12200"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/gilbertbrands.de\/blog\/wp-json\/wp\/v2\/categories?post=12200"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/gilbertbrands.de\/blog\/wp-json\/wp\/v2\/tags?post=12200"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}