Einführung in die Bild-KI (Teil 3) | Gemeinheiten & Beobachtungen

Kommen wir zur Installation der Software. Zunächst einmal mit der üblichen Bedienmethode: man hat eine grafische Oberfläche, mit der man alles steuern kann. Um möglichst flexibel zu sein, bietet sich das Paket „StabilityMatrix“ an.

Dabei handelt es sich um eine Verwaltungsebene, nicht um die eigentlichen Weboberflächen für die Bildgenerierung. Angeboten werden mehr als 10 Weboberflächen, die die eigentliche Arbeit übernehmen, so genannte Packages. Die (und weitere) kann man natürlich auch selbst installieren, aber mit StabilityMatrix ist es einfacher.

Man wählt ein Package aus und installiert es. Oder auch mehrere. Sie können auch jederzeit wieder gelöscht werden, wenn man mit ihnen nicht zurecht kommt. Zwei Packages sind empfehlenswert: StableDiffusion WebUI (Automatic1111) und ComfyUI. Die erste ist die Standardoberfläche, die zweite bietet viele Steuerungsmöglichkeiten und fördert auch das Verständnis, wie was abläuft.

Hat man ein Package installiert, sollte man noch ein paar Einstellungen in den Launch-Options vornehmen: wer keine A100-GPU hat (also z.B. mit der RTX3060 anfängt), sollte „low vram“ aktivieren, damit die Modelle nicht bei jeder Gelegenheit vor ein Speicherproblem fahren. Außerdem sollte in den allgemeinen Umgebungsvariablen

PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True

vorgegeben werden. Wie ihr das auf euren System macht, erklärt euch die Sprach-KI. Wer noch keine Grafikkarte hat, sollte auch – so weit verfügbar – „Use CPU only“ aktivieren. Und schon geht’s los. Wir klicken auf „Stable Diffusion WebUI“ und nach kaum einer Tasse Kaffer öffnet sich ein Browser Fenster (bei ComfyUI muss man abwarten, bis „Open WebUI“ erscheint und das dann anklicken, weil der Browser nicht automatisch geöffnet wird). Das sieht dann so aus:

Fangen wir oben links im Bild mit Stable Diffision Checkpoint an. Das sind die Modelle, von denen man mindestens eins haben muss. Automatic1111 bringt in der Regel was mit, aber wenn das System nichts findet und meckert, muss man etwas aus dem Internet besorgen. Das ist relativ einfach. Basismodelle sind

https://huggingface.co/stable-diffusion-v1-5/stable-diffusion-v1-5

https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

Man liest sich erst mal die Beschreibung durch und klickt dann „Files and Version“ an, um sich die Modelle, die in der Regel auf die Dateierweiterung „safetensors“ (manchmal auch „ckpt“) hören. Für Automatic1111 gehören die in den Ordner

~/StabilityMatrix/Data/Models/StableDiffusion/

Keine Bange vor der Größe der Dateien. 4 – 10 GB sind normal, Flux und andere kommen auch schon mal mit 23 GB daher. Wenn es irgendwelche Probleme gibt, fragt die Sprach-KI. Immer dazu sagen, dass ihr die und die WebUI unter StabilityMatrix verwendet, damit die KI die richtigen Pfade findet.

Fangen wir mit „Text2Image“ an, das ist die aktive Arbeitsoberfläche, wenn das System startet. Es gibt zwei Eingabeblöcke, die auszufüllen sind:

Prompt – hier wird eingetragen, was man sehen will,
Negative Prompt – hier kommt das hin, was man nicht sehen will.

Die Prompts sind am Besten auf Englisch abzufassen. Also Google-Translator einschalten. 1. Versuch:

a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background, photorealistic, best quality

Ergebnis mit SD-XL:

Der Anfang sieht doch schon viel versprechend aus, oder?

Auf der Basis könnt ihr jetzt erst mal eigene Versuche machen. Dazu noch ein paar Webseiten mit hilfreichen Tips:

Stable Diffusion prompt: a definitive guide

Stable Diffusion WebUI AUTOMATIC1111: A Beginner’s Guide

Beginner’s Guide to ComfyUI

Man muss dazu sagen, dass Prompts ein kleines Problem sind. Die Modelle sind auf bestimmte Sachen trainiert und kommen mit manchen Kombinationen nicht klar, beispielsweise wenn man die Kanone eines Panzers durch einen Besen ersetzen will. Wenn man nach einigen Versuchen nicht so richtig weiterkommt, bekommt man von den Sprach-KI auch wieder Tips, wie ein passender Prompt aussehen könnte. Allerdings ohne Gewähr: manchmal wird’s besser, manchmal leider nicht.

Man kann sich auch weitere Modelle laden, die von den o.g. abgeleitet sind und von anderen Nutzern weiter trainiert worden sind. Auf HuggingFace und CivitAI findet man jede Menge und lädt sich bei Bedarf die Safetensors-Dateien herunter. Auch hier kann man die Sprach-KI nach Empfehlungen oder Details fragen. Allerdings werfen die ziemlich schnell mit Begriffen wie „Impainting“ oder „ControlNet“ um sich, worauf man sie erst mal energisch darauf hinweisen sollte, dass man die Techniken einstweilen noch nicht nutzen will.

So, erst mal viel Spaß. Wer möchte, kann auch Comfy ausprobieren. Die Turorial-Seite erklärt schon eine ganze Menge.

Download Artikel als PDF