Einführung in die Bild-KI (Teil 1)

In der letzten Zeit habe ich häufiger von einer KI generierte Bilder in meinen Beiträgen verwendet. Die Wissenschaft arbeitet schon eine ganze Weile an solchen Techniken und die Grundlagen für die Bild-KI reichen bis ins 19. Jahrhundert in die statistische Thermodynamik zurück. So richtig los gegangen ist das mit der Technik aber erst von knapp 10 Jahren und heute hat sich das Ganze zu etwas entwickelt, was jeder einsetzen und nutzen kann.

Um die Theorie soll es in dieser Serie nicht gehen. Wer sich das antun möchte, findet auf den weiter unten genannten Seite Verweise zu den theoretischen Artikeln oder man geht gleich hier hin:

https://arxiv.org/search/?query=stablediffusion&searchtype=all&source=header

Weniger mühsam und schneller erhellend ist eine Frage-und-Antwort-Runde mit einer KI wie Grok (X), Gemini (Google), Copilot (Microsoft), ChatGTP und weiteren. Die verfügen über die notwendigen Daten und sind auch wendig genug, auf Fragen einzugehen, wenn man was nicht verstanden hat (oder man sicher gehen möchte, dass man etwas verstanden hat). Die Kameraden kann ich generell jedem ans Herz legen, der sich aktiv mit der Technik beschäftigen will. Sie können Tipps geben, wo man etwas findet, wie man etwas bedient und – besonders wichtig, wenn man weiter vorstößt – auch etwas installiert und zum Laufen bringt.¹⁾ Und sie erstellen auch Bilder in begrenzter Anzahl.

Um mal einen ersten Eindruck zu bekommen, kann man „Bild KI Generator“ in der Suchmaschine eingeben und bekommt jede Menge Links auf Seiten, die Bildgeneratoren anbieten (oder man lässt sich von einer der o.g. KI eine Auswahl vorschlagen). Das funktioniert so, dass man beschreibt, was man auf einem Bild (oder in einem Video) sehen will und die Bild-KI generiert dazu etwas. Oder man gibt ein Bild vor und sagt, was der Generator damit machen soll. Beispielsweise die Person in eine Gruppe einfügen oder anders anziehen (oder auch ausziehen). Die Seiten haben Vor- und Nachteile:

  1. Vorteil: Die Unternehmen haben natürlich sehr leistungsfähige Hardware und große Modelle und liefern daher hoch aufgelöste gute Qualität ab.
  2. Nachteil: Man muss sich erst mal anmelden (kann man ruhig machen; so lange die keine Kontonummer haben, kann nichts passieren) und hat dann ein paar Freiversuche. Wenn man meint, jetzt hat man’s raus und will loslegen, kommt ein Fenster, in dem man zu einem Abo aufgefordert wird, d.h. dann kostet es Geld.

Wer nur gelegentliche Versuche machen will, ohne sich um irgendetwas selbest kümmern zu müssen, für den ist das vielleicht schon das Richtige. Da das Angebot groß ist, ist es ratsam, sich zu überlegen, was man eigentlich machen möchte und kann sich dann auf den Seiten umsehen, ob die das auch liefern und was es kostet. Auch hier gilt wieder: die Sprach-KI kann hierbei gut weiter helfen. Mehr kann ich dazu hier aber auch nicht sagen, weil ich solche Dienste nicht nutze.

Wenn man sich einen Überblick verschaffen will, was auf dem Gebiet überhaupt so los ist und was andere machen, kann man diese Seite besuchen:

https://civitai.com/

Hier präsentieren Hobby-KI-ler und Profis ihre Ergebnisse. Sie beschreiben, was sie im Sinn hatten und man kann meist auch die Ergebnisse – Modelle oder Workflows oder beides – herunterladen und sie in eigenen Anwendungen ausprobieren. Die größte Quelle ist die hier:

https://huggingface.co/

Insbesondere Hugging-Face bietet auch die Möglichkeit, auf „Spaces“ ein paar Sachen auszuprobieren, also ähnlich wie die kommerziellen Anbieter:

https://huggingface.co/spaces/bytedance-research/UNO-FLUX

Klar, dass da letztlich auch wieder kommerzielle Anbieter dahinter stehen, die ihre Produkte einer bestimmten Clientel anbieten. Es ist aber auch so, dass sehr viele Entwicklungen mit geringen Einschränkungen frei gegeben werden und kostenlos genutzt werden können. Das weckt Neugier und wenn es professionell werden soll, beispielsweise in Unternehmensbroschüren, haben die Entwickler ihre Kunden gefunden.

Bei Civit-AI und HuggingFace kann man sich übrigens ohne Probleme als Nutzer anmelden, ohne das Kosten entstehen. Kosten entstehen erst, wenn man selbst etwas hochladen will.

Was tun, wenn man Geschmack an der Sache findet und selbst über das hinaus, was die Spaces anbieten, aktiv werden will und mehr Kontrolle über die Bilder bekommen möchte, die man generiert? Wenn man so weit ist, muss man sich die notwendige Software eben auf Systemen installieren, über die man volle Kontrolle hat. Dazu gibt es zwei Möglichkeiten:

  1. Man installiert alles auf seinem eigenen PC. Dann fallen ein paar Investitionen an und der Stromverbrauch als laufende Kosten.
  2. Man mietet ein „Notebook“ bei Google, Amazon, Microsoft oder wem auch immer. Dann fallen Nutzungsgebühren für die genutzte Rechenzeit an, abhängig von den bestellten Hardware-Optionen.

Im Grunde ist die Arbeit auf beiden Systemen mehr oder weniger identisch: man hat eine Maschine mit einem bestimmten Betriebssystem, auf dem man nun die gewünschte Software installiert und bedient. Der Vorteil bei so einem „Notebook“ ist, dass man das virtuelle System beliebig konfigurieren kann. 64 GB Hauptspeicher und 48 GB VRAM auf einer GPU? Oder gar das Doppelte? Kein Problem, abgesehen vom Preis. Die eigene Maschine muss man in der Regel erst aufpäppeln.

Lohnt es sich, über so ein virtuelles „Notebook“ nachzudenken? Wenn man Bilder oder Videos in höchster Auflösung haben will, sicher. Man muss schon einiges in die eigene Hardware investieren, um da ran zu kommen. Ich selbst habe mich mit der Sache nicht näher beschäftigt. Wenn man beispielsweise bei Amazon-Web-Spaces nachschaut, ist das alles erst mal verwirrend. Hier kann ich auch nur empfehlen, einer (oder mehreren) Sprach-KI zu beschreiben, was man möchte, und dann deren Antworten nach zugehen.

Wie man den eigenen Rechner verwenden kann, beschreibe ich im nächsten Teil. Wer mit virtuellen gemieteten Maschinen arbeitet, wird meist ähnliche Handgriffe ausführen müssen, falls man nicht ein komplettes Paket bucht, in dem das Meiste schon drin ist. Wir lesen uns in Teil 2 wieder.


¹⁾ Wenn man schon einige Versuche gemacht hat, merkt man aber auch: die Jungs tun so, als ob sie alles wüssten, aber in manchen Fällen wissen sie es nur besser und mit ein wenig tüftelei kommt man manchmal schneller voran, als wenn man alles so macht, wie die vorschlagen. Aber das nur am Rande.