Bilder mit künstlicher Intelligenz erzeugen: Mehr als nur Spielerei? Ein Test

22. Mai 2023

4 Minuten

Künstliche Intelligenz verspricht ganz neue Möglichkeiten auf der Suche nach Bildern. Mit einem gut überlegten Prompt lassen sich teilweise verblüffende Ergebnisse erzielen. Wir haben einige Tools getestet.

Bilder mit künstlicher Intelligenz erzeugen: Mehr als nur eine Spielerei? Ein TestBildquelle: Dan Asaki / Unsplash

Wer Bilder zur schlichten Veranschaulichung eines Textes benötigt, greift gern auf sogenannte Stock-Fotos zurück. In entsprechenden Bilddatenbanken finden sich Tausende Bilder, die zwar zur Ausschmückung von Inhalten, etwa auf Webseiten genutzt, aber keiner konkreten Situation zugeordnet werden können. Allerdings zeichnen sich die guten Stock-Bilder dadurch aus, dass sie vielen gefallen und dementsprechend häufig anzutreffen sind – vor allem, wenn sie aus kostenfreien Sammlungen stammen.

Einen Ausweg sollen mit künstlicher Intelligenz generierte Bilder bieten: Mit wenigen Stichworten rendert eine KI-Engine im Hintergrund einer Webseite Bilder, die so vorher noch nicht dagewesen sind. Mit der Qualität ist das allerdings so eine Sache. Zwar werden landauf, landab die neuen Möglichkeiten entweder in höchsten Tönen oder in düstersten Zukunftsszenarien dargestellt, die Ergebnisse sind jedoch aktuell noch durchwachsen, wie ein kleiner Überblick zeigt.

Prompts sind entscheidend

Während bei Anwendungen zur Erzeugung von Musik oder Videos mithilfe von künstlicher Intelligenz auf eine Vorauswahl mithilfe von Templates zur inhaltlichen Eingrenzung gesetzt wird, setzen die Bildgeneratoren auf die sogenannten Prompts. Dabei handelt es sich um eine Stichwort-Sammlung, die allerdings den richtigen Ausdruck benötigt, um zu den gewünschten Ergebnissen zu führen. Die Ergebnisse sind umso besser, je besser dieser Prompt ist. Mittlerweile wird der Prompt Writer zu einem eigenständigen Berufsbild. Für eine Vergleichbarkeit wurden verschiedenen KIs für die folgenden Bilder mit dem Prompt „inside digital online-magazin for latest tech-news in the sphere of laptop notebook smartphone mobil“ gefüttert.

Craiyon: Ganz schön krumm

Allerdings zeigt schon der erste Generator, dass man die Fähigkeiten der Künstlichen Intelligenz nicht in jedem Fall zu hoch hängen sollte: Denn wirklich brillant sind die Ergebnisse von Craiyon nicht. Zwar werden anhand der Prompts inhaltlich passende Bilder kreiert, aber die Qualität kann nicht so richtig überzeugen. Von „realistisch“ ist das Ganze weit entfernt. Die Ergebnisse der KI wirken überzeichnet, die Proportionen stimmen nicht immer. Insgesamt wirken die Darstellungen fehlerhaft.

Craiyon KI — Craiyon-Bilder sind vergleichsweise fehlerhaft

Midjourney mit viel Fantasie

Die Nutzung von Midjourney ist zwar vergleichsweise komplex, zumindest auf den ersten Blick, weil du dich zunächst auf einem Server einwählen musst. Die mit der KI erzielten Ergebnisse zeigen aber auch, warum sie eine der im Augenblick profiliertesten KIs ist. Das zeigt sich nicht nur an der Qualität der mit ihr erzeugten Bilder, die hinsichtlich ihr Proportionen überzeugen. Sie sind auch am einfallsreichsten und bereichern durchaus die Kreatität des Grafikers, dem für dieses Spielen mit den Motiven nicht nur gute Kenntnisse im Grafikprogramm abverlangt werden.

Neuroflash: Stock-Bild-Generator

Die Künstliche Intelligenz, die bei Neuroflash genutzt wird, erzeugt stimmige Bilder, auf den ersten Blick auch hinsichtlich der Proportionen im Detail überzeugen. Die Motive wirken realistisch und können klassischen Stock-Bild-Lückenfüllern durchaus Konkurrenz machen. Aufgrund des sehr vagen Prompts wirken natürlich auch die Bildergebnisse vergleichsweise generisch. Bevor du dich durch die Bildersammlungen von Pixabay und Co. wühlst, kannst du hier aber ein Experiment wagen.

Die Herkunft lässt sich auch bei den mit Neuroflash erzeugten Bildern nicht leugnen, alles in allem sind die Ergebnisse aber nicht so schlecht

Stable Diffusion

Stable Diffusion gehört ebenfalls zu den gefeierten Bildgeneratoren, die auf der Basis von künstlicher Intelligenz aus Texteingaben entsprechende Bilder produzieren. Die optischen Ergebnisse sind ähnlich wie bei Craiyon. Wer absolut fotorealistische Darstellungen erhofft, wird enttäuscht. Viel mehr sind auch hier die perspektivischen Verzerrungen nicht zu übersehen. Dafür sind die Möglichkeiten bei der Entwicklung eigener Prompts wesentlich umfassender: So lassen sich für die Bildgenerierung auch negative Stichworte definieren.

Playground AI: KIs zur Auswahl

Die Möglichkeiten und Ergebnisse von Playground AI ragen nicht unbedingt aus denen der anderen Angebote heraus. Auch hier wird die Bildgenerierung über Prompts bewerkstelligt. Mit ausschließenden Prompts können die Resultate verbessert werden, denen dennoch ihre Herkunft deutlich anzumerken ist. Der große Vorteil des Playground-Angebots besteht darin, dass nicht nur die hauseigene Playground AI zur Verfügung steht, sondern auch die KIs von Dall-E und Stable Diffusion zur Bilderzeugung genutzt werden können.

Bilder via KI sind ein Versprechen für die Zukunft

Die Möglichkeiten der Künstliche Intelligenz bei der Bildgenerierung mithilfe eines Large Language Modells (LLM) sind durchaus beeindruckend. Auch wenn nicht jede KI zu überzeugen vermag, werden teilweise dennoch verblüffende Ergebnissen geliefert. Dies gilt insbesondere für Midjourney. Aus dem Prompt entstehen fast schon kleine Kunstwerke, die mit einem klassischen Grafikprogramm viel Arbeit bedeuten würden. Unterm Strich sind die mit künstlicher Intelligenz erzeugten Bilder eine Alternative auf der Suche nach Illustration für Content.

Deine Technik. Deine Meinung.

2 KOMMENTARE

Thomas Bügel 24. Mai 2023 at 10:38

Mit Stable Diffusion (2.1) wurden schon sehr viele beeindruckende fotorealistische Bilder erstellt. Um zu verstehen, was KI-Bildgeneratoren zurzeit leisten können, wäre es wichtig sich mit der Art und Weise zu beschäftigen, wie diese Bilder überhaupt entstehen. Es liegt in der Natur dieser Technologie, dass sie komplexe einzigartige Muster, Konglomerate oder Strukturen, wie Texte, Bild-Details usw. NICHT darstellen kann. Vereinfacht gesagt versucht sie aus dem Allgemeinen das Spezielle zu extrahieren, was aber schnell zu Fehldarstellungen führen muss.
Um einen Ausweg aus diesem Dilemma zu finden, gibt es zuerst einmal den negativen Prompt, der unerwünschtes ausschließen soll, was aber auch nur bedingt funktioniert.
Wirklich funktionieren tut das Trainieren der KI in Richtung des gewünschten Ergebnisses. Dazu sind je nach Ergebnisvielfalt eine Reihe von differenzierten Bildern erforderlich, die das Bildergebnis modellhaft in verschiedenen Varianten darstellen. Da es sehr viele Parameter gibt und nicht nur die Prompt-Eingaben, die korrekt verwendet werden müssen, ist es erforderlich gerade am Anfang einiges auszuprobieren, um optimale Ergebnisse zu erzielen.
Dieser Ansatz wird vervollkommnet durch die Bild zu Bild (image2image) Bilderstellung. D.h. Ein Bild dient in Verbindung mit einem trainierten Modell den Ausgangspunkt, was (fast) zu perfekten Ergebnissen führt. Allerdings ist dieser Weg etwas für Fotografen, Grafiker oder Screen-Designer. Für die Nutzung von Stable Diffusion ist ordentliche Grafikpower auf einem eigenen PC erforderlich. Aber auch Laien können bei richtiger Verwendung der beiden Prompts mit KI Generatoren wie app.Leonardo.ai (Web-App) ganz gute Ergebnisse erzielen.

Antwort
Ai art is theft 28. Mai 2023 at 15:48

Ai art ist Diebstahl. Kein Artist hat je zugestimmt, dass ihre Copyright geschützten Werke für diesen Mist missbraucht werden. Unterstützt menschliche Kunst und keine luxus-Version von Google.

Antwort