Stable Diffusion 3.5 – ein erster Eindruck

Stefan

Künstliche Intelligenz

Aktualisiert am: 23.10.2024

Lesezeit 4 Minute(n)

Stable Diffusion 3.5 – ein erster Eindruck

Stability AI hat seine neue Modellreihe Stable Diffusion 3.5 veröffentlicht. Ich habe ein paar erste Bilder erzeugt und damit experimentiert.

Es gibt endlich wieder News von Stability AI, dem Unternehmen hinter Stable Diffusion. Seit heute ist das neue Modell „Stable Diffusion 3.5“ verfügbar.

Genauer gesagt gibt es hier gleich drei Modelle, die angebotenen werden.

Das Stable Diffusion Large Modell mit 8 Milliarden Parameter und einer Auflösung von 1 Megapixel
Eine definierter Version des Large Models (Stable Diffusion Turbo), welches hauptsächlich schnell sein soll
Und ein Medium Modell, welches 2.5 Milliarden Parameter enthält und Bilder mit bis zu 2 Megapixel liefern soll

Stable Diffusion Modelle können lokal auf deinem System installiert werden und sind also OpenSource. Nebst vielen anderen und kostenpflichtigen Modellen wie zb. „Flux“ war und ist Stable Diffusion schon immer ein Pionier in der Demokratisierung von Bildgeneratoren.

Ich habe mit dem Large Modell auf replicate ein wenig experimentiert, insbesondere die Darstellung von Text und der Grad an Realismus hat mich interessiert.

Da ich vor ein paar Tagen den Klassiker Zurück in die Zukunft Teil 1 im Kino gesehen habe, war ich noch etwas angehaucht davon und habe mal eine weibliche Version von McFly vor einem DeLorean generieren lassen.

Hier ein paar Ergebnisse aus Stable Diffusion 3.5

Stable Diffusion 3.5 Prompt: full body shot of a girl, she is looking like a female version of marty mcfly, she has a glowing nine-panel sign in her hand on that reads “Stable Diffusion 3.5”, in the background is a delorean, #sunset light #photorealistic #photo #24mm

Stable Diffusion 3.5 Test — replicate prediction axr7zjrxa9rm40cjq2avb5ja2w

Die Parameter-Einstellungen über Replicate sind begrenzt, das ist wichtig zu wissen. Allerdings hat das Modell etwas Schwierigkeiten, die Schrift korrekt auf dem Schild darzustellen. Die Kohärenz zwischen Prompt und Ausgabe scheint mir nicht so hoch zu sein, wie bei den führenden Modellen wie Flux oder MidJourney. Auch ist der Text teilweise auf dem DeLorean vorn am Grill zu finden, dort müsste eigentlich das DMC Logo auftauchen.

Ein Vergleich des folgenden Prompts mit MidJourney sieht so aus:

replicate prediction b7ggfxw4cdrm40cjq1zrsx836w

Stable Diffusion 3.5 Prompt: full body shot of a girl, she is looking like a female version of marty mcfly, in the background is a delorean, sunset light, photorealistic, 24mm, f4

stan87. full body shot of a girl she is looking like a female 112e622c 8134 47ef a5dd 03e7e2a21fd6 0

MidJourney 6.1 Prompt: full body shot of a girl, she is looking like a female version of marty mcfly, in the background is a delorean, sunset light, photorealistic, 24mm, f4 --ar 3:2 --style raw --v 6.1 --stylize 1000

Die Ergebnisse sind schon deutlich, während MidJourney etwas zu plastisch wirkt (war auch style 1000) sind die Ergebnisse vom SD 3.5 eher in Richtung „Analog“.

Ein paar Prompts, die ich probiert habe, in Stable Diffusion 3.5

Der Grad an Fotorealismus ist aber schon sehr hoch. Hier mal ein paar andere Beispiele dafür. Das Erste finde ich zb. besonders gut gelungen und wirkt sehr fotorealistisch.

replicate prediction kvnrcnqjcxrm60cjq14rh5bj94

SD 3.5 Prompt: a portrait of a man standing in front of a white wall. Natural sunlight is hidden his head.  he is looking  to the right, looking towards something beyond the frame

replicate prediction 27yfjx5jbhrm60cjq0zrkjevb0

SD 3.5 Prompt: a men is walking down a street in the 1980, 35mm, analog film look, classic chrome

replicate prediction yhh9x3wc1drm20cjq2zrbyw6fr

SD 3.5 Prompt: Portrait photo of a man in his mid 20s, he is sitting on a bench wearing blue jeans and a red plaid linen shirt, his gaze wanders into the distance, morning light, soft shadows

Die Interpretation des Prompts hat in diesem Versuch sehr gut funktioniert. Auch die Erfassung der natürlichen Beschreibung der Szene klappt hervorragend. Den Fotorealismus würde ich mit einer 8/10 bewerten.

Für das folgende Bild hab den original Prompt von Stable Diffusion und dem Titelbild zum neuen Modell leicht verändert. Hier hat mich die doch etwas zu freizügige Interpretation überrascht:

replicate prediction 7fpdy2s5dsrm40cjq0zbj7jpyr

SD 3.5 Prompt: ~*~aesthetic~*~ #boho #fashion, full-body 30-something woman laying on beach sand, candid pose, overlay reads Stable Diffusion 3.5, cheerful cursive typography font

Ich vermute stark, in anderen Modellen wird Nacktheit deutlich stärker unterdrückt.

Vorerst bleiben Flux und MidJourney in meinen Augen die Vorreiter, insbesondere was die Ästhetik angeht. Ich werde mir Stable Diffusion 3.5 allerdings auch noch auf meinem lokalen System installieren und experimentieren.

Soweit ein erster Eindruck von mir.

Viele Grüße,
Stefan

Wer hier schreibt

Hi, ich bin Stefan Franke (36) und lebe in Fulda! Ich liebe das Laufen, Reisen und Fotografieren. In meinem Blog schreibe ich über fotografische Themen, inspirierende Künstler, spannende Technik oder über das Leben und Reisen. Auf dem Bild siehst du Julia und mich auf dem höchsten Berg Panamas, während unsere Weltreise 2022.