Stable Diffusion 3.5 – ein erster Eindruck

Lesezeit 4 Minute(n)

Stable Diffusion 3.5 – ein erster Eindruck

Stability AI hat seine neue Modellreihe Stable Diffusion 3.5 veröffentlicht. Ich habe ein paar erste Bilder erzeugt und damit experimentiert.

Es gibt endlich wieder News von Stability AI, dem Unternehmen hinter Stable Diffusion. Seit heute ist das neue Modell „Stable Diffusion 3.5“ verfügbar.

Genauer gesagt gibt es hier gleich drei Modelle, die angebotenen werden.

  • Das Stable Diffusion Large Modell mit 8 Milliarden Parameter und einer Auflösung von 1 Megapixel
  • Eine definierter Version des Large Models (Stable Diffusion Turbo), welches hauptsächlich schnell sein soll
  • Und ein Medium Modell, welches 2.5 Milliarden Parameter enthält und Bilder mit bis zu 2 Megapixel liefern soll

Stable Diffusion Modelle können lokal auf deinem System installiert werden und sind also OpenSource. Nebst vielen anderen und kostenpflichtigen Modellen wie zb. „Flux“ war und ist Stable Diffusion schon immer ein Pionier in der Demokratisierung von Bildgeneratoren.

Ich habe mit dem Large Modell auf replicate ein wenig experimentiert, insbesondere die Darstellung von Text und der Grad an Realismus hat mich interessiert.

Da ich vor ein paar Tagen den Klassiker Zurück in die Zukunft Teil 1 im Kino gesehen habe, war ich noch etwas angehaucht davon und habe mal eine weibliche Version von McFly vor einem DeLorean generieren lassen.

Hier ein paar Ergebnisse aus Stable Diffusion 3.5

Stable Diffusion 3.5 Prompt: full body shot of a girl, she is looking like a female version of marty mcfly, she has a glowing nine-panel sign in her hand on that reads “Stable Diffusion 3.5”, in the background is a delorean, #sunset light #photorealistic #photo #24mm

Die Parameter-Einstellungen über Replicate sind begrenzt, das ist wichtig zu wissen. Allerdings hat das Modell etwas Schwierigkeiten, die Schrift korrekt auf dem Schild darzustellen. Die Kohärenz zwischen Prompt und Ausgabe scheint mir nicht so hoch zu sein, wie bei den führenden Modellen wie Flux oder MidJourney. Auch ist der Text teilweise auf dem DeLorean vorn am Grill zu finden, dort müsste eigentlich das DMC Logo auftauchen.

Ein Vergleich des folgenden Prompts mit MidJourney sieht so aus:

replicate prediction b7ggfxw4cdrm40cjq1zrsx836w
replicate prediction b7ggfxw4cdrm40cjq1zrsx836w
Stable Diffusion 3.5 Prompt: full body shot of a girl, she is looking like a female version of marty mcfly, in the background is a delorean, sunset light, photorealistic, 24mm, f4 
stan87. full body shot of a girl she is looking like a female 112e622c 8134 47ef a5dd 03e7e2a21fd6 0
stan87. full body shot of a girl she is looking like a female 112e622c 8134 47ef a5dd 03e7e2a21fd6 0
MidJourney 6.1 Prompt: full body shot of a girl, she is looking like a female version of marty mcfly, in the background is a delorean, sunset light, photorealistic, 24mm, f4 --ar 3:2 --style raw --v 6.1 --stylize 1000

Die Ergebnisse sind schon deutlich, während MidJourney etwas zu plastisch wirkt (war auch style 1000) sind die Ergebnisse vom SD 3.5 eher in Richtung „Analog“.

Ein paar Prompts, die ich probiert habe, in Stable Diffusion 3.5

Der Grad an Fotorealismus ist aber schon sehr hoch. Hier mal ein paar andere Beispiele dafür. Das Erste finde ich zb. besonders gut gelungen und wirkt sehr fotorealistisch.

replicate prediction kvnrcnqjcxrm60cjq14rh5bj94
replicate prediction kvnrcnqjcxrm60cjq14rh5bj94
SD 3.5 Prompt: a portrait of a man standing in front of a white wall. Natural sunlight is hidden his head.  he is looking  to the right, looking towards something beyond the frame
replicate prediction 27yfjx5jbhrm60cjq0zrkjevb0
replicate prediction 27yfjx5jbhrm60cjq0zrkjevb0
SD 3.5 Prompt: a men is walking down a street in the 1980, 35mm, analog film look, classic chrome
replicate prediction yhh9x3wc1drm20cjq2zrbyw6fr
replicate prediction yhh9x3wc1drm20cjq2zrbyw6fr
SD 3.5 Prompt: Portrait photo of a man in his mid 20s, he is sitting on a bench wearing blue jeans and a red plaid linen shirt, his gaze wanders into the distance, morning light, soft shadows

Die Interpretation des Prompts hat in diesem Versuch sehr gut funktioniert. Auch die Erfassung der natürlichen Beschreibung der Szene klappt hervorragend. Den Fotorealismus würde ich mit einer 8/10 bewerten.

Für das folgende Bild hab den original Prompt von Stable Diffusion und dem Titelbild zum neuen Modell leicht verändert. Hier hat mich die doch etwas zu freizügige Interpretation überrascht:

replicate prediction 7fpdy2s5dsrm40cjq0zbj7jpyr
replicate prediction 7fpdy2s5dsrm40cjq0zbj7jpyr
SD 3.5 Prompt: ~*~aesthetic~*~ #boho #fashion, full-body 30-something woman laying on beach sand, candid pose, overlay reads Stable Diffusion 3.5, cheerful cursive typography font

Ich vermute stark, in anderen Modellen wird Nacktheit deutlich stärker unterdrückt.

Vorerst bleiben Flux und MidJourney in meinen Augen die Vorreiter, insbesondere was die Ästhetik angeht. Ich werde mir Stable Diffusion 3.5 allerdings auch noch auf meinem lokalen System installieren und experimentieren.

Soweit ein erster Eindruck von mir.

Viele Grüße,
Stefan

Interessiert?

Bildgeneratoren faszinieren dich auch und du hast Fragen? Dann schreib mir jetzt!
Picture of Stefan Franke

Stefan Franke

Fotograf & Marketer

News

Erhalte monatlich spannende Insights zu Fotografie, KI und allem, was mich bewegt. Kostenlos und garantiert ohne Spam!
Weitere Blog Beiträge
cropped stefan franke logo black retina
Stable Diffusion 3.5 – ein erster Eindruck