Gemini 4 Ultra und Gemini 2.5 Flash Image (Nano Banana) – jetzt wird’s ernst!

Lesezeit 8 Minute(n)

Gemini 4 Ultra und Gemini 2.5 Flash Image (Nano Banana) – jetzt wird’s ernst!

Wer hier schreibt

Hi, ich bin Stefan Franke (37) aus Fulda. Ich liebe Fotografieren, Reisen, Calisthenics und Laufsport. In meinem Blog schreibe ich über fotografische Themen, inspirierende Künstler, spannende Technik, persönliche Gedanken – und darüber, wie sich Leben, Kreativität und Bewegung verbinden lassen.

Picture of Stefan Franke

Stefan Franke

Fotograf & Marketer

Interessiert?

Die neuesten KI-Bildmodelle von Google, Gemini 4 Ultra und das spezialisierte Nano Banana, zeigen, wie schnell sich die Technologie entwickelt. Ob für konsistente Porträts oder das Kreieren von Produktszenen – diese Tools könnten die Arbeit von Fotografen und Kreativagenturen grundlegend verändern.

Der große Chat-GPT Moment ist nun in etwa drei Jahre her. Im November 2022 sorgte generative KI das erste Mal für weltweites Interesse. Zu diesem Zeitpunkt war die Bilderstellung mit Modellen wie Dall-E und Midjourney 3 und 4 aktuell.

Drei Jahre sind in der Computer- und KI-Technologie ungefähr so wie drei Hundejahre für Menschen. Ein Vielfaches mehr. Ich habe deshalb jetzt seit Längerem keinen Artikel darüber geschrieben, einfach weil die Verbesserungen so rasant sind, dass ein Artikel schon nach wenigen Tagen und Wochen irrelevant sein kann.

Google hat nun aber ein Modell aktualisiert und eines spezialisiert, die gut zeigen, auf welchen Nivea die Branche aktuell steht.

Gemini 4 Ultra

Das generative Bildmodell für höchste Qualität. Es gibt nun einen 2K Modus, der Bilder in hoher Auflösung erstellt. Außerdem ist das Bildmodell extrem stark in der Umsetzung von fotorealistischen und authentischen Szenen.

Gemini 2.5 Flash Image (besser bekannt als Nano Banana)

Zugegeben, die Namen sind teilweise so verrückt, wie die KI selbst. Nano Banana ist spezialisiert auf die konsistente Veränderung von Bildern. Charaktere werden mit einer wahnsinnig großen Genauigkeit wiedergegeben. Dieses Modell könnte auch als das Photoshop unter den Sprachmodellen durchgehen.

Beide kombiniert + Photoshop sind Fotografen, Agenturen und Models fast überflüssig!?

Ich weiß, das ist eine steile These und vielleicht auch noch etwas zu hochgegriffen (ich wünsche es mir jedenfalls). Aber Fakt ist, die Kombination aus Modellen wie Gemini 4 Ultra, Gemini 2.5 Flash, ChatGPT oder Gemini und Adobe Photoshop, sind hochgradig leistungsfähig. Dazu kommen die umfangreichen Funktionen, die Adobe mit den generativen Erweitern anbietet.

Außerdem habe ich erste findige Entwickler gesehen, die ein Skript geschrieben haben, mit dem Bilder aus Nano Banana direkt in Photoshop erzeugt werden können.

Es wird nur eine Frage der Zeit sein, bis Adobe selbst oder hier vielleicht auch eine Zusammenarbeit möglich ist. Beziehungsweise könnte ich mir auch vorstellen, dass die Firefly-Modelle von Adobe in naher Zukunft eine ähnliche leistungsstarke Bilderzeugung und Bildmanipulation aufweisen werden.

Das zusammen ist eine extrem leistungsstarke Möglichkeit, Bilder zu manipulieren und zu erstellen. Ich sehe hier also klassische Produktfotografie hochgradig gefährdet.

Wir sind innerhalb von drei Jahren an einen disruptiven Zustand gekommen, in dem die Faszination die Folgen übertönt.

Nun, lustige Storyboards zu erstellen oder sinnfreie Fantasiewesen, war noch nie mein Stil. Ich habe deshalb ein paar wirklich sinnvolle Anforderungen ausprobiert, die so in jedem Agenturwesen vorkommen. Ob du Grafiker bist, Fotograf oder Direktor. Die Beispiele zeigen eindrücklich: Das Berufsfeld aller Kreativschaffenden hat sich maßgeblich verändert – und wird es weiter!

Ein paar Schwierigkeiten im Umgang mit Gemini 2.5 Flash Image

Nano Banana hat auf jeden Fall Schwierigkeiten, mit der konsistenten Erstellung und Berücksichtigung der Aspect Ratio. Es reagiert eigentlich nicht auf Angaben, also z.B. ich möchte ein 1:1 Bild oder ein 16:9.

Schlimemr noch: Wenn der Input eines Bildes ein anderes Seitenverhältnis hat als zuvor, dann wird dieses übernommen. Sodass die Konsistenz des Seitenverhältnisses nicht gegeben ist. Das ist ein großes Problem in der Handhabung. Das war sowohl im Google AI Studio als auch in Gemini’s KI Browser App.

Das Logo habe ich also auf ein 3:2 Format mittig legen müssen, damit das Seitenverhältnis nicht jedes Mal zerschossen wurde.

Use-Case 1: CI-konforme Headshots

Jedes Unternehmen benötigt Bilder seiner Mitarbeiter. Meistens sollen diese hinter neutralem Hintergrund stehen und einheitlich aussehen.

Als Fotograf ist das eine Kernaufgabe im Kontext von Business-Fotografie. Die Frage ist also: Wie gut kann KI das bereits übernehmen?

Folgende Annahmen: Es handelt sich um ein Unternehmen, das Mitarbeiterporträts möchte und dabei die Farb-CI berücksichtigen möchte. Die Farb-CI ist #0a2540 . Das Unternehmen möchte das Logo auf den jeweiligen Kleidungen der Mitarbeiter. Ich habe einfach ein Demo-Logo benutzt.

Ich habe nun mit Gemini 4 Ultra einfach zwei Portraits erstellt, die in etwa gleich aussehen. Als ob sie am selben Tag, am selben Ort, zur selben Zeit mit verschiedenen Menschen fotografiert worden sind.

Es ist etwas plastisch, für meinen Versuch reicht es aber aus. Was ich hier zeigen will, ist, dass derartiges Porträts so in jedem Büro ohne große Vorkenntnisse und Vorbereitungen aufzunehmen wären

Für gute Headshot-Portraits im Unternehmenskontext fehlt natürlich noch der Backdrop, den man als Fotograf entweder mitbringen würde oder eben später ersetzen würde. Den habe ich mit Gemini Nano Banana erzeugt.

Gemini Generated Image sgil5ysgil5ysgil
Gemini Generated Image sgil5ysgil5ysgil

Jetzt, da wir die Porträts und den Hintergrund haben, ist es ein leichtes Spiel mit Nano Banana, die Personen auf den Hintergrund zu setzen. Nano Banana wird hierbei die Gesichter ziemlich detailliert beibehalten. Zudem habe ich das Logo einfärben lassen und auf die T-Shirts generieren lassen.

Zugegeben, die Ergebnisse sind doch etwas flach in ihrer Wirkung, aber sie zeigen, wie mit so wenig Mitteln in der Kürze der Zeit, die ich verwendet habe (20 Minuten), dafür ein doch passables Ergebnis erzielt werden kann. Da ich die Personen generiert habe, ist das Licht-Setup relativ uneinheitlich.

Wenn ich mir jetzt vorstelle, Mitarbeiter in einem Unternehmen zu fotografieren und das unter den gleichen Lichtbedingungen, dann sind hier durchaus deutlich realistischere und homogenere Ergebnisse zu erwarten. Im Grunde geht es vor allem auch darum, schnell den Hintergrund auszutauschen und das Licht bzw. Elemente hinzuzufügen, was miteinander super funktioniert hat in meinen kurzen Test.

Es geht hier ja um realistische Anwendungsfälle, die tatsächlich in ihrer Nutzung einen Mehrwert bieten. Und hier sehe ich auf jeden Fall einen nennenswerten.

Insbesondere weil Nano Banana die Charakterkonsistenz fast immer beibehält und die Personen so auch nach mehreren Iterationen immer noch dieselben sind. Das ist so in der Form, das erste Mal, dass ich das sehe.

Use-Case 2: Produktszenen kreieren

Etwas, das auch schon in Flux oder in Midjourney gut funktioniert, ist das Kreieren von Produktszenen anhand von Produkten.

In meinem Beispiel hier nehme ich eine Nordlux-Leuchte und setze die auf einen Tisch. Das Bild habe ich hierfür vorerst mit Googles Imagen 4 Ultra erstellt. Als Output habe ich die 2K-Resolution gewählt.

Hier ist bemerkenswert, in welcher hohen Auflösung und welchem Detailgrad das Bild erzeugt wurde. Solche Bilder nutze ich gerne für Mock-Ups, um Fotografien realistisch an einer Wand zeigen zu können.

mockup bilderrahmen
mockup bilderrahmen

Nano Banana hat die Textur, die Größenverhältnisse und die Farben der Leuchte großartig übernommen und in das Bild integriert. Auch die Positionen und den Schattenwurf finde ich sehr gelungen.

Ebenso konnte ich ein Bild erstellen, in dem die Leuchte eingeschaltet ist und ein überraschend gutes Zusammenspiel aus natürlichem Licht und dem Licht der Leuchte selbst im Bild wiedergegeben wird.

Der Grad an Realismus ist auf einem sehr hohen Niveau, ich würde behaupten, ein Leihe erkennt nicht, dass dieses Bild KI-generiert ist.

So ergeben sich ganz neue Möglichkeiten, Produkte zu inszenieren, ohne große Shootings umsetzen zu müssen. Ich sehe hier ein großes Potenzial im Bereich der Kostenersparnis für Shootings und für die Möglichkeit, Produkte in ganz vielen Facetten und Einsatzgebieten zu zeigen.

Ebenso kannst du, wenn du Produkte oder Möbelstücke interessant findest, deine Wohnung fotografieren und sie einfach in eine entsprechende Stelle hinein generieren lassen, um eine Vorstellung davon zu bekommen, wie das dann in deinem Raum wirkt.

Also für den ganzen Bereich Augmented Reality sehe ich hier massive Veränderungen auf uns zu kommen.

Use-Case 3: Kleidung tauschen und Szenen Ändern

Um nun nochmal die Dramatik und Ernsthaftigkeit dieses Tools klarzumachen, habe ich hier einfach mal ein Bild von mir genommen, was mein lieber Freund Ronny von mir in Italien einmal aufgenommen hatte. Was mir auf dem Bild nicht gefällt, ist meine kurze Hose und mein Hemd. Die Kombination ist einfach nicht schön.

nano banana test
nano banana test

Mit Googles neuem, KI-Bildgenerator ist es ein leichtes mit nur wenigen Prompts das zu tauschen und dabei wird ein Ergebnis erzielt, welches sich sehen lassen kann. Sowohl die Kleidung als auch vor allem mein Gesicht sind sehr genau getroffen und sehen absolut realistisch aus.

Deshalb hier nochmal die kritische Betrachtung des Ganzen.

Ich frage mich ernsthaft: Welche Agentur oder welcher Fotograf sieht hier keine Gefahr drin?

Als Kunde würde ich mich also fragen: Warum soll ich noch einen Fotografen engagieren, wenn ich mit wenigen Klicks und mit wenig Aufwand ein passables, wenn nicht sogar erstklassiges Ergebnis erzielen kann?

Zugegeben, an vielen Stellen hängt es noch!

Das Seitenverhältnis springt hin und her, oft fehlen auch Elemente, oder manchmal ist der Bildeindruck unecht.

Aber wir stecken hier nach wie vor in den Kinderschuhen der Entwicklung, und das Modell, das wir hier sehen, wird das älteste sein, was wir je nutzen. Auch die Auflösung wird noch steigen, denn das ist bisher meiner Meinung nach eines der größten Probleme in der professionellen Nutzung.

Wie sieht die Zukunft der Bilderstellung, Bildbearbeitung und Fotografie in den nächsten Monaten oder Jahren aus?
Es ist also Zeit, sich auf jeden Fall damit zu beschäftigen und nach Wegen zu suchen, die Fotografie auch in Zukunft professionell betreiben zu können.

Hier sehe ich einen ganz maßgeblichen Punkt darin, die Authentizität zu fördern und den Prozess und das Handwerk dahinter mehr und mehr in den Fokus und Vordergrund zu rücken.

Interessiert?

Picture of Stefan Franke

Stefan Franke

Fotograf & Marketer

In Kontakt bleiben

Der erste Kontakt mag flüchtig sein, keiner weiß aber, welche Auswirkungen dieser haben wird. Trag dich in meine Kontaktliste ein und lass uns in den Austausch kommen!

Weitere Blog Beiträge