Der KI-Bildgenerator, der vor dem Zeichnen nachdenkt
- Nik Thomi
- 22. Apr.
- 3 Min. Lesezeit

Bild: OpenAI
Lange galt Googles Nano Banana als das Mass aller Dinge, wenn es um das automatische Erstellen von Bildern mit künstlicher Intelligenz geht. Jetzt schlägt OpenAI zurück: Mit ChatGPT Images 2.0 bringt das Unternehmen ein Modell, das nicht einfach nur hübsche Bilder zeichnet, sondern vor dem Erstellen nachdenkt. Die Demos sind beeindruckend, wie das folgende Video von OpenAI beweist:
In Kürze:
ChatGPT Images 2.0 ist ab sofort für alle ChatGPT-Nutzerinnen und -Nutzer verfügbar.
Das Modell kann vor dem Erstellen eines Bildes im Web recherchieren und so aktuelle Informationen einbeziehen.
Text in Bildern soll erstmals wirklich zuverlässig und korrekt dargestellt werden
Es gibt zwei Modi: Instant (schnell, für alle kostenlos) und Thinking (mächtiger, aber nur für zahlende Nutzer mit Plus-, Pro- oder Business-Abo)
Was Images 2.0 wirklich anders macht
Wer KI-Bildgenerierung kennt, kennt auch das grösste Dauerproblem: Text im Bild. Beschriftungen waren lange kryptisch, Buchstaben verkehrt, Wörter sinnlos. Das hat sich laut OpenAI mit Images 2.0 grundlegend geändert: Tippfehler seien inzwischen eine seltene Ausnahme. Ein Restaurant-Menü, ein Poster, eine Infografik mit lesbaren Beschriftungen: Das soll nun fehlerfrei möglich sein.
Die zweite grosse Neuerung ist der sogenannte Thinking Mode – zu Deutsch: der Denk-Modus. Dahinter steckt das Prinzip des Reasonings: Das Modell überlegt erst, was es zeichnen soll, bevor es anfängt. Es kann dabei das Web durchsuchen, verschiedene Varianten abwägen und das Ergebnis nochmals überprüfen – ähnlich wie ein Mensch, der vor dem Skizzieren kurz recherchiert und plant. So kann das Modell mehrere Bilder aus einem einzigen Auftrag generieren und seine eigenen Ergebnisse nochmals überprüfen. Wer also einen Flyer für eine Veranstaltung möchte, kann das Modell anweisen, Hintergrund-Infos selbst zusammenzusuchen und direkt ins Bild einzubauen.
Zusätzlich können bis zu acht verschiedene Bilder aus einem einzigen Prompt erstellt werden, wobei Figuren und Objekte über alle Bilder hinweg konsistent bleiben. Das ist relevant für alle, die etwa Comics, mehrseitige Präsentationen oder Kampagnen-Visuals produzieren wollen.
Wo die Grenzen liegen
Die Demos, die OpenAI gezeigt hat, sind eindrücklich. Manga-Seiten mit konsistenten Charakteren, Infografiken in mehreren Sprachen, fotorealistische Produktbilder. Doch solche Präsentationen zeigen naturgemäss die besten Ergebnisse. OpenAI selbst hält fest, dass die Resultate zwar klare Verbesserungen zeigen, aber noch weit von fehlerloser Qualität entfernt sind und in künftigen Versionen noch erheblich verbessert werden können.
Dazu kommt: Das Modell stützt sich auf Webdaten bis Dezember 2025. Wer Bilder zu ganz aktuellen Ereignissen oder sehr spezifischen Themen braucht, kann auf Lücken stossen. Und wer sehr spezifische Stile oder Nischen-Ästhetiken sucht, wird auch mit Images 2.0 manchmal improvisieren müssen.
Fazit
Mit ChatGPT Images 2.0 macht ChatGPT einen deutlichen Schritt nach vorne in der Bildgenerierung und übernimmt die Leaderpositsion von Nano Banana. Der Unterschied zu bisherigen Tools: Es setzt nicht einfach nur Befehle um, sondern versucht zu verstehen, was wirklich gemeint ist. Das Modell denkt mit, bezieht den Kontext ein und interpretiert den Prompt. Dadurch sollen Bilder entstehen, die genauer, stimmiger und konsistenter sind.
Ob das im Alltag immer so gut funktioniert, wird sich noch zeigen. Klar ist aber: Die Entwicklung geht weg vom reinen Ausprobieren hin zum gezielten Einsatz im Arbeitsalltag.
KI-Bildtools werden damit mehr und mehr zu echten Arbeitswerkzeugen – und weniger zu Spielerei.
Genug gelesen. Zeit zum Ausprobieren.Willst du wissen, wie du KI-Bildgenerierung konkret in deinem Alltag nutzen kannst? In unseren KI-Workshops zeigen wir dir, was die aktuellen Tools wirklich leisten, wo ihre Grenzen sind und wie du heute damit anfängst.
Kontaktiere uns unverbindlich. Weitere Infos zu unseren KI-Workshops findest du hier.
|




b52 club mình thấy dạo này nhiều người nhắc nên cũng ghé thử cho biết. Mình không chơi gì sâu đâu, chủ yếu vào xem bố cục với cách họ trình bày có dễ dùng không. Lướt một vòng thấy giao diện khá sáng sủa, các mục chia theo khối nhìn phát là biết đang ở đâu, kéo xuống cũng không bị rối mắt. Có đoạn họ ghi giao dịch xử lý nhanh tầm 30 giây–1 phút nên mình đọc qua thấy cũng yên tâm hơn chút, kiểu ít nhất họ nói rõ chứ không mập mờ. Menu đặt ngay chỗ dễ bấm, chuyển qua lại giữa các phần khá mượt trên điện thoại. Nói chung mình thích kiểu tiêu…