ChatGPT: Sprachmodell GPT-4o wird um Bildgenerierungs-Funktion erweitert

Bislang ließ sich der KI-basierte Chatbot ChatGPT (App Store-Link) von OpenAI vornehmlich auf textbasierte Art und Weise nutzen. Wie OpenAI nun aber bekanntgegeben hat, wurde das eigene Sprachmodell GPT-4o, mit dem sich ChatGPT nutzen lässt, um eine Funktion zur direkten Bildgenerierung in ChatGPT erweitert. Mit diesem neuen Feature können Nutzer und Nutzerinnen des Chatbots Bilder auf Basis von Text-Prompts erstellen lassen, ohne dafür ein externes Modell zur Bildgenerierung aufrufen zu müssen.

Wie OpenAI in einem neuen Artikel auf der eigenen Website berichtet, ist GPT-4o fortan auf die gleichzeitige Verarbeitung von Text- und visuellen Informationen ausgelegt. Im Artikel heißt es dazu:

„Die GPT-4o-Bilderzeugung zeichnet sich durch die exakte Wiedergabe von Text, die präzise Befolgung von Eingabeaufforderungen und die Nutzung der 4o-eigenen Wissensdatenbank und des Chat-Kontextes aus – einschließlich der Umwandlung hochgeladener Bilder oder deren Verwendung als visuelle Inspiration. Diese Funktionen machen es einfacher, genau das Bild zu erstellen, das Sie sich vorstellen. Sie helfen Ihnen, effektiver durch Bilder zu kommunizieren und machen die Bilderstellung zu einem praktischen Werkzeug mit Präzision und Leistung.“

Laut OpenAI habe man die eigenen Modelle auf die gemeinsame Verteilung von Online-Bildern und -Text trainiert und dabei nicht nur gelernt, wie Bilder mit Sprache zusammenhängen, sondern auch, wie sie miteinander zusammenhängen. In Kombination mit aggressivem Post-Training verfüge das resultierende Modell „über eine erstaunliche visuelle Gewandtheit und ist in der Lage, Bilder zu generieren, die nützlich, konsistent und kontextbewusst sind.“

Bildergebnisse lassen sich kontextbasiert verfeinern

Im Zuge der Bildgenerierung durch GPT-4o lassen sich erstellte Bildkompositionen auch im Anschluss durch Texteingaben in Gesprächsform weiter verfeinern und anpassen. GPT-4o kann auf Bildern und Text im Chat-Kontext aufbauen und so für Konsistenz sorgen. Wenn man beispielsweise eine Videospielfigur entwirft, bleibt das Aussehen der Figur über mehrere Änderungsprozesse hinweg kohärent, während man sie verfeinert und experimentiert.

Die Bilderzeugung von GPT-4o folgt darüber hinaus auch detaillierten Aufforderungen „mit viel Liebe zum Detail“, wie OpenAI berichtet. Während andere Systeme mit ~5-8 Objekten zu kämpfen hätten, könne GPT-4o mit bis zu 10-20 verschiedenen Objekten umgehen. Die engere Bindung von Objekten an ihre Eigenschaften und Beziehungen ermögliche eine bessere Kontrolle. Zudem könne GPT-4o vom User hochgeladene Bilder analysieren und von ihnen lernen, indem es ihre Details nahtlos in den Kontext integriert, um die Bilderzeugung zu unterstützen.

Auch für Personen mit kostenlosem Zugang nutzbar

Zum Start will OpenAI die Bildgenerierung in GPT-4o allen Nutzern und Nutzerinnen zur Verfügung stellen, die ein Plus-, Pro- oder Team-Abonnement aufweisen. Aber auch Personen, die den kostenfreien Zugang von ChatGPT verwenden, ebenso wie Software-Entwickler und -Entwicklerinnen über eine Schnittstelle, profitieren von der neuen Funktion. Gleichzeitig weist OpenAI auf die Einschränkungen und Schwächen des Features hin: So hat die Bildgenerierungs-KI unter anderem Schwierigkeiten bei der Erstellung von kleinen Textgrößen, bei sehr komplexen Layouts oder auch bei mehrsprachigen Inhalten. Im Zuge der Transparenz sollen mit GPT-4o generierte Bilder mit einer digitalen Kennzeichnung versehen werden.

Foto 2 u. 3: OpenAI.

Download QR-Code

‎ChatGPT

Entwickler: OpenAI

Preis: Kostenlos⁺

Hinweis: Dieser Artikel enthält Affiliate-Links. Bei Käufen über diese Links erhalten wir eine Provision, mit dem wir diesen Blog finanzieren. Der Kaufpreis bleibt für euch unverändert.

Kommentare 3 Antworten

Nebumuk2021 sagt:

27. März 2025 um 08:27 Uhr

So macht man das, Apple. Stattdessen bastelt man seit 2011 ab Siri rum oder auch nicht.

Antworten
1. Simply sagt:
  
  27. März 2025 um 09:44 Uhr
  
  Nicht alles, was auf Anregung losplappert, ist eine KI. Viele wird heute als KI verkauft, ist aber keine.
  
  Antworten
ThomasSausDimR sagt:

30. März 2025 um 11:36 Uhr

Habe eben mal ein Bild generieren lassen. Grob gesagt eine Waldweg-Szene mit angegebener Bildaufteilung und Vorgaben der Belaubung und der Farben. Wurde nahezu perfekt umgesetzt. Beeindruckend. Was noch nicht passte lag wohl eher daran, daß ich es nicht definiert habe.
Eine Änderung wurde aber erst mal verschoben mit dem Hinweis, daß ich 6 Minuten warten muss bis zur Neugenerierung eines weiteren Bildes. Kostenloser Account wohlgemerkt.

Antworten

Schreibe einen Kommentar Antworten abbrechen

ThomasSausDimR

Habe eben mal ein Bild generieren lassen. Grob gesagt eine Waldweg-Szene mit angegebener Bildaufteilung und Vorgaben der Belaubung und der Farben....

→ ChatGPT: Sprachmodell GPT-4o wird um Bildgenerierungs-Funktion erweitert
BobbyDigital

Mir ist das total egal, ich habe überhaupt keine Probleme mit der Zeitumstellung. Ich denke, würde es nicht überall thematisiert und angesprochen...

→ Die Highlights der Woche: Wer hat an der Uhr gedreht?
powdermaniac

Genau meine Meinung

→ Die Highlights der Woche: Wer hat an der Uhr gedreht?
powdermaniac

Deshalb sollte die Sommerzeit die ständige Zeit sein!

→ Die Highlights der Woche: Wer hat an der Uhr gedreht?
Ikke

Rein auf die Arbeitswelt bezogen macht es aber trotzdem keinen Unterschied, es wird immer gleich viel Energie benötigt und wegen Energie Einsparung...

→ Die Highlights der Woche: Wer hat an der Uhr gedreht?