OpenAI ha lanciato Image Generation per GPT-4o, un nuovo strumento generativo disponibile gratuitamente per tutti gli utenti di ChatGPT. L’obiettivo di OpenAI con GPT-4o è andare oltre la semplice creazione di immagini “surreali” e offrire un sistema che produca contenuti visivi estremamente realistici e precisi.

screenshot-openai.com-2025.03.27-11_24_18

Image Generation sfrutta un modello addestrato su un vasto dataset di testi e immagini, consentendo una comprensione profonda della relazione tra linguaggio e rappresentazione visiva. Questo si traduce in risultati più accurati, ideali per comunicazione, progettazione e creazione di contenuti visivi di vario tipo.

Più precisamente, il modello impiega una sofisticata combinazione di apprendimento delle probabilità tra testo, immagini e suoni, insieme a rappresentazioni compresse dei dati visivi, per ottenere un alto livello di fluidità e precisione nelle immagini create.

Tra le caratteristiche più rilevanti spicca la capacità di rendere il testo all’interno delle immagini in modo estremamente accurato. Che si tratti di cartelli stradali, menu di ristoranti o inviti creativi, Image Generation su GPT-4o riesce a integrare il linguaggio nel contesto visivo in maniera sorprendente. Inoltre, grazie alla sua integrazione con ChatGPT, gli utenti possono affinare le immagini in più passaggi, aggiungendo dettagli, modificando lo stile o perfezionando la composizione senza perdere il contesto della richiesta iniziale.

Un altro aspetto innovativo è la possibilità di apprendere dalle immagini caricate dagli utenti. Caricando una foto, il modello è infatti in grado di analizzarla e utilizzarla come riferimento per generare nuovi contenuti visivi basati sulle informazioni estratte. Questo consente, ad esempio, di trasformare uno schizzo in una scena fotorealistica o di progettare un nuovo oggetto basandosi su immagini esistenti.

Il modello dimostra inoltre una grande versatilità nello stile, potendo generare immagini fotorealistiche in diverse ambientazioni o adottare tecniche artistiche specifiche. Riesce anche a mantenere la coerenza tra le immagini di un determinato personaggio, un’abilità che lo rende particolarmente utile per design concettuale e storytelling visivo. Inoltre, OpenAI ha introdotto la possibilità di modificare immagini esistenti, consentendo agli utenti di ritagliare, cancellare elementi o aggiungere nuovi dettagli in modo simile a quanto già visto con altri modelli avanzati di intelligenza artificiale.

Nonostante tutti questi progressi, Image Generation presenta ancora alcune limitazioni. Il modello può occasionalmente inventare dettagli o commettere errori nel rendering di concetti complessi, come tabelle periodiche complete o grafici matematici dettagliati. Anche la resa del testo in lingue non latine non è ancora perfetta, con il rischio di errori nei caratteri generati. Un altro limite riguarda l’editing, che in alcuni casi può modificare parti indesiderate dell’immagine quando si richiede una correzione specifica.

OpenAI ha posto particolare attenzione agli aspetti di sicurezza e responsabilità. Tutte le immagini generate includono infatti metadati C2PA per identificarle come prodotte da intelligenza artificiale e vengono applicate politiche stringenti per bloccare contenuti dannosi o non consentiti. Il sistema impiega anche un modello dedicato alla moderazione dei contenuti, garantendo che la generazione delle immagini avvenga nel rispetto delle linee guida sulla sicurezza.

Attualmente, Image Generation con GPT-4o è disponibile per gli utenti di ChatGPT nei piani Plus, Pro, Team e anche per gli utenti free, mentre il supporto per gli sviluppatori tramite API sarà reso disponibile nelle prossime settimane. Sarà curioso vedere come questo nuovo tool di OpenAI si porrà nei confronti delle nuove funzioni di Gemini 2.0 per editare le foto lanciate da Google nei giorni scorsi.