Microsoft Bing Image Creator basato su Dall-E 2: promosso!

Microsoft ha iniziato a integrare l’arte basata su IA nel suo chatbot Bing Chat grazie a Bing Image Creator… e funziona sorprendentemente bene. Microsoft ha iniziato a testare Image Creator in versione preview lo scorso autunno in alcuni mercati selezionati e la sua capacità generativa basata su intelligenza artificiale è diventata in seguito la base di Microsoft Designer, l’applicazione di design che utilizza l’arte basata su IA per creare modelli, volantini e semplici biglietti d’auguri. Da oggi Bing Image Creator inizierà a integrarsi con il chatbot testuale di Bing Chat, ma genererà anche immagini sul sito Bing.com/create.

In altre parole, potrete chiedere al chatbot di Bing di creare immagini partendo da una richiesta di testo integrata in Bing Chat, oppure utilizzare il sito dedicato. C’è anche una terza opzione, ovvero utilizzare la nuova barra laterale Edge Copilot all’interno di Microsoft Edge. La generazione di immagini sarà integrata nelle versioni di anteprima di Microsoft Edge.

Al momento di scrivere, la generazione di immagini non sembra far parte delle funzionalità di Bing Chat, ma dovrebbe essere questione di giorni o addirittura di ore, come si evince leggendo l’annuncio di Microsoft: “Bing Image Creator integrato in Bing Chat inizierà ad essere distribuito agli utenti di Bing Preview sia su desktop che su mobile a partire da oggi”.

Come usare Bing Image Creator

In attesa dell’integrazione con Bing Chat, abbiamo voluto provare Bing Image Creator direttamente sul sito ufficiale e dobbiamo ammettere che si tratta di uno strumento ben progettato, anche se basilare. Per accedervi, ricordiamo che è necessario un account Microsoft.

Bing Image Creator funziona come altri algoritmi di generazione di immagini tramite IA: basta scrivere una richiesta e l’intelligenza artificiale di Bing genererà un’immagine corrispondente. Per farlo, Microsoft utilizza il modello IA di Dall-E 2, decisamente più avanzato di Dall-E. Le immagini create dall’IA sono risultate molto dettagliate e impiegano circa 15 secondi per essere generate. Si riscontrano però ancora alcuni dei “glitch” tradizionali della creazione di immagini tramite IA, come ad esempio i problemi di rendering delle dita e delle mani.

Inoltre, ogni volta che fornite una richiesta, riceverete quattro immagini quadrate da 1024×1024 pixel e al momento non ci sono opzioni avanzate; non è infatti possibile specificare le dimensioni dell’immagine e non ci sono opzioni da modificare, come ad esempio il grado di corrispondenza delle immagini con la richiesta. Anche l’inpainting, che consente di regolare parti dell’immagine, non è presente, sebbene possiate importare l’immagine in un altro servizio per eseguire questo compito.

Microsoft non ha ancora affrontato il problema del copyright. Al contrario, ha aggirato il problema aggiungendo solo una piccola filigrana all’angolo di ogni immagine generata. Al momento della stampa, Bing Image Creator offre 25 “boost”, ovvero la versione di Microsoft della creazione “veloce” di immagini utilizzata da siti come Midjourney. Sebbene Microsoft sembri offrire una generazione di immagini illimitata, una volta scaduti questi boost, il tempo di generazione di un’immagine sarà più lento. Al momento non è chiaro quanto velocemente si rigenerino i boost, o se lo facciano; altri siti offrono la possibilità di “classificare” le immagini in base alla qualità.

Cosa succede se si esauriscono i boost di Bing Image Creator? Microsoft utilizzerà i Microsoft Rewards, un modo pratico per guadagnare crediti per il Game Pass Ultimate di Microsoft, ad esempio. “Se esaurite i boost, avete la possibilità di utilizzare i Microsoft Rewards per riscattare ulteriori boost e godere di tempi di elaborazione più rapidi”, scrive Microsoft.

Microsoft ha inoltre introdotto dei controlli sui contenuti per limitare la generazione di immagini dannose o non sicure. Se si richiede un’immagine “non sicura”, Bing Image Creator interromperà la richiesta e farà riferimento alla sua policy sui contenuti, avvertendo che in caso di ripetute violazioni l’utente potrebbe essere tagliato fuori del tutto.

Infine, Microsoft sta migliorando l’esperienza di ricerca di base con le cosiddette Knowledge Cards 2.0 e le Visual Stories, riassunti potenziati dall’intelligenza artificiale dell’argomento della ricerca. In pratica, Bing Search offre ora diversi modi per saperne di più sull’argomento della ricerca: risultati di ricerca tradizionali, una Chat che riassume ciò che viene trovato, oltre a Knowledge Cards e Visual Stories, che riassumono le informazioni in infografiche.

Google ha dichiarato di aver aperto l’accesso a Bard, un chatbot di intelligenza artificiale generativa destinato a competere con servizi simili offerti da Microsoft e OpenAI. Bard, come altri chatbot avanzati simili, è alimentato da un grande modello linguistico (LLM – Large Language Model). Gli LLM sono essenzialmente algoritmi avanzati di deep learning alimentati da enormi quantità di testo, con una serie di capacità che includono la traduzione, il riassunto e altro ancora. L’LLM utilizzato da Bard è una variante di LaMDA, il principale modello di elaborazione del linguaggio naturale di Google.

“Si può pensare a un LLM come a un motore di previsione”, ha scritto Google. “Quando gli viene fornita una richiesta, genera una risposta selezionando, una parola alla volta, tra quelle che probabilmente verranno dopo”. Google ha sottolineato che Bard si spinge un po’ oltre, poiché selezionare ogni volta la parola “più probabile” per una determinata risposta porterebbe a risposte poco creative, aggiungendo che il modello dovrebbe imparare e diventare più preciso nel corso dell’utilizzo continuo.

Google ha inoltre precisato che lavorerà su ulteriori dimensioni di misurazione delle risposte, come l'”interesse”, e cercherà di migliorare continuamente l’accuratezza delle risposte. Quest’ultimo è un problema serio che affligge la nuova generazione di assistenti IA generativi, dato che l’insieme di dati sottostanti che consente di prendere decisioni su cosa “dire” è talmente ampio da contenere molte informazioni errate o distorte.

“Conosciamo bene i problemi legati ai modelli di machine learning come nel caso dei pregiudizi ingiusti, in quanto ci occupiamo di ricerca e sviluppo di queste tecnologie da molti anni”, si legge nel post di Google. “Per questo motivo costruiamo e rendiamo open-source le risorse che i ricercatori possono utilizzare per analizzare i modelli e i dati su cui sono stati addestrati; per questo motivo abbiamo esaminato LaMDA in ogni fase del suo sviluppo e per questo motivo continueremo a farlo mentre lavoriamo per incorporare le abilità conversazionali in molti dei nostri prodotti”.

Le iscrizioni per l’accesso a Bard sono ufficialmente aperte, ma al momento c’è una lista d’attesa.

Redazione DigitalWorld Italia

Come usare Bing Image Creator

Redazione DigitalWorld Italia

Microsoft Bing Image Creator basato su Dall-E 2: promosso!

Redazione DigitalWorld Italia

Come usare Bing Image Creator

Google apre le iscrizioni per il suo chatbot IA Bard

Redazione DigitalWorld Italia