OpenAI lancia il suo Operator, l’agente AI che dà comandi al tuo PC
OpenAI ha lanciato Operator, un agente AI progettato per automatizzare attività online complesse interagendo con gli elementi sullo schermo come pulsanti e campi di testo, in modo simile a come farebbe un essere umano. Presentato dal CEO di OpenAI, Sam Altman, e da membri del team tecnico, Operator può gestire compiti articolati come prenotare un ristorante tramite OpenTable in un determinato orario o trovare biglietti per concerti entro un budget specifico.
Gli utenti possono interagire con Operator attraverso prompt testuali, simili a quelli di ChatGPT, per delegare attività online ripetitive. Al momento, il servizio è disponibile per i sottoscrittori statunitensi di ChatGPT Pro con un costo mensile di 200 dollari, mentre gli abbonati ai piani Plus, Team ed Enterprise potranno accedervi in futuro, dopo ulteriori miglioramenti.
Operator si basa su un modello chiamato Computer-Using Agent (CUA), che combina le capacità di visione artificiale di GPT-4o con un addestramento specifico per interagire con interfacce grafiche (GUI). Questa tecnologia consente all’agente di navigare tra siti web, catturare schermate e applicare “ragionamenti a catena” per portare a termine i compiti richiesti. Nonostante i progressi, i tassi di successo variano: 38,1% per attività complesse su OSWorld, 58,1% su WebArena e 87% su WebVoyager per compiti web-based.
Le funzionalità di Operator spaziano dalla compilazione di moduli e ordini online alla creazione di contenuti come meme. Tuttavia, il sistema è ancora in fase di ricerca e non garantisce risultati affidabili, come evidenziato nelle attività che richiedono passaggi complessi. Gli utenti, infatti, devono spesso intervenire per compiti che richiedono autenticazioni, come login, pagamenti o risoluzione di CAPTCHA, sebbene i modelli di visione artificiale possano gestire quest’ultimo compito efficacemente.
OpenAI ha sottolineato l’impegno per evitare abusi, implementando sistemi di moderazione per rifiutare richieste dannose e bloccare contenuti non consentiti. Sono stati inoltre integrati processi di revisione e rilevamento delle anomalie per proteggere l’agente da attacchi come phishing o “prompt injection”, ma gli stessi sviluppatori riconoscono che il sistema non è privo di difetti, essendo ancora in fase sperimentale.
Le aziende dovranno quindi sottoporre il nuovo strumento di OpenAI a un’indagine approfondita e decidere se vietarne l’uso ai dipendenti o ammetterlo ad alcune condizioni. Il semplice fatto che Operator catturi delle schermate e ne estragga testo e immagini per poi elaborarli nel suo cloud rappresenta in sé una possibile gestione dei dati non conforme. Se a questo aggiungiamo il fatto che potrebbe compiere azioni la cui responsabilità ricadrebbe poi sull’azienda, si capisce che i rischi connessi all’utilizzo di Operator non possono essere sottovalutati.
Operator arriva in quella che gli esperti definiscono “l’era agentica”, dove modelli AI multimodali combinano testo, audio e visione per affrontare compiti complessi. Nonostante le potenzialità teoriche, gli agenti AI, inclusi Operator, si sono fin qui dimostrati poco affidabili nella pratica, data l’elevata probabilità di errore a ogni passaggio dei compiti articolati.
OpenAI sta anche collaborando con aziende come DoorDash, Instacart, OpenTable e Uber per garantire che Operator risponda a necessità reali, rispettando le norme consolidate dei servizi online. Questo potrebbe tuttavia alterare il valore del search tradizionale come canale di marketing, spostando il focus verso connessioni automatizzate basate su API.
Passando infine a uno dei tanti rivali di OpenAI, Perplexity ha lanciato un proprio assistente basato su agenti per dispositivi Android. Perplexity Assistant, disponibile in 15 lingue sul Play Store di Google ed evidente risposta ai Tasks di OpenAI, è in grado, tra i vari task, di prenotare la cena, di chiedere passaggi sulle app e di impostare promemoria.