Anthropic ha annunciato nelle scorse ore l’aggiornamento di Claude 3.5 Sonnet (già disponibile per tutti gli utenti) e il lancio del nuovo LLM Claude 3.5 Haiku, che sarà invece rilasciato entro la fine del mese. Claude 3.5 Sonnet offre miglioramenti significativi rispetto alla versione precedente, soprattutto nel settore della programmazione, mentre Claude 3.5 Haiku eguaglia le prestazioni del modello più grande della generazione precedente, Claude 3 Opus, ma a un costo inferiore e con una velocità simile a quella del modello Haiku precedente.

La terza novità riguarda invece il lancio di una funzionalità (“computer use”) in beta pubblica che Anthropic definisce rivoluzionaria, grazie alla quale gli sviluppatori possono programmare Claude per utilizzare i computer come fanno le persone guardando uno schermo, muovendo un cursore, cliccando pulsanti e scrivendo testo. Claude 3.5 Sonnet è il primo LLM a offrire questa funzionalità in beta pubblica, che al momento rimane comunque in una fase sperimentale e può essere ancora inefficiente o soggetta a errori.

Gli sviluppatori possono sfruttare questa nuova feature per automatizzare processi ripetitivi, sviluppare e testare software o svolgere compiti aperti come la ricerca. A tal proposito, Anthropic ha creato un’API che consente a Claude di percepire e interagire con le interfacce dei computer. Ad esempio, Claude può ricevere istruzioni per compilare un modulo utilizzando dati da un foglio di calcolo, aprire un browser, navigare tra le pagine web e inserire i dati raccolti. Su OSWorld, che valuta le capacità dei modelli IA di usare i computer, Claude 3.5 Sonnet ha ottenuto il 14,9% nella categoria “solo screenshot”, superando di gran lunga il sistema IA successivo, che ha ottenuto il 7,8%.

Per quanto riguarda invece l’aggiornamento di Claude 3.5 Sonnet, Anthropic parla di miglioramenti su vari benchmark industriali, con progressi particolarmente evidenti nelle attività di programmazione agentica e nell’uso di strumenti. Ad esempio, la performance di Claude 3.5 Sonnet su SWE-bench Verified è migliorata dal 33,4% al 49,0%, superando tutti i modelli pubblicamente disponibili, inclusi sistemi di ragionamento come OpenAI o1-preview. Inoltre, ha registrato miglioramenti nell’uso degli strumenti nel settore retail, passando dal 62,6% al 69,2%, e nel settore aereo, dal 36,0% al 46,0%.

GitLab, che ha testato il modello per compiti di DevSecOps, ha notato un miglioramento fino al 10% nel ragionamento senza aumentare la latenza. Anche Cognition ha riscontrato miglioramenti notevoli rispetto alla versione precedente, in particolare nella pianificazione e risoluzione di problemi, mentre The Browser Company ha rilevato che Claude 3.5 Sonnet ha superato tutti i modelli precedentemente testati per l’automazione dei flussi di lavoro web.

anthropic

Passando a Claude 3.5 Haiku, si parla di un miglioramento in tutte le competenze capace di superare Claude 3 Opus su molti benchmark di intelligenza. Il modello si distingue particolarmente nelle attività di programmazione, ottenendo il 40,6% su SWE-bench Verified e superando molti agenti che utilizzano modelli di stato dell’arte disponibili al pubblico.

Grazie alla bassa latenza e a una maggiore precisione nell’uso degli strumenti, Claude 3.5 Haiku è ideale per prodotti orientati agli utenti, compiti specializzati e per generare esperienze personalizzate su grandi volumi di dati, come cronologie di acquisti o inventari. Claude 3.5 Haiku sarà disponibile inizialmente come modello solo testuale, con input di immagini in arrivo.