Anthropic ha annunciato il lancio di Claude 3.7 Sonnet, il suo modello di intelligenza artificiale più avanzato e il primo a integrare un approccio ibrido al ragionamento. Questa innovazione consente a Claude 3.7 Sonnet di rispondere istantaneamente o di adottare un processo di riflessione più approfondito, con gli sviluppatori che tramite API possono anche regolare il tempo di elaborazione del modello per bilanciare qualità della risposta e rapidità.

Una delle principali aree di miglioramento di Claude 3.7 Sonnet riguarda lo sviluppo software, in particolare il coding e lo sviluppo web front-end. A supporto di questa evoluzione, Anthropic ha introdotto Claude Code, il suo primo strumento per la programmazione agentica disponibile in anteprima limitata per la ricerca. Claude Code assiste attivamente gli sviluppatori nella gestione del codice tra ricerca e lettura, modifica file, scrittura e test, commit, push su GitHub e uso di strumenti da riga di comando.

Nei prossimi mesi, Anthropic prevede di migliorare ulteriormente Claude Code, rafforzando l’affidabilità delle chiamate agli strumenti, il supporto per comandi di lunga durata e la capacità di rendering in-app con l’obiettivo di comprendere meglio l’uso dell’IA nello sviluppo software per guidare le future evoluzioni del modello. Gli sviluppatori che partecipano alla preview avranno accesso agli stessi strumenti interni utilizzati dal team di Anthropic e potranno contribuire attivamente al perfezionamento della piattaforma.

Claude 3.7 Sonnet è accessibile su tutti i piani Claude, inclusi Free, Pro, Team ed Enterprise, oltre che tramite l’API di Anthropic, Amazon Bedrock e Google Cloud Vertex AI, anche se la modalità di pensiero esteso non è disponibile per gli utenti del piano gratuito. Il modello mantiene la stessa tariffa dei suoi predecessori: 3 dollari per milione di token di input e 15 dollari per milione di token di output, includendo i token impiegati per il ragionamento esteso.

L’approccio di Claude 3.7 Sonnet si distingue nel panorama dei modelli di ragionamento avanzato, visto che, a differenza di altri sistemi che separano le risposte rapide dalla riflessione profonda, Anthropic ha sviluppato un modello unificato, capace di alternare tra questi due stati in modo integrato. In modalità standard, il modello rappresenta un miglioramento rispetto a Claude 3.5 Sonnet, mentre in modalità estesa può riflettere autonomamente prima di rispondere, incrementando la precisione nelle discipline come matematica, fisica, coding e interpretazione di istruzioni.

L’API di Claude 3.7 Sonnet consente agli utenti di controllare il budget per il ragionamento, permettendo di impostare un limite massimo di token dedicati al pensiero fino al tetto di 128.000, in modo da ottenere un importante compromesso tra velocità di risposta e qualità della soluzione. Inoltre, Anthropic ha focalizzato lo sviluppo su applicazioni pratiche piuttosto che sulla risoluzione di problemi accademici di matematica e informatica, allineando il modello alle esigenze reali delle aziende.

Sonnet Anthropic

I test iniziali hanno evidenziato il ruolo di leadership di Claude 3.7 Sonnet nel coding. Secondo Cursor, il modello è il migliore della categoria per attività di sviluppo reale, mentre Cognition ha lodato le sue capacità nel pianificare modifiche al codice e aggiornamenti full-stack. Vercel ha evidenziato la precisione del modello nella gestione di workflow complessi, Replit lo ha utilizzato con successo per creare applicazioni web e dashboard da zero e Canva ha confermato che Claude produce codice pronto per la produzione con un’elevata sensibilità al design e una riduzione drastica degli errori.

 

Claude 3.7 Sonnet ha raggiunto risultati all’avanguardia anche nei benchmark SWE-bench Verified, che valuta la risoluzione di problemi software reali, e TAU-bench, che testa la capacità di agenti IA di affrontare compiti complessi con interazioni utente e strumenti. Inoltre, il nuovo LLM si distingue in aree come il ragionamento generale, il coding agentico e le capacità multimodali, con miglioramenti significativi in matematica e scienze grazie alla modalità di pensiero esteso.

Anthropic ha infine condotto un’ampia valutazione di sicurezza per Claude 3.7 Sonnet, collaborando con esperti esterni per garantirne l’affidabilità e la conformità agli standard di sicurezza. Il nuovo modello riduce del 45% i rifiuti ingiustificati rispetto al predecessore, distinguendo con maggiore precisione tra richieste dannose e legittime, con il “system card” aggiornato a questa nuova versione che illustra i risultati dei test sulla sicurezza, la resistenza agli attacchi di prompt injection e le metodologie di mitigazione dei rischi.