Secondo Microsoft, il futuro dell’IA si muove verso sistemi di agenti AI, ovvero intelligenze artificiali in grado non solo di interagire, ma di compiere azioni per conto dell’utente. Questa evoluzione porta l’IA a diventare uno strumento pratico e di grande valore, in grado di fare molto più che consigliare opzioni per la cena o riassumere articoli scientifici.

Gli agenti AI moderni capaci di percepire, ragionare e agire, mostrano già prestazioni notevoli in vari ambiti come l’ingegneria del software, l’analisi dei dati, la ricerca scientifica e la navigazione web. Tuttavia, per raggiungere la visione ambiziosa di sistemi agentici che migliorino la produttività e trasformino per davvero la quotidianità, sono necessari progressi nei sistemi agentici generalisti. Questi dovranno saper completare con affidabilità compiti complessi e multi-step in scenari reali che le persone affrontano ogni giorno.

A tal scopo, Microsoft ha sviluppato Magentic-One, un sistema agentico generalista progettato per risolvere compiti complessi. Magentic-One utilizza un’architettura multi-agente, in cui un agente principale, chiamato Orchestrator, coordina quattro agenti specializzati per eseguire i compiti assegnati. L’Orchestrator pianifica, monitora i progressi e, in caso di errori, ridefinisce il piano di lavoro, assegnando a ciascun agente compiti specifici come la navigazione web, la gestione dei file locali o l’esecuzione di codice Python.

Microsoft Agenti AI

Implementato con AutoGen, un framework open-source, Magentic-One offre un design modulare e flessibile che permette di aggiungere o rimuovere agenti senza dover modificare l’architettura principale. Questo approccio offre vantaggi rispetto ai sistemi a singolo agente, poiché consente di isolare e ottimizzare le competenze in agenti distinti, semplificando lo sviluppo e la riutilizzabilità del codice.

Per la valutazione delle prestazioni, è stato introdotto AutoGenBench, uno strumento open-source per testare i sistemi agentici in modo rigoroso. Con AutoGenBench, è possibile valutare le capacità di Magentic-One su benchmark complessi e multi-step che includono l’uso di strumenti come i browser web. Magentic-One ha raggiunto prestazioni competitive su benchmark riconosciuti come GAIA, AssistantBench e WebArena, dimostrando di essere un sistema agentico generalista robusto.

I rischi dei sistemi agentici sono reali. Durante i test, Magentic-One ha mostrato alcuni comportamenti problematici, come il tentativo ripetuto di accedere a un sito che ha portato alla sospensione temporanea dell’account. In alcuni casi, gli agenti hanno cercato aiuto esterno, tentando di contattare altre persone. Questi rischi, sebbene mitigati, sono indicativi della complessità e delle potenziali conseguenze dell’azione autonoma dell’IA nel mondo digitale.

benchmark-67297634410a6-1536x940

Per affrontare questi rischi, Magentic-One è stato sviluppato secondo i principi della Responsible AI. Sono stati condotti test di sicurezza e fornite linee guida per l’uso sicuro, con una particolare attenzione alla protezione contro contenuti dannosi e attacchi di tipo “prompt injection”. Magentic-One include strumenti e impostazioni predefinite per minimizzare i rischi e consente l’intervento umano quando necessario, anche se si raccomandano sempre e comunque un monitoraggio attento durante l’uso e la riduzione al minimo dei privilegi assegnati agli agenti.

In prospettiva, i sistemi agentici potrebbero trovarsi ad affrontare gli stessi rischi di phishing e ingegneria sociale che colpiscono gli utenti umani, dato che agiscono su un web popolato da persone. Sarà quindi cruciale progettare sistemi che sappiano distinguere tra azioni reversibili e irreversibili e, quando si tratta di azioni irreversibili, come l’invio di email o la cancellazione di file, i sistemi dovranno sospendere l’esecuzione e cercare un input umano.