L’intelligenza artificiale una volta era un concetto magico, una cosa da fantascienza. Ora, dopo decenni di ricerca e prodotti fatti e finiti sul mercato, è solo un altro strumento fondamentale per mantenere in funzione lo stack aziendale.

Lo si vede e capisce ancora meglio se parliamo di DevOps, una pratica di back-office che presenta una sandbox perfetta per esplorare il potere dell’intelligenza artificiale. I team responsabili delle operazioni ora hanno una fiorente collezione di strumenti e piattaforme per il risparmio di manodopera e l’aumento dell’efficienza offerti sotto l’acronimo AIops, che promettono di applicare i migliori algoritmi di intelligenza artificiale al lavoro di manutenzione dell’infrastruttura IT.

AIops è tra i migliori casi d’uso per l’intelligenza artificiale. I server e le reti generano petabyte su petabyte di dati. Sappiamo quando i processi iniziano e si fermano, si alzano e si abbassano, spesso fino al millisecondo. Le richieste di RAM e CPU si conoscono bene, così come i prezzi per il noleggio dell’hardware nel cloud. Creare un’auto autonoma può significare lottare con un mondo pieno di pedoni e altri ostacoli da evitare, ma quando si tratta di infrastruttura IT, tutto è già digitalizzato e pronto per l’analisi.

Alcune delle attività più semplici per AIops riguardano l’accelerazione del modo in cui il software viene distribuito alle istanze cloud. Tutto il lavoro svolto dai team DevOps può essere migliorato con un’automazione più intelligente in grado di monitorare i carichi, prevedere la domanda e persino avviare nuove istanze.

Gli strumenti AIops più validi generano ipotesi lungimiranti sul carico della macchina e quindi controllano se qualcosa si discosta da queste stime. Le anomalie potrebbero essere trasformate in avvisi che generano e-mail o post su Slack e infatti una buona parte dello stack AIops è dedicata alla gestione degli avvisi e a garantire che solo i problemi più significativi si trasformino in qualcosa che interrompe una riunione o un buon riposo notturno.

Questi metodi per il monitoraggio di livelli o attività insoliti vengono talvolta implementati anche per rafforzare la sicurezza, rendendo alcuni strumenti AIops di competenza sia degli esperti della sicurezza che del team DevOps. I sofisticati strumenti AIops offrono anche “l’analisi della causa principale”, che crea diagrammi di flusso per tenere traccia di come i problemi possono diffondersi tra le varie macchine in una moderna applicazione aziendale. Un database sovraccaricato rallenterà un gateway API che, a sua volta, congelerà un servizio web. Questi cataloghi automatizzati del flusso di lavoro possono spesso aiutare i team a individuare il problema reale più velocemente, documentando e tenendo traccia delle catene di creazione dei problemi.

Molti degli strumenti che riportiamo di seguito sono basati su sistemi di monitoraggio con una lunga storia. Sono iniziati come strumenti che tracciavano gli eventi in stack aziendali complessi e ora sono stati estesi grazie all’intelligenza artificiale. Alcuni di questi strumenti sono nati nei laboratori di intelligenza artificiale e si sono poi sviluppati verso l’esterno. In entrambi i casi, chiunque valuti queste piattaforme vorrà esaminare la gamma di connettori che raccolgono dati. Alcune piattaforme AIops si integreranno meglio con il vostro stack rispetto ad altre. Tutti offrono una serie di percorsi di base per raccogliere dati grezzi, ma alcuni connettori sono migliori di altri. Chiunque stia pensando di adottare una piattaforma AIops vorrà valutare quanto bene ogni offerta AIops si integri con i suoi particolari database e servizi.

Ecco 10 dei principali strumenti AIops che semplificano la manutenzione attiva dell’infrastruttura IT aziendale.

AppDynamics

AppDyanmics è una divisione di Cisco specializzata nel monitoraggio delle prestazioni. Ha aggiunto il machine learning alla sua piattaforma di punta per osservare le metriche che divergono dalla linea di base storica. Il sistema può creare un diagramma di flusso e apprendere come gli eventi possono sovrapporsi fino al guasto del sistema, aiutando così a identificare le cause principali. AppDynamics spinge a correlare queste metriche con “risultati aziendali” difficili come i numeri di vendita e offre una “mentalità di autoguarigione” fornendo collegamenti in grado di automatizzare la risoluzione dei guasti comuni.

BigPanda

BigPanda si concentra sia sul rilevamento di comportamenti strani, sia sull’orchestrazione dei team assegnati per risolverlo. La sua piattaforma omonima offre l’analisi della causa principale e il rilevamento degli eventi che si integra con i principali fornitori di cloud. La sua “automazione di livello 0” gestisce il carico di lavoro che si presenta dopo la comparsa di un problema. BigPanda semplifica il flusso di lavoro creando ticket, inviando avvisi e persino avviando “war room” virtuali per problemi seri.

Datadog

Datadog ha recentemente aggiunto il modulo Watchdog al suo strumento di gestione delle prestazioni in modo che i team DevOps possano richiedere avvisi automatici quando le prestazioni iniziano a diminuire. Lo strumento crea previsioni sulle prestazioni basate su record storici adeguati alla stagione e all’ora del giorno. Le modifiche alle metriche come la latenza, il consumo di RAM o la larghezza di banda della rete possono attivare avvisi se si discostano dalle norme. Lo strumento è integrato con il sistema di rilevamento della sicurezza di Datadog e può funzionare con macchine virtuali, istanze cloud e anche funzioni serverless.

Dynatrace

Dynatrace è uno strumento di monitoraggio completo per il monitoraggio di VM, container e altre soluzioni serverless basate su cloud. Traccia e analizza file di registro, rapporti sugli eventi e altri trigger per fornire quelle che definisce “risposte precise basate sull’intelligenza artificiale”. Il nucleo si chiama Davis, un’intelligenza artificiale deterministica che costruisce diagrammi di flusso in modo da poter individuare la causa principale di qualsiasi anomalia o guasto. Se è configurato correttamente, Davis può essere eseguito in modo autonomo attivando modifiche che dovrebbero risolvere la causa.

automazione intelligente

Github Copilot

La maggior parte degli strumenti AIops è progettata per aiutare il software già attivo e funzionante. Github Copilot inizia prima nel processo, aiutando quando il codice viene scritto per la prima volta. Lo strumento osserva cosa digita un programmatore e fornisce suggerimenti su come completarlo. Copilot è stato addestrato su un trilione di righe di codice open source, quindi queste idee sono radicate in una qualche forma di realtà. Ci sono ancora domande un po’ filosofiche su chi sia l’autore finale del nuovo codice, se ci si possa fidare dell’intelligenza artificiale e se i milioni di programmatori open source là fuori meritano un qualche tipo di credito per l’assistenza. La risposta potrebbe essere “forse”. Una domanda più importante da farsi è se mai quanto meglio Copilot comprenda il codice e quanto faccia davvero meglio del completamento automatico.

IBM Watson Cloud Pak for AIops

IBM ha creato Watson Cloud Pak for AIops integrando il suo brand Watson AI con la sua più ampia presenza nel cloud. Lo strumento porta l’analisi automatica della causa principale ai dati raccolti dal software di monitoraggio cloud. Quando gli eventi raggiungono un livello di gravità configurabile, possono attivare avvisi di base o risposte più automatizzate dalla toolchain.

LogicMonitor

LogicMonitor chiama la sua intelligenza artificiale LM Intelligence. Raggruppa un rilevatore della causa principale con un sistema di allerta basato su soglie dinamiche regolate dai dati storici. Il suo sistema di allerta precoce dipende da un modulo di previsione che estende questi dati storici per calcolare le soglie su latenza, larghezza di banda e altre metriche. LogicMonitor dà la priorità alla riduzione della cosiddetta “fatica da allerta” per aiutare i team a concentrare i propri sforzi su comportamenti veramente anomali. I raccoglitori di dati attingono ai principali cloud e analizzano le risorse di calcolo (Kubernetes, container, ecc.), il traffico di rete e i sistemi di archiviazione (database, bucket, ecc.).

Moogsoft

Moogsoft è un motore di intelligenza artificiale specializzato che si integra con i principali strumenti di monitoraggio delle prestazioni come New Relic, Datadog, AWS Cloudwatch e AppDynamics. Se il vostro stack esegue qualcosa di diverso, come soluzioni open source o interne, Moogsoft si integra con “qualsiasi cosa, ovunque e in qualsiasi momento”. Il prodotto sposta i dati attraverso una pipeline che deduplica gli eventi, li arricchisce con dati contestuali provenienti da altre fonti e quindi correla i dati prima di lanciare un allarme. Gli algoritmi di clustering e i record storici aiutano a ridurre il rumore e producono rapporti più utili sui problemi.

New Relic One

New Relic ha aggiunto un motore di intelligenza artificiale al suo strumento di monitoraggio delle prestazioni One e tiene traccia di tutti gli eventi acquisiti, inclusi quelli di altri strumenti come Splunk, Grafana e CloudWatch di AWS. Lo strumento può essere configurato con livelli flessibili di sensibilità per una varietà di eventi di potenziale gravità. Potete dire a New Relic che, ad esempio, un errore a bassa priorità dovrebbe generare un allarme solo se si verifica più volte nell’arco di quindici minuti. Ma un evento ad alta priorità come un server in crash genererà immediatamente un avviso mirato. Il registro dei problemi tiene traccia di tutti gli eventi e include un rapporto sulla decisione di correlazione che illustra i passaggi logici intrapresi dall’IA durante il percorso per generare un allarme.

Splunk

Splunk nasce come strumento per raccogliere file di registro e creare uno strumento di reporting completo per tenere traccia delle prestazioni, identificare le anomalie e aiutare il team a diagnosticare i problemi. Il prodotto integra la grafica informativa con uno strumento di indicizzazione profonda per catalogare gli eventi. L’intelligenza artificiale e gli algoritmi di machine learning all’interno di Splunk possono anticipare i problemi e comprenderne l’origine. Questi algoritmi tengono traccia di tutti i servizi integrati con Splunk per trovare le cause alla radice. Le funzionalità di machine learning sono profondamente integrate con la piattaforma in modo che i tecnici dell’assistenza esperti nel monitoraggio delle prestazioni possano sfruttare il miglior machine learning senza molta formazione aggiuntiva. Possono anche tenere traccia delle prestazioni storiche e osservare le divergenze attraverso la dashboard principale.