Cloudflare ora può bloccare i crawler della IA sul tuo sito
Cloudflare ha introdotto una nuova funzionalità per i suoi clienti di web hosting (compresi quelli del piano gratuito), che ora, semplicemente attivando la voce AI Scrapers and Crawlers nel menu Sicurezza sulla dashboard di Cloudflare, possono bloccare i crawler dell’IA che raccolgono dati dai siti web senza autorizzazione per addestrare modelli di machine learning. Questa mossa è stata motivata dalla crescente avversione dei clienti verso i bot IA e dal desiderio di preservare un ambiente online sicuro per i creatori di contenuti.
Sebbene esista già un metodo diffuso per bloccare i bot IA attraverso il file robots.txt, questo approccio si è rivelato non sempre efficace visto che può essere ignorato senza conseguenze come dimostrato recentemente dal caso di Perplexity. Molte aziende di IA, consapevoli delle preoccupazioni relative all’uso non autorizzato dei contenuti, stanno quindi offrendo opzioni per escludere i propri siti web dalla raccolta dati. OpenAI e Google, ad esempio, lo scorso anno hanno fornito istruzioni su come bloccare i loro crawler.
Anche Cloudflare, nel 2022, aveva iniziato a offrire un sistema per bloccare i bot IA e l’85% dei clienti aveva attivato questa funzione. Tuttavia, l’azienda ha notato che ora internet è letteralmente “inondato” di bot IA e che alcuni operatori di bot tentano di mascherarsi come browser reali utilizzando un user agent falsificato. Tuttavia, Cloudlfare afferma che il suo modello di machine learning globale è in grado di riconoscere questa attività come bot, anche quando gli operatori mentono sul loro user agent.
Il nuovo approccio di Cloudflare si basa sul fingerprinting digitale, una tecnica comunemente utilizzata per monitorare le attività online. Con una rete che gestisce in media 57 milioni di richieste al secondo, l’azienda dispone di dati sufficienti per determinare quali “impronte digitali” possono essere considerate affidabili.
Cloudflare riconosce che alcune aziende di IA potrebbero continuare ad adattarsi per eludere il rilevamento dei bot e per questo si sta impegnando a monitorare costantemente la situazione, aggiornando le sue regole di blocco e migliorando i suoi modelli di machine learning per mantenere internet un luogo in cui i creatori di contenuti possano prosperare e mantenere il pieno controllo su come i loro contenuti vengono utilizzati per l’addestramento o l’inferenza dei modelli IA.