Lotta allo spam, i risultati dell’attività di Google SpamBrain nel 2022
Più del 99% delle visite provenienti da Ricerca Google sono prive di spam. È uno dei numeri, probabilmente quello che offre il maggior orgoglio, che deriva dalla lettura dell’annuale Webspam Report di Google, il documento con cui il motore di ricerca informa sui risultati concreti dell’attività di contrasto allo spam o comunque alle situazioni illecite e poco trasparenti che possono compromettere l’esperienza di navigazione degli utenti. E, grazie in particolare al sistema di machine learning chiamato SpamBrain, il Webspam Report 2022 offre una panoramica ottimistica sulla salute di Search, anche se ovviamente il lavoro contro lo spamming non si ferma mai.
Webspam Report 2022 di Google, i numeri dell’attività di contrasto allo spam
Definito nel report 2021 come “la nostra soluzione più efficace contro lo spam”, SpamBrain è il nome che Google ha dato al proprio sistema di machine learning, una piattaforma da cui partono algoritmi che rilevano molteplici forme di contenuti indesiderati e che, come caratteristica del ML, utilizza i dati per imparare a diventare sempre più abile nell’attività per cui è progettata.
Nel 2022, Google ha apportato ulteriori miglioramenti per estendere la copertura delle aree di contrasto allo spam, attività in cui “SpamBrain è fondamentale”: come ufficializza il Report, SpamBrain ha quindi rilevato 5 volte più siti di spam rispetto al 2021 e 200 volte rispetto a quando è stato lanciato per la prima volta. Grazie a questo sistema, come detto in apertura, Google ha potuto assicurare “che oltre il 99% delle visite provenienti dalla Ricerca fossero prive di spam”.
Il lavoro di SpamBrain: lotta a link spam e siti compromessi
In concreto, nell’ultimo anno Google ha lavorato per consolidare SpamBrain “come piattaforma robusta e versatile, lanciando molteplici soluzioni per migliorare la copertura di diversi tipi di abuso”. Uno di questi esempi è stato il link spam: Google ha addestrato SpamBrain a rilevare i siti che creano collegamenti contenenti spam, nonché i siti creati per trasmettere collegamenti contenenti spam ad altri siti. Grazie alla capacità di apprendimento della piattaforma, è stato possibile tracciare 50 volte più siti di link spam rispetto al precedente link spam update . Allo stesso modo, gli sforzi per insegnare a SpamBrain qualcosa in più sulle compromissioni tramite spam (spam compromesso o hacked spam) hanno portato a un miglioramento di 10 volte nell’accertamento dei siti compromessi.
Inoltre, SpamBrain è stato un fattore determinante anche nel rilevare meglio lo spam durante il crawling, e ciò significa che Google è capace di identificare meglio lo spam sin da quando visita per la prima volta una pagina, così da non indicizzarla affatto e utilizzare le sue risorse in maniera più efficace per indicizzare pagine utili. In un certo senso, dunque, possiamo dire che una delle molte funzioni di SpamBrain è quella di agire da gatekeeper, un guardiano che blocca lo spam prima che abbia la possibilità di entrare nell’indice di Google.
Più sicurezza per gli utenti
Ma non c’è solo lo spam a preoccupare il team di Mountain View, come ci ricorda l’articolo di Duy Nguyen, Search Quality Analyst: negli ultimi mesi, Google ha infatti implementato anche nuove soluzioni antifrode per migliorare la sicurezza degli utenti della Ricerca, che hanno migliorato la copertura e, per la prima volta, hanno esteso le protezioni contro le truffe a tutte le lingue. Tradotto in cifre, il risultato è stato una riduzione del 50% dei clic sui siti truffa rispetto al 2021.
E poi, accanto al contrasto attivo allo spam, Google ha aggiornato le proprie policy antispam come parte di Search Essentials (che sappiamo essere le nuove Linee Guida generali del motore di ricerca), con particolare riferimento ai più comuni tipo di spam e ai comportamenti illegali e illeciti che potrebbero comportare un posizionamento inferiore del sito o la mancata visualizzazione nei risultati di ricerca, così da aiutare i proprietari dei siti a evitare di creare contenuti dannosi.
In ultimo, sulla scia dell’enorme interesse per i testi scritti con l’assistenza dell’IA, Google ha pubblicato una guida sui contenuti generati dall’IA, che in sostanza cerca di spiegare in che modo l’intelligenza artificiale e l’automazione possono essere uno strumento utile per creare contenuti utili, mentre si configurano come una violazione della storica policy contro i contenuti spam generati automaticamente quando l’intelligenza artificiale viene utilizzata allo scopo principale di manipolare le classifiche di ricerca.
Come conclude Nguyen, infatti, Google non può portare avanti la lotta allo spam da solo, e il contributo delle persone – nel creare contenuti utili e siti web funzionali per gli utenti, ma anche nell’inviare feedback e rapporti approfonditi su spam e abusi – è prezioso e cruciale per raggiungere l’obiettivo finale di questo duro lavoro: rilevare e annullare lo spam in modo che gli utenti possano trovare i contenuti più utili tramite Ricerca Google.