Cresce lo spam su Google: nel 2020 bloccate 40 miliardi di pagine al giorno con abusi

News Gennaro Mancini 3 Maggio 2021

Il 2020 è stato un anno per molti versi eccezionale che, limitandoci soltanto agli aspetti legati al mondo digital, ha portato a un forte incremento nell’uso del Web per tantissimi aspetti della vita quotidiana, dagli acquisti ai sistemi di conversazione a distanza. La tendenza ha interessato anche i motori di ricerca, il cui volume di traffico è salito notevolmente, provocando anche degli effetti indesiderati: come rivela il Google Webspam Report 2020, infatti, anche lo spam è fortemente cresciuto rispetto al passato, ma i sistemi di detenzione di Google sono diventati più bravi nel riconoscere e bloccare le pagine sospette.

I numeri dello spam nel 2020

Concentriamoci direttamente sui numeri, che ci fanno inquadrare subito la situazione.

Lo scorso anno hanno fatto accesso alla Rete oltre 4,6 miliardi di persone, vale a dire quasi il 60% della popolazione mondiale, con un incremento del 7,3% rispetto al dato precedente (fonte Digital 2021, che segnala anche che “i valori potrebbero essere ancora più alti, in virtù di problematiche legate al corretto tracciamento degli utenti internet legate alla pandemia da COVID-19”).

Interessante è anche un altro aspetto: due persone su tre, infatti, definiscono la ricerca di informazioni tra le ragioni principali della loro navigazione, con i motori di ricerca tradizionali che restano “un go-to sostanzialmente di default per il 98% della popolazione online”. Possiamo quindi immaginare quale sia il traffico di e su Google, che continua a essere IL motore di ricerca di tutto il mondo (oltre 92% di preferenze a livello globale, quasi 96% in Italia, fonte statcounter).

E quindi, non sorprende scoprire che sono aumentati anche i tentativi malevoli di approfittare della ampliata massa di utenti: stando al Google Webspam Report 2020, infatti, Google ha “rilevato 40 miliardi di pagine di spam ogni giorno, inclusi siti compromessi o creati in modo ingannevole per rubare le tue informazioni personali, e abbiamo bloccato la loro visualizzazione nei risultati”, e oltre allo spam web tradizionale ha “ampliato gli sforzi per proteggere da altri tipi di abuso, come truffe e frodi”, si legge nel post ufficiale. Si tratta di un incremento pari al 60% rispetto ai 25 miliardi dello scorso anno.

Google Webspam Report 2020, i risultati del lavoro antispam di Google

L’articolo di JK Kearns, Product Manager di Search, descrive l’attività di Google per trovare e rimuovere lo spam dai risultati di ricerca e si sofferma sui cinque modi con cui Google cerca di dimostrarsi “il modo più sicuro per effettuare ricerche”.

L’ultima cosa di cui un utente si deve preoccupare “quando cerca ricette di torte o fa ricerche su un progetto di lavoro è atterrare su un sito Web dannoso, in cui la sua identità potrebbe essere rubata”, ed è compito di Google “aiutarlo a proteggersi, ed è uno di quelli che prendiamo molto sul serio”, scrive Kearns.

Dal 2018 la lotta di Google allo spam è molto aumentata e “siamo stati in grado di proteggere centinaia di milioni di ricerche all’anno rilevando siti potenzialmente fraudolenti e impedendo agli utenti di finire su siti truffa che cercano di ingannare con siti di bassa qualità con keyword stuffing, loghi di brand che stanno imitando o un numero di telefono scam (truffaldini) a cui vogliono farti chiamare.

Le azioni contro lo spam

Il Web ospita molte cose straordinarie, premette il Product Manager, “ma è anche un luogo in cui i cattivi attori possono provare a trarre vantaggio da te o accedere alle tue informazioni personali”: per questo, Google è sempre al lavoro per tenere gli utenti al sicuro durante la ricerca e anche per fornire gli strumenti per assumere il controllo della propria esperienza di ricerca.

In particolare, per contrastare lo spam sul nascere fornisce “ai creatori di siti Web risorse per comprendere le potenziali vulnerabilità del sito e proteggere meglio i loro progetti, nonché strumenti per verificare se i loro siti sono stati compromessi”.

Questo lavoro aiuta l’intero Web a rimanere più sicuro e consente a chi fa ricerche “di accedere più facilmente a siti sicuri con esperienze straordinarie”.

Il supporto dell’Intelligenza Artificiale

Delinea più in dettaglio il lavoro contro lo spam di Google l’articolo di Cody Kwok, Principal Engineer della compagnia, che si sofferma sull’importanza dell’intelligenza artificiale (AI), che offre un potenziale senza precedenti per rivoluzionare l’approccio al problema.

Combinando “la nostra profonda conoscenza dello spam con l’intelligenza artificiale, l’anno scorso siamo stati in grado di costruire la nostra intelligenza artificiale per la lotta allo spam, che è incredibilmente efficace nel cogliere le tendenze dello spam sia note che nuove”. Un esempio concreto è la detenzione dei siti con contenuti generati automaticamente, ridotti oltre dell’80% rispetto a un paio di anni fa.

Nel 2020 è stato ancora dilagante lo spam hacked (siti compromessi), con “un numero di siti Web vulnerabili rimasto piuttosto elevato, sebbene la nostra capacità di rilevamento sia migliorata di oltre il 50% e abbiamo rimosso la maggior parte dello spam hacked dai risultati di ricerca”.

Inoltre, anche in considerazione dei “grandi eventi dello scorso anno, inclusa una pandemia globale”, Google ha “dedicato sforzi significativi per estendere la protezione ai miliardi di ricerche che abbiamo ricevuto su argomenti così importanti”. E quindi, “se stai cercando un sito di test COVID vicino a te, non dovresti preoccuparti di finire su spam senza senso che potrebbe reindirizzarti a siti di phishing”. All’eliminazione dei contenuti spam si è aggiunta anche la collaborazione “con diversi altri team di ricerca per assicurarci che tu riceva le informazioni più aggiornate e di massima qualità quando e dove è più importante”.

Necessario il contributo di tutti

Ma la lotta allo spam “non è un problema che possiamo risolvere da soli”, scrive Kwok, con riferimento particolare alle aperture sui siti: “Anche se potessimo rilevare e proteggere da tutto lo spam, gli hacker non smetterebbero di sfruttare le scappatoie fino a quando non saranno tutte chiuse”.

E quindi, Google chiede il contributo di tutti per mantenere insieme il web più sicuro, e in particolare i proprietari di siti web “possono proteggere i loro siti praticando una buona igiene di sicurezza: è più facile impedire che un sito venga violato che ripristinarlo da un hack”.

Gli interventi di Google per prevenire lo spam

Se la lotta concreta allo spam nei risultati di ricerca attraverso la detenzione dei siti malevoli è il primo fronte di attacco, gli interventi di Google si estendono anche con altri quattro metodi che tentano di aumentare la sicurezza degli utenti.

La crittografia delle ricerche protegge “anche da qualcosa di più dello spam”, perché impedisce ad hacker e terze parti indesiderate di vedere ciò che l’utente sta cercando o di accedere alle sue informazioni. Tutte le ricerche effettuate su google.com o nell’app Google sono protette crittografando la connessione tra il dispositivo e Google, mantenendo più sicure le informazioni.

Un altro modo in cui Google cerca di proteggere gli utenti è mettere a loro disposizione “gli strumenti e il contesto per saperne di più sui risultati di ricerca”. Il riferimento è alla recente funzione “about this result” (ancora non disponibile in Italia), che permette di scoprire più informazioni sui risultati da fonti che l’utente non conosce attraverso un clic sui tre punti accanto al risultato che fa comparire una scheda con la descrizione del sito, la data di prima indicizzazione su Google e tipologia di connessione (sicura o meno); questo contesto aggiuntivo “consente di prendere una decisione più informata sulla fonte prima di fare clic sul link blu”.

Google ha inoltre attivato la funzione Safe Browsing (Navigazione Sicura) che attualmente protegge oltre quattro miliardi di dispositivi e impedisce gli utenti di finire “per fare clic su un collegamento a un sito pericoloso senza nemmeno rendersene conto nell’entusiasmo di cercare di saperne di più su un argomento”. Quando abilitata in Chrome, la feature mostra messaggi di avviso che informano che il sito a cui si sta tentando di accedere potrebbe non essere sicuro, “proteggendo te e le tue informazioni personali da potenziali malware e frodi di phishing”.

Non meno rilevante è l’azione di protezione da bad ads, cattive pubblicità: l’impegno di Google nel fornire “accesso a informazioni affidabili e di alta qualità sulla Ricerca si estende anche agli annunci che appaiono durante la ricerca di prodotti, servizi e contenuti”, dice Kerns, e per garantire che tali annunci non siano frodi o utilizzati in modo improprio “sviluppiamo e applichiamo costantemente norme che mettono gli utenti al primo posto”. A livello statistico, su tutte le piattaforme del gruppo (inclusa la Ricerca) nel 2020 Google ha bloccato o rimosso circa 3,1 miliardi di annunci per violazione delle sue norme e limitato altri 6,4 miliardi di annunci.

Come Google impedisce lo spam

Il lavoro di prevenzione dello spam dalla Ricerca viene analizzato più in dettaglio dall’articolo di Kwok, che spiega che “ogni giorno Google scopre, scansiona e indicizza miliardi di pagine web, ma prima di fornire una serie di risultati di ricerca succedono molte cose dietro le quinte”; l’obiettivo è impedire allo spam di intralciare la ricerca di informazioni utili e funzionali, e come abbiamo detto il nemico è agguerrito

Questo diagramma concettualizza il modo in cui Google si difende (e difende gli utenti) dallo spam.

Innanzitutto, ci sono sistemi in grado di rilevare lo spam durante la scansione di pagine o altri contenuti. La scansione avviene quando i sistemi automatici visitano il contenuto e lo prendono in considerazione per l’inclusione nell’indice usato per fornire risultati di ricerca. Alcuni contenuti rilevati come spam non vengono aggiunti all’indice.

Questi sistemi funzionano anche per i contenuti scoperti tramite sitemap e Search Console: ad esempio, “Search Console ha una funzione di indicizzazione delle richieste che permette ai creatori di comunicarci nuove pagine che dovrebbero essere aggiunte rapidamente”. Google ha scoperto che gli “spammer hackerano siti vulnerabili, fingendo di essere i proprietari di questi siti, verificandosi in Search Console e utilizzando lo strumento per chiedere a Google di eseguire la scansione e indicizzare le numerose pagine di spam che hanno creato”, ma grazie all’intelligenza artificiale “siamo stati in grado di individuare verifiche sospette e impedire agli URL di spam di entrare nel nostro indice in questo modo”.

Successivamente, altri sistemi analizzano il contenuto incluso nell’indice, che “lavorano per ricontrollare se il contenuto che corrisponde alla tua query potrebbe essere spam”. In tal caso, quel contenuto non verrà visualizzato nei primi risultati di ricerca. Queste informazioni servono anche per “migliorare i nostri sistemi, in modo da evitare che tale spam venga incluso nell’indice”.

Grazie all’azione dei sistemi automatizzati aiutati dall’intelligenza artificiale, il risultato è che “pochissimo spam entra effettivamente nei risultati migliori che chiunque vede per una ricerca”. Secondo stime di Google, “questi sistemi automatizzati aiutano a mantenere oltre il 99% delle visite dalla Ricerca completamente prive di spam” e, per quanto riguarda la piccola percentuale rimasta, “i nostri team intraprendono un’azione manuale e utilizzano gli apprendimenti ottenuti per migliorare ulteriormente i nostri sistemi automatizzati”.

La protezione da altri problemi online

Ma non è solo lo spam a minacciare gli utenti e l’impegno di Google si estende anche ad altri problemi e abusi, molti dei quali “possono causare significativi danni finanziari e personali”.

Lo scorso anno “abbiamo compiuto progressi significativi nel miglioramento della nostra copertura e nella protezione di più utenti da truffe e frodi online, che hanno molte forme e possono colpirti negativamente in più modi rispetto allo spam web tradizionale”, dice Kwok.

Ad esempio, molti truffatori fingono di offrire numeri di telefono dell’assistenza clienti a servizi e prodotti popolari solo per indurre gli utenti che chiamano a pagarli tramite bonifici bancari o carte regalo. Comunemente noto come “truffa dell’assistenza clienti” o “truffa del supporto tecnico”, questo tipo di truffa è stato segnalato da centinaia di migliaia di utenti in cui e potrebbe causare alle persone la perdita centinaia di dollari a causa dei truffatori in ogni singolo caso.

Le soluzioni algoritmiche hanno assicurato la riduzione della presenza di truffa e frode nei risultati di ricerca, nell’ottica di “anticipare le sfide per fornire i risultati più affidabili”, e allo stesso tempo anche gli utenti possono “proteggersi meglio rimanendo informati e imparando a conoscere le truffe”.

Un’altra dimensione in cui i progressi nell’intelligenza artificiale hanno contribuito enormemente è stata la comprensione del contenuto dei siti. Un esempio è “come abbiamo contribuito a migliorare il modo in cui classifichiamo le recensioni dei prodotti e siti di acquisto e informational”. La Ricerca Google è “un ottimo modo per cercare e trovare prodotti prima di effettuare un acquisto e volevamo assicurarci che tu ottenga le informazioni più utili per il tuo prossimo acquisto, ricompensando i contenuti con ricerche più approfondite e informazioni utili”.

Ancora molto spam sul Web, cosa possiamo fare

Google continua a crescere e gli utenti sembrano usare Google per cercare sempre più query.

Nonostante i significativi progressi compiuti dal motore di ricerca per combattere lo spam e il lavoro “costante per migliorare e proteggere le persone da nuovi tipi di abuso, gli spammer sono fortemente motivati a sviluppare nuove tecniche che possono eludere il nostro rilevamento”. Un supporto utile possono essere i rapporti esterni degli utenti stessi, che possono segnalare esperienze recenti con la Ricerca in cui si sono sentiti “fuorviati, truffati o spammati” condividendo il feedback utilizzando il rapporto sullo spam, in cui indicare la query e qualsiasi altra informazione che potrebbe essere utile.

Chi lavora nel search marketing e opera in modo pulito può solo accogliere con favore la capacità di Google di non mostrare siti contenenti spam, di bassa qualità e soprattutto dannosi prima del nostro, nella speranza che questi sforzi di Google aiutino i nostri siti legittimi a posizionarsi meglio e, allo stesso tempo, ci proteggano anche come utenti da queste ricerche malevoli.