“C’è chi lo ricorda ancora con paura, e chi mente”, per parafrasare un noto meme del Web. Il 12 agosto 2011, esattamente dieci anni fa, sbarcava anche in Italia l’aggiornamento algoritmico Google Panda, che aveva provocato forti scombussolamenti alle SERP in lingua inglese già da febbraio, quando era partita l’implementazione prima negli Stati Uniti e poi negli altri mercati. Ma cos’era questo update e perché è stato così rivoluzionario? Ripercorriamone la storia e scopriamo i segreti più curiosi.
Che cos’è il Panda Update di Google
Ricordato ancora oggi come uno dei più memorabili aggiornamenti algoritmici di Google, Panda è stato presentato sin dal principio come un intervento orientato a far emergere “più siti di alta qualità nella Ricerca”, come scrivevano Amit Singhal e Matt Cutts (allora rispettivamente Google Fellow e Principal Engineer) sul blog ufficiale proprio a febbraio 2011.
In pratica, questo update è stato progettato per filtrare contenuti di bassa qualità o “thin content” dai risultati di ricerca organici di Google, così da “fornire alle persone le risposte più pertinenti alle loro domande il più rapidamente possibile”. Stando alle (poche) informazioni diffuse, Panda implementa teorie di algoritmi di machine learning scalabili all’indice di Google, per comprendere quali siti offrono contenuti utili e quali invece no, facendo previsioni accurate su come gli umani valuterebbero la qualità dei contenuti.
Infatti, più che un vero algoritmo di ricerca, Panda è definito un “filtro” di qualità: quando incontra pagine che non rispettano i criteri – sintetizzati nelle famose 23 domande per costruire siti di qualità scritte da Singhal (e valide in larga parte ancora oggi) – ne abbassa il ranking, sia per proteggere gli utenti da contenuti poveri o non pertinenti, sia per incoraggiare gli altri siti a curare di più l’aspetto contenutistico e a cadere negli stessi errori.
Perché si chiama Google Panda
Altra informazione (questa curiosa): il nome dell’aggiornamento non è un riferimento all’animale panda (anche se c’è comunque un “doppio senso”), ma all’ingegnere Biswanath Panda, uno dei principali responsabili dell’intervento (come rivelato da Bill Slawski, che ha scovato alcune delle ricerche che poi hanno condotto all’update).
L’impatto immediato di Google Panda update
Che il Panda update non fosse un semplice aggiornamento algoritmico fu chiaro quasi immediatamente: in un solo giorno, e soltanto su Google USA, l’intervento colpì quasi il 12 per cento delle query, stravolgendo i risultati di ricerca in maniera improvvisa.
In realtà, Google stava lavorando per affrontare i problemi alla base di Panda da oltre un anno e si è concentrato per mesi su questo cambiamento specifico, che ha avuto l’obiettivo di contrastare (se non escludere direttamente dalle SERP) le cosiddette Content Farm, vale a dire l’insieme di siti, portali e aggregatori di news che pubblicavano contenuti di scarsa qualità solamente per attirare visite e guadagnare tramite i click sugli annunci AdSense.
Ciò significa, quindi, che il Panda update ha non solo cercato di limitare i contenuti duplicati, ma più in generale le pagine con argomenti inutili per gli utenti, con enorme presenza di link esterni e pubblicità di vario genere, o ancora contenuti ingannevoli, scritti con il solo intento di portare i visitatori sul sito ma poi proporre argomenti totalmente diversi e non corrispondenti al termine cercato.
Tipologie di contenuto e siti colpiti da Panda
Questo è un elenco rapido dei fenomeni problematici nelle SERP di Google che il Panda update ha provato ad arginare:
- Contenuto scarso o thin
Pagine deboli, con testo e risorse molto poco rilevanti o sostanziali: ad esempio, un insieme di pagine che descrivono una varietà di condizioni di salute con solo poche frasi presenti su ogni pagina.
- Contenuti duplicati
I classici contenuti copiati, che appaiono in più di un luogo sul Web. Problemi di questo tipo possono verificarsi anche sullo stesso sito, se ha più pagine con lo stesso testo con variazioni minime o nulle.
- Contenuti di bassa qualità
Pagine che forniscono poco valore ai lettori perché mancano di informazioni approfondite.
- Mancanza di autorevolezza/attendibilità
Contenuti prodotti da fonti che non sono considerate definitive o verificate. Secondo Google, i siti sono di qualità se sono riconosciuti come autorità sul loro argomento, entità a cui un utente umano avrebbe fiducia nel fornire i dati della propria carta di credito.
- Content farm
Insieme di molte pagine di bassa qualità, spesso aggregate da altri siti web. Un esempio di content farm potrebbe essere un sito Web che impiega un gran numero di copy a basso costo per creare articoli brevi che coprono una vasta gamma di query dei motori di ricerca, producendo contenuti che mancano di autorevolezza e valore per i lettori, perché hanno come scopo principale semplicemente quello di ottenere il posizionamento nei motori di ricerca per ogni termine immaginabile.
- Contenuti generati dagli utenti (UGC) di bassa qualità
Situazione frequente ad esempio nei blog aperti a guest post brevi, pieni di errori di ortografia e grammatica e privi di informazioni autorevoli.
- Alta proporzione tra annunci e contenuto
Pagine costituite principalmente da pubblicità a pagamento piuttosto che da contenuti originali.
- Contenuti di bassa qualità intorno ai link di affiliazione
Contenuti scadenti intorno ai link che puntano a programmi di affiliazione a pagamento.
- Siti web bloccati dagli utenti
Siti che gli utenti umani stanno bloccando direttamente nei risultati del motore di ricerca o utilizzando un’estensione del browser Chrome, segnalando così una bassa qualità.
- Query di ricerca con contenuto non corrispondente
Pagine che “promettono” di fornire risposte pertinenti quando si fa clic dai risultati di ricerca, ma poi non lo fanno.
A essere colpita dal Panda update è stata anche l’attività dell’article marketing, portata avanti dai SEO pubblicando articoli di bassa qualità su siti content farm come una forma di link building. Inoltre, i siti più colpiti avevano design meno attraenti, annunci più invadenti, word count gonfiati, standard editoriali bassi, frasi ripetitive, ricerche imperfette e, in generale, non si rivelavano utili o affidabili.
Come recuperare da Google Panda
Panda è spesso menzionato come un aggiornamento dal quale un sito si può riprendere con difficoltà, ma non è del tutto esatto: la strada è piuttosto “semplice”, in teoria, perché prevede di aumentare la qualità e l’unicità dei contenuti e del sito nella sua interezza.
E quindi, sul fronte pratico, le azioni correttive da intraprendere per recuperare ranking erano:
- Abbandono delle pratiche di content farming.
- Revisione dei contenuti del sito alla luce dei criteri di qualità, utilità, pertinenza, affidabilità e autorevolezza.
- Revisione del rapporto annuncio/contenuto o affiliazione/contenuto, in modo che le pagine non siano dominate da annunci o link di affiliazione.
- Corrispondenza garantita tra pertinenza del contenuto di una determinata pagina con la query di un utente.
- Rimozione o revisione di contenuti duplicati.
- Controllo e modifica accurati dei contenuti generati dagli utenti, assicurando (quando possibile) che siano originali, privi di errori e utili ai lettori.
- Utilizzo dei comandi robots noindex o nofollow per bloccare l’indicizzazione di contenuti interni del sito che siano duplicati, quasi duplicati o comunque problematici.
In sintesi, i siti che pubblicavano costantemente contenuti originali di alta qualità hanno avuto poco da temere da questo aggiornamento; al contrario, i siti coinvolti in pratiche ambigue sono stati probabilmente colpiti da Panda, perché la speranza per evitare il filtro era sviluppare un brand riconosciuto come un’autorità nel suo campo e costruire un sito che si rivelasse una risorsa affidabile grazie ai suoi eccellenti contenuti.
La cronologia del Panda update
Come accennato, Google Panda è stato lanciato per la prima volta nel febbraio 2011 per eliminare le tattiche black hat SEO e lo spam web.
All’epoca, le lamentele degli utenti sulla crescente influenza delle “content farm” erano diventate dilaganti, e Google decise di porre un freno alla situazione attraverso il nuovo filtro, che assegnava alle pagine una classificazione di qualità, usata internamente e modellata sulle valutazioni di qualità eseguite da persone umane, che poi è stata incorporata come fattore di classificazione.
La cronologia del Panda update è stata in realtà molto più articolata, come ricostruito da Danny Goodwin:
- 0, 23 febbraio 2011
Google introduzione la prima iterazione di un aggiornamento dell’algoritmo senza nome, scioccando il settore della SEO e molti grandi attori, e ponendo fine al modello di business della “content farm” che esisteva all’epoca.
- 0, 11 aprile 2011
Il primo aggiornamento all’algoritmo principale di Panda, che incorpora segnali aggiuntivi, come i siti che gli utenti di Google avevano già bloccato.
- 1, 9 maggio 2011
Inizialmente chiamato Panda 3.0, in realtà Google ha chiarito che si trattava solo di un aggiornamento dei dati, come per tutti i successivi aggiornamenti 2.x.
- 2, 21 giugno 2011
- 3, 23 luglio 2011
- 4, Internazionale, 12 agosto 2011
Panda è lanciato a livello internazionale per tutti i paesi anche non di lingua inglese, ad eccezione di Giappone, Cina e Corea. È l’anniversario che ricordiamo oggi, a distanza di 10 anni.
- 5 e Panda-Related Flux, settembre/ottobre 2011
Serie di aggiornamenti minori consecutivi.
- 0, 19 ottobre 2011
Aggiunti alcuni nuovi segnali nell’algoritmo Panda e ricalcolato l’impatto dell’algoritmo sui siti web.
- 1, 18 novembre 2011
Rilascio di un aggiornamento minore, che ha avuto un impatto su meno dell’1% delle ricerche.
- 2, 18 gennaio 2012
Aggiornamento dei dati
- 3, 23 febbraio 2012
- 4, 23 marzo 2012
- 5, 19 aprile 2012
- 6, 27 aprile 2012
- 7, 8 giugno 2012
- 8, 25 giugno 2012
- 9, 24 luglio 2012
- 9.1, 20 agosto 2012
- 9.2, 18 settembre 2012
- 27 settembre 2012
Un aggiornamento Panda relativamente grande, che segna l’inizio di un’altra convenzione di denominazione nella community (che ha abbandonato la numerazione 3xx, che era andata avanti in modo quasi imbarazzante).
- 5 novembre 2012
- 21 novembre 2012
- 21 dicembre 2012
- 22 gennaio 2013
- 14 marzo 2013
- Dance, 11 giugno 2013
Non è la data di un aggiornamento, ma il giorno in cui Cutts ha chiarito che Panda non sarebbe stato incorporato direttamente nell’algoritmo, ma piuttosto che si sarebbe aggiornato mensilmente con implementazioni molto più lente e non con gli aggiornamenti dei dati improvvisi del passato.
- Recovery, 18 luglio 2013
Aggiornamento che sembra essere stato un ritocco per correggere alcune attività Panda eccessivamente dure.
- Panda 4.0, 19 maggio 2014
In questa data si è verificato un importante aggiornamento di Panda, che ha avuto un impatto sul 7,5 per cento delle query.
- 4.1, 23 settembre 2014
Altro importante aggiornamento, che ha avuto un impatto dal 3 al 5 per cento delle query e includeva alcune modifiche all’algoritmo Panda.
- 4.2, 17 luglio 2015
L’ultimo aggiornamento Panda confermato, con implementazione lenta durata per mesi.
- Core Algorithm Incorporation, 11 gennaio 2016
A distanza di cinque anni dal rilascio, Google ha confermato che Panda è stato incorporato nell’algoritmo principale di Google, probabilmente a conclusione del lento lancio del 17 luglio 2015. In altre parole, a partire da questa data Panda non è più un filtro applicato all’algoritmo di Google dopo che ha svolto il suo lavoro, ma è incorporato come un altro dei suoi principali fattori di ranking. È stato chiarito, tuttavia, che ciò non significa che il classificatore Panda agisca in tempo reale.
Dopo Panda: il lavoro di Google sulla qualità dei risultati
Nel tempo, il lavoro di Google sulla qualità non si è mai interrotto, e alcuni dei principi alla base del filtro si possono ritrovare anche in successive innovazioni, come i principi EEAT – Competenza, Autorevolezza e Affidabilità, cui poi si è aggiunta l’Esperienza – introdotti nelle linee guida sulla qualità della ricerca sin dal 2014, e poi diventati un tema centrale per tutti i professionisti del marketing digitale.
Più in generale, dopo Panda Google ha continuato a produrre una serie di aggiornamenti e modifiche algoritmiche di base che si concentrano sulla qualità dei contenuti e sull’esperienza dell’utente, e basta citare solo il recente Page Experience update per averne conferma. L’obiettivo resta sempre lo stesso, ovvero evitare la presenza tra i risultati di ricerca di thin content non informativi, proposti da fonti non autorevoli, con contenuti inaffidabili e link discutibili.
E quindi, anche se il nome Panda potrebbe non apparire più nelle comunicazioni o non essere più ricordato, i suoi principi sono ancora rilevanti oggi per Google: il consiglio finale, che vale anche oggi dopo 10 anni, è di non ricorrere a tattiche black hat o a link spam, ma piuttosto sforzarsi di concentrarsi sulla creazione di contenuti di qualità per l’utente e su un sito che renda piacevole l’esperienza di navigazione e fruizione delle pagine.
Anche perché, lo sappiamo, l’utilizzo da parte di Google del machine learning e della tecnologia continua ad aderire a questi principi e a evolversi, e quindi il rischio di perdere ranking a causa di mancanze su questi aspetti è comunque elevato.