Quali sono e come funzionano i sistemi di ranking della Ricerca Google
Gli algoritmi di Google lavorano instancabilmente per fornire agli utenti le informazioni più utili, usando diversi fattori e indicatori per valutare i contenuti e creare le classifiche: come sappiamo, ci sono centinaia di fattori di ranking, come ad esempio le parole usate nella query, la pertinenza e l’usabilità delle pagine, l’affidabilità delle fonti, la posizione geografica dell’utente e le sue impostazioni di navigazione. Tutti questi processi si svolgono praticamente all’istante e compongono quello che Google ha ora definito “Google Search ranking systems“, i sistemi di ranking della Ricerca Google, che sono al centro di una nuova guida ufficiale che ne spiega il funzionamento e rivela quali algoritmi sono usati effettivamente per il ranking e quali invece sono stati deprecati.
Google Search ranking systems: come lavorano i sistemi automatizzati
Nella pagina ora pubblicata su Google Search Central leggiamo che Google utilizza sistemi di ranking automatizzati che esaminano molti fattori e segnalano centinaia di miliardi di pagine web e altri contenuti nel suo indice di ricerca “per presentare i risultati più pertinenti e utili, il tutto in una frazione di secondo”.
Questo complesso meccanismo si basa su diversi “sistemi di ranking“, alcuni dei quali fanno parte dei principali sistemi di classificazione di Google, che sono le tecnologie sottostanti che producono risultati di ricerca in risposta alle query, mentre altri sono coinvolti in specifiche esigenze di classificazione.
Google migliora regolarmente questi sistemi attraverso rigorosi test e valutazioni e fornisce “notifica degli aggiornamenti ai nostri sistemi di classificazione quando potrebbero essere utili ai creatori di contenuti e ad altri utenti”, sempre con l’obiettivo finale di adempiere la mission “di organizzare le informazioni a livello mondiale e renderle universalmente accessibili e utili”.
Ricerca Google, i fattori principali
Data la grande quantità di informazioni disponibili, sarebbe praticamente impossibile trovare nel Web ciò che cerchiamo senza uno strumento di organizzazione: è quello che fanno i sistemi di ranking di Google, che sono progettati appunto per ordinare “centinaia di miliardi di pagine web e altri contenuti nell’indice di ricerca per fornire risultati utili e pertinenti in una frazione di secondo”.
Come detto, questi algoritmi si basano su una serie (estesa) di fattori di peso e importanza differenti anche in base al tipo di ricerca – ad esempio, la data di pubblicazione dei contenuti ha un ruolo più incisivo nel rispondere a query relative ad argomenti di attualità piuttosto che a query riguardanti le definizioni del dizionario – ma tutti rientrano in cinque grandi categorie di fattori principali che determinano i risultati di una query:
- Significato. Ovvero l’intento della ricerca, con modelli linguistici che cercano di comprendere in che modo le poche parole inserite nella casella di ricerca corrispondono ai contenuti più utili a disposizione.
- Pertinenza. I sistemi analizzano successivamente i contenuti per valutare se contengono informazioni pertinenti alla ricerca (ad esempio, se includono le stesse keyword della query nella pagina, nelle intestazioni o nel corpo del testo), usando dati aggregati e anonimi sulle interazioni per verificare che la pagina presenti altri contenuti pertinenti oltre alle sole parole chiave.
- Qualità. I sistemi di Google danno poi priorità ai contenuti che sembrano più utili, identificando gli indicatori che aiutano a individuare i contenuti che mettono in risalto esperienza, competenza, autorevolezza e affidabilità, vale a dire i parametri di E-E-A-T.
- Usabilità. Nell’analisi dell’usabilità, i contenuti ritenuti più accessibili dagli utenti potrebbero anche avere le prestazioni migliori, con valutazioni su aspetti quali facilità di visualizzazione da dispositivi mobile o rapidità di caricamento.
- Contesto. Informazioni quali la posizione, la cronologia delle ricerche precedenti e le impostazioni della Ricerca consentono a Google di garantire che i risultati mostrati a un utente corrispondano a ciò che è più utile e pertinente per lui in quel momento.
Il chiarimento: sistemi di ranking e update dei sistemi
L’articolo con cui Danny Sullivan presenta i Google Search ranking systems si sofferma anche su una importanza distinzione lessicale: contrariamente a quanto fatto fino al novembre 2022, infatti, Google ha deciso di differenziare l’utilizzo delle parole “sistemi” e “update” per evitare confusione, soprattutto quando intervengono successivi aggiornamenti migliorativi.
Pertanto, il termine sistema identifica un algoritmo di ranking, mentre la parola update sarà usata solo per i successivi miglioramenti a tale processo. Più precisamente, un sistema è costantemente in esecuzione in background, mentre update si riferisce a una modifica una tantum ai sistemi di classificazione.
In concreto, quindi, Google ha ammesso che la denominazione Page Experience Update o Helpful Content Update non era corretta, perché rende poi complicato chiamare e comprendere gli update (che diventano qualcosa tipo “update degli update”), e quindi ha anticipato che d’ora in poi usa la formulazione “system” per le novità algoritmiche e “update” solo per gli aggiornamenti ai rispettivi sistemi.
Quali sono i sistemi di ranking di Google attivi attualmente
La nuova guida di Google – aggiornata nuovamente alla fine di aprile 2023 – entra poi nel dettaglio dei sistemi di ranking della Ricerca attualmente attivi e funzionanti, elencandoli in ordine alfabetico (dall’iniziale inglese, ovviamente).
- BERT. Abbreviazione di Bidirectional Encoder Representations from Transformers, BERT consente a Googe di comprendere come le combinazioni di parole possano esprimere significati e intenti diversi.
- Crisis information systems – Sistemi informativi per le emergenze. Google ha sviluppato sistemi per fornire serie specifiche di informazioni utili e tempestive durante le situazioni di emergenza, sia in situazioni di crisi personali (quando le persone cercano informazioni con query relative a suicidio, violenza sessuale, ingestione di veleno, violenza di genere o tossicodipendenza Google mostra hotline e contenuti di organizzazioni fidate) che per crisi più generali (ad esempio gli avvisi SOS durante i periodi di calamità naturali o situazioni di crisi ed emergenza su larga scala, quali alluvioni, incendi, terremoti, uragani e altri disastri, con cui Google mostra gli aggiornamenti delle autorità locali, nazionali o internazionali con numeri di telefono e siti Web di emergenza, mappe, traduzioni di frasi utili, opportunità di donazione e altro).
- Deduplication systems – Sistemi di deduplicazione. I sistemi di ricerca di Google mirano a evitare di pubblicare pagine Web duplicate o quasi duplicate: le ricerche su Google possono trovare migliaia o addirittura milioni di pagine web corrispondenti, che a volte possono essere molto simili tra loro, e gli algoritmi mostrano solo i risultati più pertinenti per evitare inutili duplicazioni. La deduplicazione avviene anche con i featured snippet: se il risultato posizionato di una pagina web viene elevato per diventare uno snippet in primo piano, non sarà ripetuto una seconda volta nella prima pagina dei risultati.
- Exact match domain system – Sistema di domini con corrispondenza esatta. Gli algoritmi di Google “considerano le parole nei nomi di dominio come uno dei tanti fattori per determinare se il contenuto è pertinente per una ricerca”, ma questo algoritmo specifico garantisce che non sia attribuito troppo credito ai contenuti ospitati su domini “progettati per corrispondere esattamente a specifiche query” – ad esempio, è inutile creare un nome di dominio contenente le parole “i posti migliori dove pranzare” nella speranza che tutte quelle parole nel nome di dominio spingano il contenuto in alto nelle classifiche e offrano vantaggi ai fini del ranking.
- Freshness systems – Sistemi di contenuti aggiornati. Google dispone di vari sistemi “query deserves freshness” progettati per mostrare contenuti più aggiornati per le query dove la freschezza è necessaria e attesa. Ad esempio, se qualcuno sta cercando informazioni su un film appena uscito, probabilmente vorrà recensioni recenti piuttosto che articoli più vecchi di quando è iniziata la produzione; oppure, normalmente una ricerca di “terremoto” potrebbe riportare materiale sulla preparazione a un simile evento risorse correlate, ma se si è verificato un episodio di recente potrebbero apparire articoli con notizie e contenuti più aggiornati.
- Helpful content system – Sistema sui contenuti utili. Fin qui noto come HCU, come detto, Helpful Content System è un sistema progettato per garantire che le persone vedano nelle SERP contenuti originali e utili “scritti da persone, per le persone”, piuttosto che contenuti creati principalmente per ottenere traffico dai motori di ricerca.
- Link analysis systems and PageRank – Sistemi di analisi dei link e PageRank. Google dispone di vari sistemi che capiscono i modi in cui le pagine si rimandano tra loro come metodo per determinare gli argomenti di cui trattano le pagine e quali potrebbero essere più utili in risposta a una query. Tra questi c’è PageRank, uno dei principali sistemi di ranking sin da quando Google è stato lanciato per la prima volta: anche se il funzionamento del PageRank si è evoluto molto da allora, continua a far parte dei principali sistemi di classificazione del motore di ricerca.
- Local news systems – Sistemi di notizie locali. Algoritmi che funzionano per identificare e far emergere fonti locali di notizie se sono pertinenti alla query, ad esempio attraverso le funzionalità “Notizie principali” e “Notizie locali”.
- MUM. Abbreviazione di Multitask Unified Model, MUM è un sistema di intelligenza artificiale in grado di comprendere e generare linguaggio. Al momento non è utilizzato per il ranking generale nella Ricerca, ma piuttosto per alcune applicazioni specifiche, ad esempio per migliorare le ricerche di informazioni sul vaccino COVID-19 e per migliorare i callout dei featured snippet che compaiono in SERP.
- Neural matching – Corrispondenza neurale. La corrispondenza neurale è un sistema di intelligenza artificiale che Google utilizza per comprendere le rappresentazioni dei concetti nelle query e nelle pagine e associarle tra loro.
- Original content systems – Sistemi di contenuti originali. Servono a garantire che Google mostri i contenuti originali in posizioni di buona visibilità nei risultati di ricerca, inclusi i rapporti e le notizie originali, prima di pagine che si limitano semplicemente a citare tali notizie; ciò include il supporto di uno speciale markup canonical che gli autori dei contenuti possono utilizzare per aiutare Google a capire meglio qual è la pagina principale se una pagina è stata duplicata in più punti.
- Removal-based demotion systems – Sistemi di retrocessione basati sulla rimozione. Google dispone di norme che consentono la rimozione di determinati tipi di contenuti: se un sito riceve un volume elevato di richieste valide di rimozione dei contenuti, ciò viene usato come segnale per fornire risultati migliori (e il sito viene retrocesso nelle ricerche). Google distingue in particolare le rimozioni legali (segnali di retrocessione per violazione del copyright o reclami relativi a diffamazione, merci contraffatte e rimozioni ordinate dal tribunale) e le rimozioni di informazioni personali (retrocessione di siti che attuano pratiche di sfruttamento ritorsivo delle rimozioni o per contenuti di doxxing e protezioni automatiche progettate per impedire che immagini personali esplicite non consensuali si posizionino in alto in risposta a domande che coinvolgono nomi).
- Passage ranking system – Sistema di ranking dei passaggi. È un sistema di intelligenza artificiale utilizzato da Google per identificare singole sezioni o “passaggi” di una pagina web per capire meglio quanto sia pertinente una pagina per una ricerca.
- Reviews system – Sistema di recensioni. Algoritmo progettato per premiare le recensioni di alta qualità, contenuti che forniscono analisi approfondite e ricerche originali, scritti da esperti o appassionati che conoscono bene l’argomento. Inizialmente era chiamato Product Reviews System perché si concentrava solo sulle recensioni di prodotti, ma ad aprile 2023 è stato esteso anche alle altre tipologie di contenuto.
- RankBrain. È un sistema di intelligenza artificiale che aiuta Google a capire qual è la correlazione tra le parole e i concetti; RankBrain consente a Google di restituire risultati pertinenti anche se non contengono tutte le parole esatte utilizzate in una query, comprendendo che il contenuto è correlato ad altre parole e concetti.
- Reliable information systems – Sistemi informativi affidabili. Google dispone di più sistemi per mostrare informazioni affidabili, che ad esempio fanno emergere pagine più autorevoli, premiano il giornalismo di qualità e degradano i contenuti di bassa qualità; se mancano informazioni affidabili, i sistemi visualizzano automaticamente avvisi sui contenuti per argomenti in rapida evoluzione o segnalano che Google non ha molta fiducia – un grado elevato di certezza – della qualità complessiva dei risultati disponibili per la ricerca, suggerendo all’utente come eseguire ricerche in modi che potrebbero portare a risultati più utili.
- Site diversity system – Sistema di diversità dei siti. Questo algoritmo impedisce a Google di mostrare più di due risultati di pagine web dello stesso sito nelle prime posizioni, per evitare che un singolo sito possa avere una presenza dominante nei primi risultati. Tuttavia, Google potrebbe comunque mostrare più di due risultati nei casi in cui i sistemi stabiliscano che sono particolarmente pertinenti per una determinata ricerca. In genere, il sistema di diversità dei siti considera i sottodomini come parte di un dominio principale; ovvero, le schede di un sottodominio (subdomain.example.com) e del dominio principale (example.com) saranno considerate tutte dallo stesso sito. Tuttavia, a volte i sottodomini vengono trattati come siti separati ai fini della diversità, se ciò è pertinente.
- Spam detection systems – Sistemi di rilevamento dello spam. Si occupano di contenuti e comportamenti che violano le norme antispam di Google; Internet presenta ancora enormi quantità di spam che, se non gestite, impedirebbero di mostrare i risultati più utili e pertinenti, e per questo motivo una serie di sistemi di rilevamento dello spam, tra cui SpamBrain, gestiscono contenuti e comportamenti che violano le norme antispam e vengono costantemente aggiornati per tenere il passo con gli ultimi modi in cui si evolve la minaccia dello spam.
I sistemi di Google non più attivi (o integrati in altri strumenti)
La pagina della guida elenca anche per scopi storici alcuni dei sistemi di Google che non sono più attivi in maniera indipendente, ma che oggi risultano incorporati in successivi o sono diventati parte dei più ampi sistemi di classificazione di base del motore di ricerca (che sono le tecnologie sottostanti che producono risultati di ricerca in risposta alle query).
- Page experience system – Sistema di esperienza sulle pagine. Introdotto nel 2020, il Page Experience era stato introdotto come sistema che valutava una serie di criteri per determinare se una pagina web offre una buona esperienza utente, analizzando in particolare velocità di caricamento delle pagine, livello di ottimizzazione mobile, assenza di interstistial invasivi e utilizzo di protocollo HTTPS per la sicurezza. In situazioni in cui sono presenti molte possibili corrispondenze con una pertinenza di livello pressoché uguale, questo sistema aiuta a dare la preferenza ai contenuti con una migliore esperienza sulla pagina. Ad aprile 2023 è sparito dalla lista dei sistemi attivi, e Google ha successivamente ridefinito Page Experience piuttosto come “un concetto per descrivere una serie di aspetti chiave di esperienza sulla pagina su cui i proprietari del sito possono concentrarsi”, e non un “sistema di classificazione separato”. Per la precisione, Danny Sullivan ha chiarito che il complesso della Page Experience non è mai stato effettivamente un sistema di classificazione, ma “segnali utilizzati da altri sistemi”
- Hummingbird. Lanciato nell’agosto 2013, è stato un importante miglioramento dei sistemi di classificazione generale di Google, che da allora “hanno continuato a evolversi, proprio come si erano evoluti prima”.
- Mobile-friendly ranking system – Sistema di classificazione mobile-friendly. Questo sistema interviene nelle situazioni in cui sono presenti molte possibili corrispondenze con una pertinenza relativamente uguale, dando priorità e preferenza ai contenuti mobile-friendly che hanno migliore visualizzazione sui dispositivi mobili, più utili per le persone che effettuano ricerche da smartphone e tablet. Successivamente è stato incorporato nel sistema Page Experience, ma nell’aggiornamento della guida di aprile 2023 non è più citato espressamente.
- Page speed system – Sistema di velocità della pagina. Annunciato originariamente nel 2018 come “Page Speed Update“, questo algoritmo interveniva in situazioni di pari condizioni per classificare meglio i contenuti che si caricavano più velocemente per gli utenti da dispositivi mobili. Successivamente è diventato parte del sistema Page Experience, anche se nell’aggiornamento di aprile 2023 non è più citato espressamente.
- Panda system. Annunciato nel 2011 e soprannominato “Panda“, questo sistema era progettato per assicurare la visibilità di contenuti originali e di alta qualità nei risultati di ricerca. Nel tempo si è evoluto e dal 2015 è diventato parte dei core ranking systems di Google.
- Penguin system. Annunciato nel 2012 e soprannominato “Penguin Update”, era progettato per combattere lo spam di link ed è stato integrato nei principali sistemi di classificazione nel 2016.
- Secure sites system – Sistema di siti sicuri. Annunciato nel 2014, era un algoritmo che assicurava una priorità nelle classifiche ai siti protetti con HTTPS a parità di altri condizioni; secondo Google, ha contribuito a incoraggiare la crescita di siti sicuri in un momento in cui l’uso di HTTPS era ancora piuttosto raro, e da allora è diventato parte del sistema dell’esperienza sulle pagine.
L’evoluzione di Google – e della SEO
Queste informazioni sono utili innanzitutto per avere una bussola su quelli che sono i principali sistemi che attualmente sono all’opera per formare le classifiche e le SERP di Google, ma anche per conoscere alcuni dettagli interessanti sulla considerazione che Google ha di tali sistemi e di quale apporto forniscono in concreto al ranking.
Ad esempio, possiamo notare che nella maggior parte dei casi si tratta di sistemi tie-breaker, che servono cioè a rompere la parità di fattori e condizioni determinando quindi quale pagina e quale contenuto debba apparire prima. È poi curioso scoprire che Google usa ancora un sistema che interpreta l’exact match per il dominio, ma poi concretamente ci dice che non vale la pena investire su un nome dominio così costruito solo per scopi di ranking perché sarebbe vano.
Più in generale, però, questa guida ci dà informazioni pratiche per la nostra attività, a cominciare dalla svolta lessicale voluta dal motore di ricerca – anche se (almeno per ora) non cambieremo i vecchi articoli rinominando gli update in system, lasciando quindi i vecchi nomi, anche per una questione di abitudine.
Di sicuro, questo è un ennesimo segnale di quanto Google stia cambiando e continui a evolvere, sia nel modo in cui presenta le informazioni agli utenti sia negli aggiornamenti degli algoritmi, che determinano di conseguenza un adattamento anche delle best practices SEO, che devono tenere il passo con cosa significa ottimizzare correttamente un sito web oggi.
Ad esempio, fino a non molto tempo fa la definizione di pertinenza significava semplicemente che una pagina web doveva riguardare ciò che l’utente stava cercando, ma oggi ciò non è più sufficiente perché i contenuti devono essere anche utili, originali e legati direttamente al search intent. Google si sta sempre più allontanando dall’identificazione delle parole chiave per raggiungere la comprensione dei molteplici significati inerenti alle query di ricerca, e ha detto chiaramente ai creatori di smettere di scrivere contenuti incentrati solo sulle keyword perché appaiono innaturali e forzati.
L’altro aspetto considerevole è il contesto, l’ambientazione in cui qualcosa viene detto o fatto, che fornisce significato a quelle azioni o impostazioni: oggi il contesto di una ricerca può influenzare i risultati e Google sta ridefinendo cosa significa essere rilevanti comprendendo il contesto dell’utente.