Come funziona la Ricerca Google: indicizzazione e posizionamento

SEO Gennaro Mancini 12 Aprile 2023

Scalare la SERP e conquistare la prima posizione su Google è l’ambizione di tutti coloro che lavorano alla SEO, ma prima di lanciarsi alla conquista della visibilità organica è opportuno fare qualche passo indietro e concentrarsi sulla teoria e, nello specifico, su quelle che sono le basi per apparire davvero sul motore di ricerca. Parliamo cioè di indicizzazione e posizionamento, le fasi tecniche cruciali che rappresentano la porta di accesso al sistema della Ricerca, e che determinano la visualizzazione effettiva delle pagine del sito in Search e, conseguentemente, la valutazione degli algoritmi ai fini della classifica.

Che cos’è l’indicizzazione su Google

Iniziamo dalle nozioni tecniche e dal significato di indicizzare un sito, topic imprescindibile per capire come funziona Google Search.

Con la parola indicizzazione si fa riferimento al semplice inserimento di un sito web nel database del motore di ricerca, ovvero l’indice di Google che viene definito come un elenco di tutte le pagine web conosciute da Google, composto da centinaia di miliardi di pagine web, le cui dimensioni superano i 100.000.000 di gigabyte.

Creare un sito web e pubblicare contenuti online non significa che in automatico e all’istante tutte le sue pagine appaiano fra i risultati di ricerca: i web crawler, infatti, attuano una prima selezione di tutti gli URL che visitano e decidono quali inviare all’indice, appunto.

È questo il senso (in estrema sintesi) della indicizzazione, l’attività tecnica che precede il posizionamento e che, semplicemente, specifica che una pagina è stata presa in considerazione, analizzata e memorizzata da Google.

Indicizzazione Google, come funziona l’individuazione delle pagine

Per indicizzare un sito, il motore di ricerca utilizza i dati ottenuti attraverso una scansione eseguita dal crawler di Google – il famoso Googlebot– che viaggia alla scoperta di nuovi siti e alla verifica dei contenuti già monitorati per segnalare variazioni per l’aggiunta all’indice di Google.

L’indice contiene le pagine Web scoperte durante la scansione ed è quindi un vero e proprio elenco di tutte le risorse che i crawler hanno incontrato e reputato adatte a essere inserite nel sistema della Ricerca.

Volendo usare una similitudine, attraverso l’indicizzazione è come se Google costruisse una biblioteca, composta non di libri ma di siti e pagine Web: ogni parola visualizzata su ciascuna pagina web indicizzata ha una voce, perché una pagina indicizzata viene aggiunta alle voci per tutte le parole che contiene.

Facendo riferimento alla guida ufficiale di Google, l’indicizzazione “include l’elaborazione e l’analisi dei contenuti testuali e di tag di contenuti chiave e attributi, come gli elementi title e gli attributi ALT, immagini, video e altro ancora”.

Durante la procedura, Google determina se una pagina è un duplicato di un’altra pagina su Internet o se è canonica – ovvero, la versione preferita e più rappresentativa di un cluster, che potrà essere mostrata nei risultati di ricerca. Inoltre, l’indicizzazione dipende anche dai contenuti della pagina e dai relativi metadati.

I processi di scansione sono in continua esecuzione per tenere il passo delle variazioni costanti che interessano il Web e altri contenuti, apprendendo la frequenza con cui contenuti già esaminati vengono modificati e scansionandoli se necessario. In questa attività, inoltre, scoprono anche nuovi contenuti man mano che vengono visualizzati nuovi link a tali pagine o informazioni.

Sempre dal punto di vista generale, Google premette e sottolinea che “non accetta mai pagamenti per eseguire la scansione di un sito più frequentemente”, in quanto fornisce “gli stessi strumenti a tutti i siti web per garantire i migliori risultati possibili” per tutti gli utenti.

Quali tipi di file sono indicizzabili da Google

Un altro aspetto tecnico che influisce sulla capacità dei crawler di comprendere i contenuti per l’indicizzazione è l’utilizzo di file appropriati in pagina; Google è in grado di indicizzare i contenuti della maggior parte dei tipi di pagine e file, e tra i tipi di file più comuni che possono essere indicizzati ci sono:

Adobe Portable Document Format (.pdf)
Adobe PostScript (.ps)
Valori separati da virgola (CSV)
Google Earth (.kml, .kmz)
GPS eXchange Format (.gpx)
Hancom Hanword (.hwp)
HTML (.htm, .html, altre estensioni di file)
Microsoft Excel (.xls, .xlsx)
Microsoft PowerPoint (.ppt, .pptx)
Microsoft Word (.doc, .docx)
Presentazione OpenOffice (.odp)
Foglio di lavoro OpenOffice (.ods)
Testo OpenOffice (.odt)
Rich Text Format (.rtf)
Scalable Vector Graphics (.svg)
TeX/LaTeX (.tex)
Testo (.txt, .text, altre estensioni di file), compreso il codice sorgente nei linguaggi di programmazione comuni:
- Codice sorgente Basic (.bas)
- Codice sorgente C/C++ (.c, .cc, .cpp, .cxx, .h, .hpp)
- Codice sorgente C# (.cs)
- Codice sorgente Java (.java)
- Codice sorgente Perl (.pl)
- Codice sorgente Python (.py)
Wireless Markup Language (.wml, .wap)
XML (.xml)

Google può indicizzare anche alcuni formati multimediali, ovvero:

Formati immagine: BMP, GIF, JPEG, PNG, WebP e SVG
Formati video: 3GP, 3G2, ASF, AVI, DivX, M2V, M3U, M3U8, M4V, MKV, MOV, MP4, MPEG, OGV, QVT, RAM, RM, VOB, WebM, WMV e XAP.

Perché è importante l’indicizzazione su Google

Forse è superfluo dirlo, ma lanciare un sito online e non essere su Google (non parliamo di prestazioni di scarso rilievo, ma di assoluta assenza nell’indice) è come possedere una linea telefonica di cui nessuno conosce il numero.

L’indicizzazione è infatti un prerequisito per ottenere traffico organico da Google: se vogliamo che le nostre pagine siano effettivamente visualizzate nella Ricerca, devono prima essere indicizzate correttamente – ovvero, Google deve trovare e salvare queste pagine, inserendole nel suo Indice, per poi analizzare il loro contenuto e decidere per quali query potrebbero essere pertinenti – e più pagine del sito rientrano in questo elenco, maggiori saranno le possibilità di apparire nei risultati di ricerca.

Quando non si eseguono correttamente tutti i passaggi, la visibilità del sito è praticamente nulla e il traffico cala drasticamente o si azzera, perché le ricerche organiche sono responsabili di più del 50% di tutto il traffico Web e quasi 7 esperienze di navigazione su 10 nascono su Google o su un altro motore di ricerca.

Pertanto, incappare in errori e problemi di indicizzazione può impedire la visualizzazione delle pagine del sito nella Ricerca Google, ed è quindi cruciale (a dir poco) sapere se Google può effettivamente indicizzare i nostri contenuti e sapere come verificare se il sito è indicizzato correttamente, utilizzando strumenti come la Google Search Console, che con il Rapporto sullo stato della copertura dell’indice fornisce anche informazioni utili sul problema specifico che ha impedito l’inserimento nell’elenco. Inoltre, qualche tempo fa Google ha testato negli Stati Uniti la feature Report an Indexing Issue che permette proprio di segnalare problemi di indicizzazione – mentre due motori di ricerca alternativi, Bing e Yandex, hanno lanciato il sistema IndexNow per sottoporre manualmente una pagina da indicizzare.

Un sito non indicizzato è praticamente invisibile

Nonostante questi passi in avanti, però, può capitare spesso di non ritrovare una pagina (o un intero sito) nella Ricerca.

È importante ricordare – e Google lo dice apertamente – che non tutte le pagine che Googlebot riesce a trovare sono poi effettivamente indicizzate e aggiunte all’indice Google: in alcuni casi, come accennato, ciò dipende dalle valutazioni del motore di ricerca, ma in altre situazioni può essere effetto di una scelta (più o meno consapevole) da parte dei proprietari o dei gestori del sito.

Oltre a strumenti per bloccare la scansione e l’indicizzazione dei crawler, ci possono infatti essere molti potenziali problemi di indicizzazione, errori o complicazioni che potrebbero impedire a Google di inserire correttamente le pagine Web nel suo Indice, e solo conoscendoli (o, almeno, conoscendo i principali e più frequenti) è possibile apprendere le soluzioni da attuare per ritornare ad avere visibilità sul motore di ricerca ed evitare che pagine per noi preziose non siano prese in considerazione.

Come supportare Google per l’indicizzazione

Prima di approfondire le questioni spinose legate a errori e problemi, però, cerchiamo di definire in che modo possiamo facilitare l’indicizzazione di Google.

Innanzitutto, come consiglia lo stesso motore di ricerca, possiamo usare il set di strumenti della Search Console per supportare Googlebot a scansionare meglio i nostri contenuti, comunicando in prima persona gli URL che riteniamo prioritari da aggiungere e monitorando periodicamente lo stato delle scansioni delle risorse principali del nostro sito.

Ancora più importante, in qualità di proprietari o gestori di siti possiamo servirci di standard consolidati quali le Sitemap o il file robots.txt per specificare la frequenza con cui il crawler dovrebbe visitare le nostre pagine e i nostri contenuti o per segnalare risorse che non devono essere incluse nell’indice di ricerca.

Che cos’è il tag noindex

In questo secondo caso – escludere pagine dalla scansione – è fondamentale conoscere il tag noindex, che serve appunto a bloccare la scansione di Googlebot sulla pagina di riferimento o addirittura su tutto il sito; che si scelga di utilizzare il tag <meta> o l’intestazione di risposta HTTP, comunicare il noindex a Google significa far eliminare le risorse relative dalla Search, “a prescindere dalla presenza o meno di altri siti contenenti link che rimandano alla pagina”.

Come ricorda la guida di Google, affinché l’istruzione noindex sia efficace “la pagina o l’istruzione non deve essere bloccata da un file robots.txt e deve essere altrimenti accessibile al crawler”. Se la pagina è bloccata da un file robots.txt oppure non è possibile accedervi, il crawler non rileverà mai l’istruzione noindex e la pagina potrà essere ancora visualizzata nei risultati di ricerca, ad esempio se altre pagine contengono link che rimandano alla pagina.

Come richiedere a Google una nuova scansione di URL

Approfondendo invece le possibilità di richiesta di nuova scansione a Google, abbiamo a disposizione due modalità alternative per questo scopo, da usare quando aggiungiamo una nuova pagina sul sito o apportiamo modifiche a una pagina esistente. La scansione in genere può richiedere da alcuni giorni ad alcune settimane, e l’invito è quello di essere paziente e monitorare l’avanzamento tramite il report Stato dell’indicizzazione o lo strumento Controllo URL.

Anche intervenendo direttamente, però, la richiesta di scansione non assicura l’inclusione, né l’inclusione immediata, della pagina nei risultati di ricerca: Google dà sempre priorità alla rapida inclusione di contenuti utili e di alta qualità – almeno, questa è la dichiarazione ufficiale.

Se vogliamo chiedere l’indicizzazione di pochi URL possiamo utilizzare lo strumento Controllo URL di GSC, tenendo presente che esiste una quota per l’invio di singoli URL e che la richiesta di una nuova scansione più volte per lo stesso URL non velocizza i tempi di scansione.

L’altro sistema, utile per segnalare un numero elevato di URL contemporaneamente, è rappresentato dalla sitemap, che è “un metodo importante per Google per trovare gli URL sul sito”. La mappa può essere molto utile, dice Google, soprattutto se abbiamo appena lanciato il sito o se di recente abbiamo eseguito uno spostamento del sito, e può includere anche metadati aggiuntivi sulle versioni in altre lingue e sulle pagine specifiche di video, immagini o notizie.

Indicizzazione su Google, l’analisi degli errori che bloccano l’inserimento nell’Indice

E veniamo quindi all’analisi delle situazioni che possono impedire la visualizzazione delle pagine e quindi causare gravi danni ai rendimenti del sito.

Di solito, Google segnala che le principali cause che impediscono l’indicizzazione sono errori del server o pagine in 404, design del sito web che rendere difficile l’indicizzazione, regole del meta tag Robots che impediscono l’inserimento nell’indice e probabile presenza di pagine con potrebbe avere contenuto scarso o duplicato, o comunque contenuti di bassa qualità.

Ma Tomek Rudzki è andato oltre e, come spiega in un articolo pubblicato su Search Engine Journal, ha analizzato e individuato quali sono i problemi di indicizzazione più comuni che impediscono la visualizzazione delle pagine nella Ricerca Google.

Grazie alla sua esperienza e attività quotidiana di ottimizzazione tecnica dei siti per renderli più visibili su Google ha “accesso a diverse dozzine di siti in Google Search Console”; per ottenere statistiche affidabili ha quindi iniziato con la creazione di un campione di pagine, combinando i dati di due fonti, ovvero siti dei clienti già disponibili e dati anonimi condivisi da altri professionisti SEO, coinvolti attraverso un sondaggio su Twitter e contatti diretti.

Lo studio sui più frequenti errori di indicizzazione

Rudzki descrive il processo preliminare per ottenere informazioni valide, e in particolare come ha escluso i dati di pagine lasciate fuori indicizzazione per scelta – vecchi URL, articoli che non sono più pertinenti, parametri di filtro nell’e-commerce e altro ancora – attraverso i vari modi a disposizione, “inclusi il file robots.txt e il tag noindex”.

Quindi, l’esperto ha “rimosso dal campione le pagine che soddisfacevano uno dei seguenti criteri”:

Bloccato da robots.txt.
Contrassegnato come noindex.
Reindirizzato.
Restituzione di un codice di stato HTTP.

Inoltre, per migliorare ulteriormente la qualità del campione, sono state considerate solo le pagine incluse nelle Sitemap, che sono “la rappresentazione più chiara di URL di valore da un determinato sito web”, pur nella consapevolezza che “ci sono molti siti Web che contengono spazzatura nelle loro sitemap, e alcuni che includono persino gli stessi URL nelle loro Sitemap e nei file robots.txt”.

I problemi di indicizzazione dipendono anche dalle dimensioni del sito

Grazie al campionamento, Rudzki ha scoperto che “i problemi di indicizzazione più diffusi variano a seconda delle dimensioni di un sito web”. Per la sua indagine, ha suddiviso i dati in 4 categorie dimensionali:

Piccoli siti web (fino a 10.000 pagine).
Siti web medi (da 10.000 a 100.000 pagine).
Grandi siti web (fino a un milione di pagine).
Enormi siti web (oltre 1 milione di pagine).

A causa delle differenze nelle dimensioni dei siti campionati, l’autore ha cercato un modo per normalizzare i dati, perché “un problema particolare riscontrato da un sito enorme potrebbe aver maggior peso dei problemi che potrebbero avere altri siti più piccoli”. Quindi, è stato necessario esaminare “individualmente ogni sito per ordinare i problemi di indicizzazione con cui sta lottando”, e poi assegnare “punti ai problemi di indicizzazione in base al numero di pagine interessate da un determinato problema su un determinato sito”.

Quali sono principali problemi di indicizzazione dei siti

Questo meticoloso lavoro ha quindi permesso di individuare i primi 5 problemi di indicizzazione riscontrati su siti Web di tutte le dimensioni:

Scansionato – attualmente non indicizzato (problema di qualità).
Contenuti duplicati.
Rilevato – attualmente non indicizzato (problema di crawl budget/qualità).
Soft 404.
Problema di scansione.

I problemi di qualità includono pagine con contenuti scarni, fuorvianti o eccessivamente di parte (biased): se una pagina “non fornisce contenuti unici e di valore che Google vuole mostrare agli utenti, avrai difficoltà a indicizzarla (e non dovresti essere sorpreso)”.
Google potrebbe poi riconoscere alcune delle pagine come contenuti duplicati, anche se ciò non era intenzionalmente previsto.

Un problema comune sono i tag canonical che puntano a pagine diverse, col risultato che la pagina originale non viene indicizzata; se ci sono contenuti duplicati, “utilizza il rel canonical o un reindirizzamento 301” per assicurare che “le pagine del tuo stesso sito non siano in competizione tra loro per visualizzazioni, clic e link”.

Come sappiamo, Google destina solo una quota di tempo alla scansione di ogni sito, che chiamiamo crawl budget: sulla base di diversi fattori, Googlebot eseguirà la scansione solo di una certa quantità di URL su ciascun sito web. Ciò significa che l’ottimizzazione è vitale, perché non dobbiamo permettere che il bot sprechi il suo tempo su pagine che non ci interessano e non sono utili per i nostri scopi.

Gli errori 404 indicano che “hai inviato una pagina eliminata o inesistente per l’indicizzazione”. I soft 404 visualizzano le informazioni “non trovato”, ma non restituiscono il codice di stato HTTP 404 al server. Reindirizzare le pagine rimosse ad altre irrilevanti è un errore comune, e anche redirect multipli possono essere visualizzati come errori soft 404: è quindi importante accorciare il più possibile le catene di redirect.

Ci sono infine molti problemi di scansione, ma quello probabilmente più importante sono gli issues con robots.txt: se Googlebot “trova un file robots.txt per il tuo sito ma non riesce ad accedervi, non eseguirà affatto la scansione del sito”.

Indicizzazione, i principali problemi in base alle diverse dimensioni di siti

Dopo aver evidenziato le difficoltà principali in senso generale, l’autore ha analizzato anche quali sono le cause suddivise in base alle dimensioni del sito preso in esame.

Piccoli siti web (campione di 44 casi)

Scansionato, attualmente non indicizzato (problema di qualità o crawl budget).
Contenuti duplicati.
Problema di budget di scansione.
Soft 404.
Problema di scansione.

Siti web medi (8 casi)

Contenuti duplicati.
Scoperto, attualmente non indicizzato (budget di scansione / problema di qualità).
Scansionato, attualmente non indicizzato (problema di qualità).
Soft 404 (problema di qualità).
Problema di scansione.

Siti web grandi (9 siti)

Scansionato, attualmente non indicizzato (problema di qualità).
Scoperto, attualmente non indicizzato (crawl budget / problema di qualità).
Contenuti duplicati.
Soft 404.
Problema di scansione.

Siti web enormi (9 siti)

Scansionato, attualmente non indicizzato (problema di qualità).
Scoperto, attualmente non indicizzato (crawl budget / problema di qualità).
Contenuti duplicati (duplicato, URL inviato non selezionato come canonico).
Soft 404.
Problema di scansione.

Le considerazioni sui problemi di indicizzazione comuni

È interessante notare che, secondo questi risultati, due categorie di siti Web di dimensioni diverse – grandi ed enormi – soffrono degli stessi problemi: ciò “mostra quanto sia difficile mantenere la qualità nel caso di siti di grandi dimensioni”.

Gli altri punti salienti che emergono dallo studio:

Anche i siti web relativamente piccoli (oltre 10mila pagine) potrebbero non essere completamente indicizzati a causa di un crawl budget insufficiente.
Più grande è il sito web, più urgenti diventano i problemi di budget / qualità della scansione.
Il problema del contenuto duplicato è grave, ma il suo peso cambia a seconda delle dimensioni del sito.

Le pagine orfane e gli URL sconosciuti a Google

Nel corso della ricerca, Tomek Rudzki ha notato che “c’è un altro problema comune che impedisce l’indicizzazione delle pagine”, pur non raggiungendo lo stesso impatto quantitativo di quelli descritti. Si tratta delle pagine orfane, ovvero di pagine che non sono linkate da altre risorse sul sito: se Google non ha un “percorso per trovare una pagina attraverso il tuo sito web, potrebbe non trovarla affatto”.

La soluzione è piuttosto semplice, ovvero aggiungere link da pagine correlate oppure inserire la pagina orfana nella sitemap: nonostante questo, “molti webmaster ancora trascurano di farlo” ed espongono il sito a problemi più rischiosi, conclude l’autore.

15 cause che bloccano la presenza delle pagine su Google

I problemi di indicizzazione sono quindi frequenti e dannosi, e grazie a un altro studio, condotto da da Brian Harnish su Search Engine Journal, possiamo analizzare un elenco di 15 cause che bloccano la presenza delle pagine nella Ricerca e ostacolano il successo del nostro progetto, nonché scoprire le possibili risoluzioni dei problemi.

Errori e problematiche che impediscono l’indicizzazione

Un primo aspetto da non trascurare è che i tempi dell’indicizzazione su Google non sono immediati e possono servire giorni o addirittura settimane prima che il motore di ricerca aggiunga una risorsa all’elenco: quindi, prima di supporre che ci sia un problema, sarebbe opportuno aspettare almeno una settimana dall’invio di una Sitemap o dalla richiesta di indicizzazione, e ricontrollare sempre dopo una settimana se risultano ancora mancanti eventuali pagine modificate.

Un possibile motivo per cui Google non indicizza un sito è l’assenza di un nome di dominio, che può dipendere dal fatto che stiamo utilizzando l’URL sbagliato per il contenuto o da un erronea impostazione su WordPress.

Se questo è ciò che sta accadendo, ci sono alcune soluzioni facili: innanzitutto, possiamo verificare se l’indirizzo web inizia o meno con “https://XXX.XXX…” – il che significa che qualcuno potrebbe digitare un indirizzo IP invece di un nome di dominio e essere reindirizzato al sito – e poi controllare che il reindirizzamento dell’indirizzo IP sia configurato correttamente.

Un modo per risolvere questo problema consiste nell’aggiungere redirect 301 dalle versioni WWW delle pagine ai rispettivi domini e, di base, assicurarsi di avere un nome di dominio.

Un problema simile si verifica se il sito è indicizzato con un dominio diverso o con sottodominio – ad esempio, con http://example.com anziché http://www.example.com.

A impedire l’inserimento delle pagine in Google sono anche problemi di qualità dei contenuti, che anzi sono la causa principale di mancata indicizzazione: sappiamo che i contenuti ben scritti sono fondamentali per avere successo su Google, e quindi se proponiamo pagine di scarsa qualità che non raggiungono neppure i livelli della concorrenza è difficile pensare che i crawler li prendano in considerazione.

Non si tratta di aspetti legati a miti del SEO copywriting come word count o keyword density, perché possono non essere indicizzati contenuti di 300 parole ma anche quelli con mille parole, ma di thin content e dei soliti concetti di qualità e utilità: ovvero, le nostre pagine devono essere buone e informative, devono rispondere a domande dell’utente (implicite o esplicite), fornire informazioni o avere un punto di vista sufficientemente diverso da altri siti nella stessa nicchia.

Un sito poco attento all’utente non piace neppure a Google

Avere un sito user-friendly e coinvolgente è fondamentale per una buona SEO, e di conseguenza un sito che non è facile da usare e non coinvolge i visitatori (o, peggio, prevede un sistema di navigazione articolato in complesse gerarchie di collegamento che crea frustrazione o esasperazione) è un elemento che può causare problemi di indicizzazione.

Google non vuole che gli utenti trascorrano troppo tempo su una pagina che impiega un’eternità a caricarsi, ha una navigazione confusa o è semplicemente difficile da usare perché ci sono troppe distrazioni (come gli annunci above the fold o gli interstial).

Ciò vale in particolare per le persone che usano dispositivi mobile, un ambito in cui Google ha introdotto ormai da sei anni il mobile-first Index e dove valgono delle regole semplici: non importa quanto sia bello il contenuto, se l’utente che usa smartphone o tablet non riesce a visualizzarlo. L’ottimizzazione per dispositivi mobili si basa sull’aggiunta di principi di progettazione responsive, e componenti quali griglie fluide e CSS Media Query possono fare molto per assicurarci che gli utenti trovino ciò di cui hanno bisogno senza riscontrare problemi di navigazione.

Soprattutto dopo l’introduzione della Page Experience tra i fattori di ranking, il tempo di caricamento è un elemento che può determinare l’esclusione dall’Indice di Google e ci possono essere diversi problemi che influiscono sul tempo necessario a caricare le pagine. Ad esempio, ci potrebbero essere in pagina troppi contenuti che complicano la gestione da parte del browser di un utente, oppure usiamo un server obsoleto con risorse limitate: ad ogni modo, ciò che conta è assicurare un caricamento rapido.

I problemi tecnici che possono ostacolare l’inserimento nell’Indice

Veniamo ora ad alcuni esempi concreti di problemi tecnici che possono impedire alle pagine e al sito di essere analizzato correttamente da Googlebot per l’inserimento nell’Indice.

Parliamo di scelte come l’utilizzo di un linguaggio di programmazione troppo complesso, sia vecchia che moderna come JavaScript, che abbia impostazioni non corrette e causi problemi di scansione e indicizzazione.

Più specificamente, l’uso di JavaScript per visualizzare i contenuti potrebbe provocare situazioni negative: non si tratta di un problema con questo linguaggio in sé, quanto piuttosto della sua applicazione con tecniche che possono somigliare al cloaking o comunque apparire losche. Ad esempio, se abbiamo HTML renderizzato e HTML grezzo, e un link in questo raw HTML che non è presente in quello renderizzato, Google potrebbe non scansionare o indicizzare tale collegamento; per cui, come dice Harnish, “non nascondere i tuoi file JS e CSS anche se ti piace farlo”, perché “Google ha affermato di voler vedere tutti i tuoi file JS e CSS durante la scansione”.

Stesse difficoltà di vedere la pagina nelle SERP le troviamo se usiamo dei plugin che impediscono a Googlebot di eseguire la scansione del sito: l’esperto statunitense cita a questo proposito il robots.txt, che può essere impostato automaticamente su noindex per tutto il sito, rendendo di fatto impossibile il crawling di Googlebot.

Ovviamente, anche il file robots.txt stesso può essere un elemento critico ed è opportuno seguire le best practices per cercare di evitare o limitare gli errori, pensando attentamente di quali parti del sito vogliamo evitare la scansione e quindi usare il disallow di conseguenza su queste sezioni poco importanti. Di base, una buona strategia di SEO tecnica può prevenire questo tipo di errori di indicizzazione, così come aiutare le pagine ad avere buoni parametri nei Core Web Vitals e in altri aspetti che possono influire sulla capacità di Google di analizzare le pagine e reputarle degne del suo Indice.

Gli altri aspetti che possono influire sull’indicizzazione delle pagine

La gestione della SEO tecnica permette anche di evitare di ricadere in situazioni che possono generare problemi al corretto funzionamento del sito, come ad esempio erronee impostazioni dei meta tag robots (come impostazioni involontarie e indesiderate su noindex, nofollow) o dei loop di redirect.

Le catene di reindirizzamenti, in particolare, possono derivare anche da errori di battitura nella stesura dell’URL, che creano un indirizzo duplicato che punta a se stesso; per individuare e risolvere tali casi, in WordPress possiamo trovare il file .htaccess e cercare l’elenco dei redirect, verificando che tutto sia a norma (ed eventualmente impostando i redirect 302 in 301).

È poi importante sottoporre una sitemap a Google, che è forse il metodo migliore per far scoprire al motore di ricerca le pagine del sito e per aumentare le possibilità che ogni pagina venga scansionata e indicizzata correttamente. Senza sitemap, Googlebot incapperà casualmente e alla cieca nelle nostre pagine, a meno che non siano già indicizzate e ricevano traffico; inoltre, non basta inviare una sola volta la mappa (soprattutto per siti dinamici), ma bisogna aggiornare e inviare periodicamente il file per la scansione e l’indicizzazione delle pagine importanti e dei contenuti nuovi.

Un ultimo elemento che può determinare la mancata indicizzazione delle pagine del sito è da ricercare nella storia stessa del dominio e, nello specifico, all’eventuale presenza di azioni manuali pregresse e non corrette. Google ha ripetutamente affermato che le sanzioni possono perseguitarci e se non eseguiamo correttamente il processo di riconsiderazione per ripulire il sito è altamente probabile che anche le nuove risorse non trovino spazio nell’Indice. Ciò vale anche per i domini acquistati di recente, che potrebbero avere alle spalle una storia oscura di penalizzazioni Google – motivo per cui è fondamentale verificare prima la “fedina penale” del sito prima dell’investimento, perché poi può servire tempo prezioso per far capire a Google che c’è una nuova proprietà che ha tagliato i ponti col passato.

Quali sono i 15 motivi di problemi di indicizzazione su Google

Ricapitolando visivamente prima della conclusione, quindi, le 15 potenziali cause di problemi di indicizzazione su Google sono:

Tempo di attesa
Assenza di nome dominio
Indicizzazione con dominio diverso
Contenuti di scarsa qualità
Scarsa user experience
Sito non mobile-friendly
Pagine di lento caricamento
Linguaggi di programmazione complessi
JavaScript utilizzato in maniera impropria
Plugin che bloccano Googlebot
Blocchi nel file robots.txt
Impostazioni nei meta tag robots
Catene di redirect
Mancato invio di sitemap
Dominio sanzionato con azioni manuali non risolte

Comprendiamo, quindi, che ci sono tantissimi elementi da valutare se riscontriamo l’assenza delle nostre pagine dalla Ricerca di Google, un vero e proprio guaio che rischia di vanificare tutti gli sforzi SEO perché, di fatto, ci toglie notevolmente la visibilità e l’opportunità di raggiungere il pubblico.

E quindi, oltre a dedicare giustamente tempo alla cura di contenuti, SEO tecnica e gestione dei link (componenti fondamentali per consentire al sito e alle sue pagine di raggiungere la qualità e l’autorevolezza necessarie per competere sul motore di ricerca), non dobbiamo però tralasciare l’attenzione all’indicizzazione, il primo step della nostra corsa alla prima pagina.

Che cos’è il posizionamento su Google

Conclusa la fase di scansione e di indicizzazione, ci avviciniamo al cuore delle attività SEO, ovvero il posizionamento su Google: dal punto di vista tecnico, posizionare un sito significa farlo comparire per determinate query nelle pagine dei risultati di ricerca di Google, le famose SERP (Search Engine Results Page), organizzate solitamente per mostrare 10 risultati per pagina.

Protagonista e responsabile del posizionamento è l’algoritmo di Google, che prende in esame i celeberrimi fattori di ranking per elaborare queste classifiche, che sono in costante aggiornamento.

Dal punto di vista tecnico, quando un utente inserisce una query, i computer di Google cercano le pagine corrispondenti nell’indice, poi restituiscono i risultati ritenuti della migliore qualità e più pertinenti per quella query. Google non accetta pagamenti per migliorare il ranking di una pagina, che viene eseguito in modo programmatico, e la scelta della posizione in classifica si basa appunto su centinaia di fattori, tra cui la posizione, la lingua e il dispositivo dell’utente (computer o telefono).

Quanto conta il posizionamento su Google

Chiaramente, c’è differenza tra essere presenti al primo posto di una SERP e comparire nelle altre pagine, al punto che una vecchia battuta sostiene che il “luogo più sicuro in cui seppellire un cadavere è la seconda pagina di Google”, mentre uno studio (datato, ma ancora attuale) stima che la prima pagina generi il 91 per cento del totale del traffico su Google, la seconda sfiori il 5 per cento e le altre oscillino tra l’1 per cento e altre quote a dir poco minime.

Dati che spiegano e motivano la competizione che esiste nella scalata alle SERP, perché la visibilità e le prestazioni di un sito dipendono fortemente dalla capacità di raggiungere le prime posizioni tra i risultati di Google. E che spiegano anche l’importanza di ottimizzare un sito per cercare di farlo rendere meglio, apportando le correzioni e gli interventi di miglioramento on-page o off-page per incrementare il ranking.

Il significato di posizionamento organico

In questo contesto, ci riferiamo prioritariamente o esclusivamente al posizionamento organico o naturale (organic placement), quello che appunto si ottiene attraverso azioni di ottimizzazione del sito, che riguardano la strutturazione del sito, la pulizia del codice, l’usabilità, l’attenzione ai contenuti, il miglioramento di meta tag e così via, compresa l’attività di link earning che può servire a rendere un sito più autorevole per i motori di ricerca.

Il posizionamento tramite inserzioni a pagamento

Accanto a questo, però, non bisogna dimenticare il posizionamento che si stabilisce con i link sponsorizzati (pay per click o sponsored links), che sono invece le inserzioni a pagamento vendute dai motori di ricerca che anticipano la SERP per alcune query di rilievo per il sito promosso. In questo caso, il posizionamento si basa sui criteri definiti dal network pubblicitario e, in genere, dipende dal costo per click a carico dell’inserzionista stesso, come dicevamo anche parlando della SEA o Search Engine Advertising.

Differenza tra indicizzazione e posizionamento del sito su Google

In definitiva, dovrebbe essere abbastanza chiara la differenza tra indicizzazione e posizionamento di un sito su Google: indicizzare è un’operazione automatica che segue la scansione eseguita da un crawler e che determina l’inserimento del sito nell’indice di Google. Il posizionamento è il passaggio successivo, per così dire, ovvero la valutazione che l’algoritmo di Google fa del sito e dei suoi contenuti rispetto ai suoi parametri, che determina la posizione (appunto) in risposta alle query degli utenti.