Crawling: cos’è, come funziona e perché serve la scansione

SEO Gennaro Mancini 16 Settembre 2024

Inizia tutto da qui. È grazie al crawling che i motori di ricerca come Google riescono a scoprire, esplorare e organizzare i contenuti presenti sul web, navigando il web, i miliardi di pagine connesse e un’infinita serie di collegamenti ipertestuali che formano questa rete complessa e dinamica. Senza la scansione non ci sarebbe alcun posizionamento né, chiaramente, la SEO, perché le pagine web resterebbero invisibili ai motori di ricerca, compromettendo così la loro capacità di essere trovate dai potenziali visitatori. Insomma, è sull’attività di ricerca e dalle visite compiute dai bot che si basa il funzionamento della Rete (e il nostro lavoro per conquistare la visibilità online): comprendere come funziona il crawling è quindi essenziale per capire come i motori di ricerca indicizzano i siti e assegnano loro una posizione nei risultati di ricerca.

Che cos’è il crawling, la scansione per i motori di ricerca

Il crawling, è il processo di scansione durante il quale i motori di ricerca inviano nel Web dei programmi automatici per trovare contenuti nuovi e aggiornati, che saranno poi aggiunti ai vari indici dei search engine.

Più precisamente, in ambito informatico il crawling definisce l’intero processo di accesso a un sito web e recupero di dati ottenuti tramite un programma informatico o software.

Tieni il tuo sito sotto controllo

Analizza e monitora le tue pagine e assicura la salute digitale del tuo progetto

Scopri di più

Questi programmi, spesso chiamati crawler, bot o spider, navigano tra i vari link presenti su una pagina web, proprio come farebbe un visitatore umano, ma con l’obiettivo specifico di scansionare il contenuto delle pagine stesse.

La tipologia di contenuto è ampia e può variare – una pagina web, un’immagine, un video, un PDF e così via – ma, indipendentemente dal formato, il contenuto viene scoperto tramite link, che siano presenti su pagine già note o attraverso le sitemap che un sito fornisce direttamente.

Questa scansione non si limita a una semplice lettura dei testi: i web crawler identificano e analizzano ogni elemento della pagina, dai titoli alle immagini, dal testo ai collegamenti ipertestuali, fino ai metadati e al codice HTML sottostante. L’informazione raccolta durante il crawling viene poi memorizzata e organizzata in giganteschi database noti come “indici” che, aggiornati continuamente, sono fondamentali per consentire ai motori di ricerca di restituire risultati rilevanti e tempestivi agli utenti che eseguono una ricerca.

In termini concreti, il crawling è quindi il primo passo di un processo più ampio che permette ai motori di ricerca di “capire” quali pagine esistono sul web, di categorizzarle e di determinarne la rilevanza. Senza una corretta esecuzione del crawling, un sito rischia di rimanere ignorato dai motori di ricerca e, di conseguenza, invisibile agli utenti. Pertanto, ottimizzare le pagine per facilitare il lavoro dei crawler diventa un aspetto cruciale della SEO.

Cosa significa crawling o scansione

In inglese, questa complessa attività si chiama crawling.

La parola deriva dal verbo to crawl, che in italiano si traduce come “strisciare” o “avanzare lentamente“, vicini al suolo. Questo verbo evoca l’idea di un movimento graduale ma costante, proprio come fanno un ragno o un neonato appena in grado di muoversi autonomamente.

Il riferimento al ragno non è per nulla casuale e rimanda al concetto di Web delle origini: Tim Berners-Lee, l’inventore del World Wide Web, utilizzò questo termine per sottolineare come Internet sia composto da un insieme vasto e interconnesso di documenti leggibili attraverso i browser. Proprio come una ragnatela cattura tutto ciò che incontra sui suoi fili, il Web è una struttura in cui pagine di diverse origini sono legate da collegamenti ipertestuali (link).

Tornando al crawling, comprendiamo allora perché i bot automatizzati che eseguono la scansione si chiamano crawler o spesso spider, ovvero ragni: proprio come gli aracnidi, seguono il percorso tracciato dai fili dei link per creare la Rete, andando automaticamente alla ricerca o all’aggiornamento delle pagine web per conto del motore di ricerca, così da raccogliere contenuti e definire i percorsi migliori per mappare il web

L’aggiunta di sinonimi come crawler o bot rafforza questa idea, descrivendo ulteriormente la natura dell’esplorazione: “strisciare” e “scansionare” suggeriscono un’azione continua, precisa e quasi impercettibile che setaccia il web senza lasciare angoli inesplorati. I crawler procedono dunque attraverso la rete seguendo i link da una pagina all’altra, “strisciando” attraverso i contenuti online per raccogliere e catalogare informazioni utili all’indicizzazione, eseguendo operazioni in modo meticoloso e sistematico.

E se crawling può essere tradotto in italiano come “scansione” o “esplorazione”, nessuna traduzione nella nostra lingua cattura esattamente tutto il significato evocativo del termine inglese, motivo per cui spesso il termine viene lasciato in inglese nel linguaggio tecnico perché più preciso nel definire l’azione specifica dei bot dei motori di ricerca.

Che cosa sono i crawler e cosa fanno

Un crawler è quindi a un programma automatizzato che svolge l’importante attività di esplorazione del web. Ogni crawler o spider è incaricato di navigare attraverso link, un sito alla volta, e “scansionare” automaticamente le pagine che incontra, consentendo ai motori di ricerca di rilevare nuovi contenuti, aggiornamenti o modifiche alle pagine web esistenti, e di memorizzarli nei loro indici.

Il funzionamento di un crawler può essere semplificato immaginandolo come un esploratore digitale che attraversa vasti territori di pagine web, seguendo ogni link e mappando meticolosamente ciò che trova lungo il percorso.

Tuttavia, non tutti i crawler sono creati uguali. Alcuni, come il notissimo Googlebot, sono specificamente progettati per eseguire questo processo in modo efficiente su scala globale. Googlebot è, per gran parte dei siti web, il principale responsabile del crawling: la sua attività è continua e ha lo scopo di aggiornare costantemente l’indice di Google con le nuove informazioni che trova.

Un aspetto fondamentale del ruolo del crawler è la sua capacità di seguire le “tracce” lasciate dai link presenti nelle pagine web. Questi collegamenti ipertestuali guidano il crawler verso nuove pagine, estendendo la sua mappatura e arricchendo l’indice di contenuti sempre nuovi e pertinenti. In assenza di un crawler efficace, l’intero ecosistema di un motore di ricerca rischierebbe di collassare, poiché non sarebbe in grado di offrire risultati aggiornati e utili agli utenti. Pertanto, comprendere e ottimizzare la propria infrastruttura online per il crawler è essenziale per migliorare la SEO e mantenere una presenza forte e visibile sui motori di ricerca.

A cosa serve il crawler? Scopo e funzioni

Il crawler è il pilastro essenziale del funzionamento di un motore di ricerca. La sua missione principale è quella di esplorare sistematicamente il web, scandendo ogni pagina, collegamento e risorsa che riesce a raggiungere. Questo processo non è casuale, ma estremamente organizzato: i crawler seguono un algoritmo che stabilisce quali pagine visitare, quale contenuto esplorare e quanto tempo dedicare a ciascuna risorsa, tutto in funzione di aggiornare gli indici dei motori di ricerca.

Un indice è, in breve, una colossale banca dati che raccoglie tutte le informazioni rilevanti delle pagine scansionate. Quando eseguiamo una ricerca su Google, ad esempio, non stiamo cercando direttamente sul web, ma stiamo interrogando proprio questo indice, che è stato creato e aggiornato attraverso il lavoro incessante dei crawler. Ecco perché la velocità e la qualità del crawling sono cruciali: senza un indice aggiornato, il motore di ricerca non sarebbe in grado di fornire risultati pertinenti e tempestivi.

Un aspetto fondamentale del ruolo del crawler riguarda anche la valutazione del valore di una pagina. Durante il processo di scansione, il bot raccoglie non solo il contenuto testuale ma anche segnali che indicano la qualità e la rilevanza di una risorsa. Elementi come la presenza di collegamenti ipertestuali di qualità, la velocità di caricamento della pagina, la struttura dei tag HTML, e la coerenza semantica dei contenuti sono tutti fattori che un crawler considera. Questi segnali contribuiscono a definire quanto una risorsa debba essere valorizzata all’interno dell’indice e, di conseguenza, quale posizionamento possa ottenere nei risultati di ricerca.

Crawling SEO: come la scansione influenza i motori di ricerca

Il crawling e la SEO sono legati da una relazione di reciproca influenza, in cui la qualità e l’efficacia della scansione delle pagine web possono determinare in larga misura il successo o il fallimento di una strategia di ottimizzazione. Ma come avviene questo processo? E qual è il suo impatto diretto sulla SEO?

Quando i crawler eseguono la scansione di un sito web, valutano simultaneamente una serie di aspetti tecnici e contenutistici. È qui che entra in gioco l’importanza di avere contenuti ben strutturati e un’architettura orientata alla SEO. Un sito che presenta una struttura chiara, con un utilizzo coerente di heading e una gerarchia semantica ben definita, facilita il lavoro del crawler, permettendogli di comprendere rapidamente quali sono i contenuti principali e come sono collegati tra loro. Questo non solo migliora il crawling ma anche l’indicizzazione, poiché un sito ben organizzato offre una navigazione più intuitiva, conducendo il crawler attraverso i percorsi desiderati.

I contenuti stessi giocano un ruolo cruciale. Se le pagine di un sito sono ricche di keyword pertinenti, testi originali e di valore per l’utente, aumentano le probabilità che il crawler identifichi quelle pagine come importanti e degne di essere posizionate in alto nei risultati di ricerca. Tuttavia, il contenuto non è l’unico elemento da considerare. Le performance del sito, come la velocità di caricamento e la responsiveness su diversi dispositivi, sono ulteriori fattori che possono influenzare positivamente la scansione da parte del crawler e, di conseguenza, il ranking sui motori di ricerca.

Un altro aspetto da considerare è la gestione consapevole del crawl budget — ossia il numero di pagine che un crawler è disposto a scandire in un determinato periodo di tempo: se un sito web spreca il crawl budget su pagine non rilevanti o su contenuti di bassa qualità, rischia di penalizzare la visibilità delle sue pagine più importanti. Assicurarsi che il crawler si concentri sui contenuti di maggior valore è quindi un passaggio fondamentale per ottimizzare la SEO.

Perché è importante il crawl budget

Il crawl budget rappresenta la quantità di risorse che Googlebot dedica all’esplorazione delle pagine di un sito web in un determinato periodo di tempo. Questo concetto implica che esiste un limite massimo di pagine che il bot potrà scandire durante una visita, il che rende fondamentale amministrarlo con cura.

Il crawl budget è influenzato da diversi fattori, tra cui la popolarità delle pagine e la salute del sito. Le pagine che ricevono numerosi link entranti, che sono frequentemente aggiornate e che attraggono molti visitatori, tendono a ottenere una maggiore attenzione da parte dei crawler. Parallelamente, siti che sono rapidi nel rispondere alle richieste del bot e che non presentano errori tecnici facilitano l’esplorazione estendendo idealmente il loro crawl budget.

Per massimizzare l’efficacia del crawl budget ci sono diversi strumenti e strategie che possono essere adottati. È importante assicurarsi che i crawler concentrino i propri sforzi sulle pagine più rilevanti del sito, evitando così che risorse preziose vengano consumate e sprecate su contenuti duplicati, pagine con contenuti di scarsa qualità o inutilizzati. L’utilizzo del file robots.txt per escludere sezioni non cruciali è una pratica utile per ottimizzare l’impiego del crawl budget. Inoltre, migliorare la velocità di caricamento delle pagine non solo migliora l’esperienza dell’utente, ma consente ai bot di esplorare un maggior numero di pagine in un tempo ridotto.

Crawling: cos’è e come funziona per Google

Soffermandoci proprio sul funzionamento del crawling per Google, la scansione rappresenta il modo in cui il motore di ricerca cerca di capire quali pagine esistono sul Web: non esiste un registro centrale di tutte le pagine web, pertanto Google deve costantemente cercare pagine nuove e aggiornate per aggiungerle al proprio elenco di pagine note.

Il processo di scansione inizia con un elenco di URL di precedenti scansioni e sitemap forniti dai proprietari dei siti: Google utilizza i web crawler e nello specifico Googlebot (nome con cui è noto il suo programma per effettuare l’operazione di recupero attraverso il lavoro di una quantità enorme di computer che eseguono la scansione di miliardi di pagine sul web) per visitare questi indirizzi, leggere le informazioni che contengono e seguire i link su quelle pagine.

I crawler rivisiteranno le pagine già presenti nell’elenco per verificare se sono state modificate e scansioneranno anche le nuove pagine rilevate. Durante questo processo, i crawler devono prendere decisioni importanti, come dare la priorità a quando e cosa sottoporre a scansione, assicurandosi che il sito web possa gestire le richieste del server fatte da Google.

Più precisamente, nella fase di crawling Googlebot recupera alcune pagine Web pubblicamente accessibili, quindi segue i collegamenti lì presenti per trovare nuovi URL; saltando lungo questo percorso di link, il crawler è in grado di trovare nuovi contenuti e aggiungerli all’Indice, che sappiamo essere un enorme database di URL scoperti, da cui (ma qui siamo già alle fasi seguenti della Ricerca) sono successivamente recuperati quando un utente cerca informazioni a cui il contenuto di quell’URL fornisce una risposta pertinente.

La scansione si chiama anche “Individuazione degli URL“, a indicare appunto il modo in cui Google scopre nuove informazioni da aggiungere al suo catalogo. Di solito, il modo in cui Google trova un nuovo sito Web è seguendo i link da un sito Web a un altro, come detto: proprio come facciamo noi utenti quando esploriamo i contenuti sul Web, i crawler passano da una pagina all’altra e archiviano informazioni su ciò che trovano su tali pagine e su altri contenuti accessibili pubblicamente, che finiscono nell’indice della Ricerca Google.

Alcune pagine sono note perché Google le ha già visitate, altre pagine vengono scoperte quando Googlebot segue un link che vi rimanda (ad esempio, una pagina hub, come una pagina di categoria, rimanda a un nuovo post del blog), altre ancora vengono scoperte quando inviamo a Google una sitemap per la scansione.

Ad ogni modo, quando Googlebot trova l’URL di una pagina potrebbe visitare o “sottoporre a scansione” la pagina stessa per scoprirne i contenuti. È importante comprendere, infatti, che Googlebot non esegue la scansione di tutte le pagine che ha rilevato, anche perché alcune pagine potrebbero essere non autorizzate per la scansione dal proprietario del sito, mentre altre potrebbero non essere accessibili senza che venga effettuato l’accesso al sito.

Durante la scansione, Google visualizza la pagina ed esegue eventuale codice JavaScript rilevato utilizzando una versione recente di Chrome, in modo simile a quello che fa un comune browser nel visualizzare la pagina che visitiamo. Il rendering è importante perché i siti web spesso si affidano a JavaScript per mostrare i contenuti sulla pagina e, senza il rendering, Google potrebbe non vedere questi contenuti, ci dice la guida ufficiale a questo proposito.

Il crawling per Google: frequenza, velocità e budget

Googlebot utilizza un processo algoritmico per determinare i siti di cui eseguire la scansione, con quale frequenza farlo e quante pagine recuperare da ogni sito. Anche i crawler di Google sono programmati in modo da tentare di non eseguire la scansione del sito troppo velocemente per evitare di sovraccaricarlo. Questo meccanismo si basa sulle risposte del sito – gli status code HTTP 500 significano “rallentamento” – e sulle impostazioni in Search Console.

Le pagine sottoposte con successo a scansione vengono elaborate e trasmesse alla indicizzazione di Google per preparare il contenuto per la pubblicazione nei risultati di ricerca; i sistemi del motore di ricerca visualizzano i contenuti della pagina come farebbe il browser e prendono nota dei segnali principali, dalle parole chiave all’aggiornamento del sito web, conservando tutte queste informazioni nell’indice di ricerca.

Poiché il Web e altri contenuti cambiano costantemente, i processi di scansione di Google sono in continua esecuzione per stare al passo, apprendendo la frequenza con cui contenuti già esaminati vengono modificati e scansionandoli se necessario, e scoprendo anche nuovi contenuti man mano che vengono visualizzati nuovi link a tali pagine o informazioni.

Come chiarisce sempre la guida di riferimento, Google non accetta mai pagamenti per eseguire la scansione di un sito più frequentemente, fedele alla promessa di fornire gli stessi strumenti a tutti i siti web per garantire i migliori risultati possibili per gli utenti.

Inoltre, Google è molto attento a non sovraccaricare i server, quindi la frequenza delle scansioni dipende da tre fattori:

Crawl rate o velocità di scansione: numero massimo di connessioni simultanee che un crawler può utilizzare per eseguire la scansione di un sito.
Crawl demand: quanto il contenuto è desiderato da Google.
Crawl budget: numero di URL che Google può e desidera sottoporre a scansione.

Sono tre anche i problemi comuni di accesso ai siti da parte di Googlebot, che possono impedire o bloccare il crawling ai bot di Google:

Problemi con il server che gestisce il sito
Problemi di rete
Regole del file robots.txt che impediscono l’accesso alla pagina da parte di Googlebot

Come vedremo più approfonditamente, l’insieme di strumenti presente nella Search Console può servire agli “autori di contenuti per aiutarci a scansionare meglio i loro contenuti”, suggerisce la documentazione ufficiale, che si aggiunge a standard consolidati quali le Sitemap o il file robots.txt per specificare la frequenza con cui Googlebot dovrebbe visitare i propri contenuti o se non devono essere inclusi nell’indice di ricerca.

L’importanza del crawling per Google e per i siti

Per capire meglio il peso che questa attività ha per Google, e quindi per la SEO, possiamo pensare all’analogia proposta da Lizzy Harvey su web.dev: il crawling è “come leggere tutti i libri di una biblioteca“. Prima che i motori di ricerca possano servire qualsiasi risultato di ricerca, devono avere quante più informazioni possibili dal web, e quindi utilizzano il crawler, un programma che viaggia da un sito all’altro e si comporta come un browser.

Questo controllo include l’HTML e tutti i contenuti menzionati nell’HTML, come immagini, video o JavaScript. I crawler estraggono anche i collegamenti dai documenti HTML, in modo che il crawler possa visitare anche gli URL collegati, sempre con l’obiettivo di trovare nuove pagine sul Web.

Dal punto di vista tecnico, i crawler non fanno clic attivamente su link o pulsanti, ma inviano gli URL a una coda per eseguirne la scansione in un secondo momento. Quando si accede a un nuovo URL, non sono disponibili cookie, service worker o storage locale (come IndexedDB).

I crawler tentano di recuperare ogni URL per determinare lo stato del documento: se un libro o un documento è mancante o danneggiato, il bot non può leggerlo, così come se un documento restituisce un codice di stato di errore, i bot non possono utilizzare nessuno dei suoi contenuti, ma potrebbero riprovare l’URL in un secondo momento. Ciò garantisce che solo i documenti accessibili pubblicamente entrino nell’indice. Ancora, se i crawler scoprono un codice di stato di redirect 301 o 302, ad esempio, seguono il reindirizzamento a un nuovo URL e continuano lì: quando ottengono una risposta positiva, e pertanto hanno trovato un documento accessibile agli utenti, controllano se è consentito eseguire la scansione e quindi scaricano il contenuto.

Tornando quindi alle definizioni precedenti, la velocità di scansione o crawl rate rappresenta il numero massimo di connessioni simultanee che un crawler può utilizzare per eseguire la scansione di un sito. Il crawl demand dipende invece da “quanto il contenuto è desiderato da Google” ed è “influenzato da URL che non sono stati scansionati da Google prima, e dalla stima di Google su quanto spesso il contenuto cambia sui non-URLs”.

Google calcola il crawl rate di un sito periodicamente, in base alla reattività del sito stesso o, in altre parole, alla quota di traffico di crawling che può effettivamente gestire: se il sito è veloce e coerente nel rispondere ai crawler, il tasso sale se c’è richiesta di indicizzazione; se invece il sito rallenta o risponde con errori del server, il tasso scende e Google scansiona meno.

Quando Googlebot è in grado di eseguire la scansione di un sito in modo efficiente, permette a un sito di ottenere rapidamente nuovi contenuti indicizzati nei risultati di ricerca e aiuta Google a scoprire le modifiche apportate ai contenuti esistenti.

Come gestire le scansioni di Google su un sito

Parlare di scansione significa anche affrontare un tema che sta diventando sempre più popolare negli ultimi anni e che spesso affligge i SEO e chi lavora sui siti, ovvero il crawl budget che abbiamo già definito come il tempo (espresso sotto forma di quantità di URL) che Googlebot può e vuole dedicare al crawling di un sito – in altre parole, la somma di crawl rate e crawl demand.

Per guidarci nell’analisi del funzionamento del meccanismo delle scansioni di Google possiamo far riferimento a un appuntamento con la serie Google Search Console Training affidato, come nelle precedenti occasioni, al Search Advocate Daniel Waisberg, che fa una veloce ma esaustiva panoramica sul modo in cui Google esegue la scansione delle pagine, per poi soffermarsi sul rapporto Statistiche di scansione della Search Console, che permette innanzitutto di verificare la capacità di Googlebot di eseguire la scansione di un determinato sito e fornisce dati sulle richieste di crawl, sul tempo medio di risposta e altro ancora.

Come disclaimer, il Googler spiega che tali argomenti sono più rilevanti per chi lavora su un sito web di grandi dimensioni, mentre chi ha un progetto con poche migliaia di pagine non deve preoccuparsene troppo (anche se, dice, “non mai male imparare qualcosa di nuovo, e chissà che il tuo sito non possa diventare the next big thing, la prossima grande cosa”).

Come ridurre la velocità di scansione di Googlebot nel modo giusto

Nei rari casi in cui i crawler di Google sovraccaricano i server, è possibile impostare un limite alla velocità di scansione utilizzando le impostazioni in Search Console o altri interventi on-site.

Come chiarisce una recente pagina ufficiale di Google, per ridurre la velocità di scansione di Googlebot possiamo essenzialmente:

Utilizzare Search Console per ridurre temporaneamente la velocità di scansione.
Restituire un codice di stato HTTP 500, 503 o 429 a Googlebot quando esegue la scansione troppo velocemente.

Un codice tipo 4xx identifica gli errori del client: server restituiscono un segnale che indica che la richiesta del client era sbagliata in un certo senso e per un certo motivo; nella maggior parte dei casi, gli errori in questa categoria sono piuttosto benigni, dice Google, come ad esempio “non trovato”, “proibito”, “sono una teiera” (uno dei più famosi Easter Eggs di Google), perché non suggeriscono che stia accadendo qualcosa di sbagliato con il server stesso.

L’unica eccezione è 429, che sta per “troppe richieste”: questo errore è un chiaro segnale per qualsiasi robot ben educato, incluso Googlebot, che deve rallentare perché sta sovraccaricando il server.

Tuttavia, e sempre a eccezione del codice 429, tutti gli errori 4xx non vanno bene per il rate limiting di Googlebot, proprio perché non suggeriscono la presenza un errore con il server: non che sia sovraccarico, non che abbia riscontrato un errore critico e non sia in grado di rispondere alla richiesta. Significano semplicemente che la richiesta del cliente era in qualche modo negativa o sbagliata. Non esiste un modo sensato per associare, ad esempio, un errore 404 al sovraccarico del server (e non potrebbe essere altrimenti, perché un afflusso di 404 potrebbe derivare da un utente che si collega accidentalmente alle pagine sbagliate del sito e non può incidere, a sua volta, sul rallentamento della scansione di Googlebot), e lo stesso vale per gli stati 403, 410, 418.

C’è poi un altro aspetto da considerare: tutti i codici di stato HTTP 4xx (di nuovo, tranne 429) causeranno la rimozione dei contenuti dalla Ricerca Google; ancora peggio, pubblicare un file robots.txt con un codice di stato HTTP 4xx lo rende praticamente inutile, perché verrà trattato come se non esistesse – e quindi tutte le regole impostate, comprese le direttive sulle aree vietate alla scansione, sono praticamente accessibili a tutti, con svantaggi per tutti.

In definitiva, quindi, Google ci invita caldamente a non utilizzare 404 e altri errori del client 4xx per ridurre la frequenza di scansione di Googlebot, che pure sembra essere una strategia di tendenza tra proprietari di siti web e di alcune reti di distribuzione di contenuti (CDN).

Cos’è e come si utilizza il rapporto Statistiche di scansione di Google

A questo proposito, ben più efficace è imparare a utilizzare l’apposito strumento presente in Google Search Console, il Rapporto Statistiche di scansione o Crawl Stats report, che ci permette di scoprire quanto spesso Google scansiona il sito e quali sono state le risposte, ma anche di visualizzare statistiche sul comportamento di crawling di Google e di supportare la comprensione e l’ottimizzazione del processo di scansione.

La versione più recente di questo strumento è stata rilasciata sul finire del 2020 (come annunciato anche in Google Search News di novembre 2020) e permette di avere dati che rispondono a domande come:

Qual è la disponibilità generale del sito?
Qual è la risposta media della pagina per una richiesta di crawl?
Quante richieste sono state fatte da Google al sito negli ultimi 90 giorni?

Il rapporto Statistiche di scansione è disponibile solo per proprietà a livello di directory principale: i proprietari dei siti possono trovarlo accedendo a Search Console e andando alla pagina “Impostazioni”.

All’apertura del rapporto compare una pagina di riepilogo, che include un grafico delle tendenze di scansione, dettagli sullo stato dell’host e un’analisi dettagliata della richiesta di scansione.

Il grafico sulle tendenze di scansione

In particolare, il grafico delle tendenze di scansione riporta informazioni su tre metriche:

Richieste di scansione totali per gli URL del sito (riuscite o meno). Le richieste di risorse ospitate al di fuori del sito non vengono contate, quindi se le immagini sono servite su un altro dominio (come una rete CDN) non appariranno qui.
Dimensioni totali di download dal sito durante la scansione. Le risorse di pagina utilizzate da più pagine che Google ha memorizzato nella cache vengono richieste solo la prima volta (in corrispondenza della memorizzazione).
Tempo medio di risposta della pagina per una richiesta di ricerca per indicizzazione per recuperare il contenuto della pagina. Questa metrica non include il recupero delle risorse della pagina come script, immagini e altri contenuti collegati o incorporati, e non tiene conto del tempo di rendering della pagina.

Quando si analizzano questi dati, Waisberg consiglia di cercare “picchi, cali e tendenze maggiori nel tempo”: ad esempio, se si nota un calo significativo delle richieste di scansione totali, è bene assicurarsi che nessuno abbia aggiunto un nuovo file robots.txt al sito; se il sito risponde lentamente a Googlebot potrebbe essere un segno che il server non riesce a gestire tutte le richieste, così come un aumento costante del tempo medio di risposta è un altro “indicatore del fatto che i server potrebbero non gestire tutto il carico”, anche se potrebbe non influire immediatamente sulla velocità di scansione quanto piuttosto sulla user experience.

Analisi dello stato dell’host

I dati sullo stato dell’host consentono di controllare la disponibilità generale di un sito negli ultimi 90 giorni. Gli errori in questa sezione indicano che Google non può eseguire la scansione del sito per motivi tecnici.

Anche in questo caso ci sono 3 categorie che forniscono dettagli sullo stato dell’host:

Recupero robots.txt (robots.txt fetch): la percentuale di errori durante la scansione del file robots.txt. Non è obbligatorio avere un file robots.txt, ma deve restituire la risposta 200 o 404 (file valido, compilato o vuoto, o file non esistente); se Googlebot ha un problema di connessione, come ad esempio un 503, smetterà di scansionare il sito.
Risoluzione DNS (DNS Resolution): indica quando il server DNS non ha riconosciuto il nome host o non ha risposto durante la scansione. In caso di errori, si suggerisce di contattare il registrar per verificare che il sito sia configurato correttamente e che il server sia connesso a Internet.
Connettività server (Server connectivity): mostra quando il server non risponde o non ha fornito la risposta completa per l’URL durante una scansione. Se si notano picchi o problemi di connettività consistenti, si suggerisce di parlare con il provider per aumentare la capacità o risolvere i problemi di disponibilità.

Un errore sostanziale in una qualsiasi delle categorie può tradursi in una riduzione della disponibilità. Sono tre i valori dello stato host che compaiono nel rapporto: se Google ha trovato almeno uno di questi errori sul sito nell’ultima settimana, compare un alert a forma di icona rossa con punto esclamativo; se l’errore è più vecchio di una settimana e risale agli ultimi 90 giorni, compare un’icona bianca con spunta verde che segnala appunto che ci sono stati problemi in passato (temporanei o risolti nel frattempo), che si possono verificare tramite i server log o con uno sviluppatore; infine, se non ci sono stati problemi sostanziali di disponibilità negli ultimi 90 giorni è tutto a posto e appare un’icona verde con spunta bianca.

Le richieste di scansioni di Googlebot

Le schede di richiesta di scansione mostrano diversi dati scomposti che aiutano capire cosa hanno trovato i crawler di Google nel sito. In questo caso, ci sono quattro ripartizioni:

Risposta di scansione: le risposte ricevute da Google durante la scansione del sito, raggruppate in base al tipo, come percentuale di tutte le risposte alle scansioni. I tipi di risposta comuni sono 200, 301, 404 o errori del server.
Tipidi file sottoposti a scansione: mostra i tipi di file restituiti dalla richiesta (il cui valore percentuale fa riferimento alle risposte ricevute per quel tipo e non ai byte recuperati); i più comuni sono HTML, immagini, video o JavaScript.
Scopo della scansione: mostra il motivo della scansione del sito, come la scoperta di un URL nuovo per Google o il refresh per un re-crawl di una pagina nota
Tipo di Googlebot: indica il tipo di user agent utilizzato per effettuare la richiesta di scansione, ad esempio smartphone, desktop, immagine e altri.

Comunicare ai motori di ricerca come eseguire la scansione del sito

Ricapitolando, per comprendere e ottimizzare la scansione di Google possiamo usare il rapporto Statistiche di scansione della Search Console, iniziando dal grafico di riepilogo della pagina per analizzare il volume e le tendenze della scansione, proseguendo con i dettagli sullo stato dell’host per controllare la disponibilità generale del sito e, infine, verificando la ripartizione delle richieste di crawl per capire cosa trova Googlebot quando scansiona il sito.

Queste sono le basi dell’utilizzo del crawl status report per garantire che Googlebot possa eseguire la scansione del sito in modo efficiente per la Ricerca, a cui far seguire le necessarie operazioni di ottimizzazione crawl budget e gli interventi generali per assicurare che il nostro sito possa effettivamente entrare nell’Indice di Google per poi iniziare la scalata alle posizioni di visibilità.

Fermo restando che il crawl budget – ovvero il numero di URL che Google può e vuole scansionare sui siti web ogni giorno, repetita iuvant – è un parametro “rilevante per i siti web di grandi dimensioni, perché Google ha bisogno di dare priorità a cosa scansionare prima, quanto scansionare e quanto frequentemente ripetere la scansione”, è comunque utile sapere in che modo guidare il processo di scansione del nostro sito da parte dei crawler dei motori di ricerca.

In tal senso, come ben ci sintetizza il lavoro di Moz (da cui abbiamo attinto alcune delle immagini in pagina), ci sono alcune ottimizzazioni che possiamo fare implementare per indirizzare meglio Googlebot su come desideriamo che esegua la scansione dei nostri contenuti pubblicati sul web, e dire personalmente ai motori di ricerca come eseguire il crawling delle nostre pagine può darci maggiore e migliore controllo di ciò che finisce nell’Indice.

Gli interventi sul sito per ottimizzare la scansione dei crawler

Prima di entrare nel dettaglio delle operazioni da compiere, però, facciamo un’ultima digressione. Di solito, ci concentriamo sul lavoro necessario ad assicurare che Google possa trovare le nostre pagine importanti, ed è sicuramente un bene. Non dobbiamo però dimenticare che probabilmente ci sono pagine che non vogliamo che Googlebot trovi, come ad esempio vecchi URL con contenuti sottili, URL duplicati (come parametri di ordinamento e filtri per l’e-commerce), pagine di codici promozionali speciali, pagine di staging o test e così via.

Evita gli errori!

Analizza il tuo sito e controlla se ci sono pagine con problemi da risolvere

Scopri di più

È anche a questo che serve la gestione dell’attività di crawling, che ci permette di allontanare i crawler da determinate pagine e sezioni del sito. E questi sono i metodi comuni e più efficaci.

Robots.txt

L’abbiamo citato più volte: i file Robots.txt si trovano nella directory principale dei siti Web e suggeriscono di quali parti del sito i motori di ricerca devono e non devono eseguire la scansione, nonché la velocità con cui eseguono la scansione del sito , tramite specifiche direttive.

Sitemap

Anche le sitemap possono essere utili: si tratta, come chiarisce il nome, di un elenco di URL sul sito che i crawler possono utilizzare per scoprire e indicizzare i contenuti. Uno dei modi più semplici per assicurarsi che Google trovi le tue pagine con la massima priorità è creare un file che soddisfi gli standard di Google e inviarlo tramite Google Search Console. Sebbene l’invio di una sitemap non sostituisca la necessità di una buona navigazione nel sito, può sicuramente aiutare i crawler a seguire un percorso verso tutte le pagine importanti.

Struttura del sito

A volte, gli errori di navigazione possono impedire ai crawler di vedere tutto il sito: è il caso di una navigazione mobile che mostra risultati diversi rispetto alla navigazione desktop, di voci di menu abilitate per JavaScript (e non per HTML), della personalizzazione o visualizzazione di una navigazione univoca per un tipo specifico di visitatore rispetto ad altri (che potrebbe apparire come cloaking ai crawler), di un mancato collegamento a una pagina primaria del sito nella navigazione, di testo nascosto all’interno di contenuto non testuale, di contenuto nascosto dietro i moduli di accesso e così via.

Secondo gli esperti, è essenziale che il sito web abbia una navigazione chiara e utili strutture di cartelle URL.

Al tempo stesso, è opportuno impostare una architettura delle informazioni pulita, seguendo la pratica di organizzare ed etichettare i contenuti in modo da migliorare l’efficienza e la reperibilità per gli utenti, partendo dal presupposto che la migliore architettura delle informazioni è intuitiva, ovvero permette agli utenti di non pensare molto per scorrere il sito o per trovare qualcosa.

Ottimizzare il crawl budget

Infine, ci sono gli interventi tecnici per ottimizzare il crawl budget, che è il numero medio di URL che Googlebot scansiona sul sito prima di uscirne, e serve quindi a evitare che Googlebot perda tempo a scansionare pagine non importanti rischiando di ignorare quelle importanti. Il crawl budget è molto importante su siti molto grandi, con decine di migliaia di URL , ma non è mai una cattiva idea impedire ai crawler di accedere a contenuti che sicuramente non ci interessano. Ciò che dobbiamo assicurarci è non bloccare l’accesso di un crawler alle pagine su cui abbiamo aggiunto altre direttive, come tag canonical o noindex: se Googlebot è bloccato da una pagina, non sarà in grado di vedere le istruzioni presenti.