Crawl budget: cos’è, come impatta la SEO e come ottimizzarlo

SEO Gennaro Mancini 27 Settembre 2024 Tempo di lettura : 36 minuti

Mettici alla prova

Analizza il tuo sito

Seleziona la lingua del database:

È il parametro che identifica il tempo e le risorse che Google intende dedicare a un sito web attraverso le scansioni di Googlebot. Il crawl budget non è in realtà un valore univoco e definibile numericamente, come chiarito ripetutamente dalle fonti ufficiali della compagnia, ma possiamo comunque intervenire per ottimizzarlo e per indirizzare i crawler verso le pagine del nostro sito che meritano di essere scansionate e indicizzate più frequentemente, in modo da migliorare l’efficacia complessiva della nostra strategia SEO e la presenza sul motore di ricerca. Oggi parliamo di un argomento che sta diventando sempre più centrale per il miglioramento delle performance dei siti, ma soprattutto delle varie strategie per ottimizzare il crawl budget e perfezionare l’attenzione che il crawler può dedicare a contenuti e pagine per noi prioritarie.

Che cos’è il crawl budget

Il crawl budget si riferisce alla quantità di risorse – tempo e capacità di elaborazione – che Google dedica alla scansione delle pagine di un sito web.

Non sprecare il tempo di Google!

Analizza il tuo sito e scopri se stai sprecando il crawl budget di Google su risorse poco utili

Scopri di più

Ogni volta che il crawler di Google Googlebot passa su un sito, decide quante pagine scansionare e con quale frequenza. Questo processo ha chiare limitazioni, poiché Google deve bilanciare il carico sulle risorse del server del sito e la priorità di scansione, che varia in base alle caratteristiche dell’intero dominio.

Che cos’è il crawl budget per Google

Cambiando approccio, il crawl budget o budget di scansione è il numero di URL che Googlebot può (in base alla velocità del sito) e vuole (in base alla domanda degli utenti) sottoporre a scansione.

Concettualmente, quindi, è la frequenza bilanciata tra i tentativi di Googlebot di non sovraccaricare il server e il desiderio generale di Google di eseguire la scansione del dominio.

Nell’ottica di chi possiede o cura un sito, gestire in modo efficace il crawl budget riguarda quindi il controllo sulle pagine che vengono scansionate e quando queste vengono scansionate. Un sito che spreca risorse del proprio budget su pagine di bassa qualità o marginalmente rilevanti potrebbe non far sì che le pagine migliori siano visitate dal crawler nel momento giusto, influenzando negativamente il posizionamento sui motori di ricerca.

Detto in altri termini, curare questo aspetto potrebbe permettere di aumentare la velocità con cui i robot dei motori di ricerca visitano le pagine del sito; maggiore è la frequenza di questi passaggi, più rapidamente l’indice rileva gli aggiornamenti delle pagine. Quindi, un valore più alto di ottimizzazione del crawl budget può potenzialmente aiutare a mantenere aggiornati i contenuti popolari e impedire che i contenuti più vecchi diventino obsoleti.

Come dice la guida ufficiale a questa tematica, il crawl budget nasce in risposta a un problema: il Web è uno spazio praticamente infinito e l’esplorazione e l’indicizzazione di ogni URL disponibile va ben oltre le capacità di Google, ed è per questo che il tempo che Googlebot può dedicare alla scansione di un singolo sito è limitato – ovvero, il parametro del budget di scansione. Inoltre, non tutti gli elementi sottoposti a scansione sul sito verranno necessariamente indicizzati: ogni pagina deve essere valutata, accorpata e verificata per stabilire se verrà indicizzata dopo la scansione.

Di fondo, dobbiamo però tenere a mente la distinzione tra crawling o scansione e indicizzazione, poiché non necessariamente tutto ciò che viene scansionato entrerà a far parte dell’indice di Google. Questo punto è essenziale per comprendere che, anche se Google esegue la scansione del nostro sito in modo efficiente, non significa che tutte le pagine rilevate verranno automaticamente indicizzate e posizionate nei risultati di ricerca.

La definizione di crawl budget

Definire e spiegare il crawl budget è quindi particolarmente importante per chiunque voglia comprendere come funziona realmente il processo con cui Google indicizza un sito web. Se non abbiamo presente che Google lavora in modo selettivo, difficilmente riusciremo a migliorare i nostri risultati. Approfondire come si bilancia il crawling permette non solo di evitare sprechi, ma anche di migliorare la priorità che diamo a determinate sezioni del nostro sito.

Dal punto di vista teorico, il crawl budget è spesso frainteso o male interpretato. Non esiste un singolo numero fisso che possiamo regolare, ma è una combinazione di fattori che possono essere ottimizzati.

Comprendere il significato di crawl budget

Il mio sito web piace a Google? Questa è la domanda che dovrebbero farsi tutti quelli hanno un sito web che desiderano posizionare sui motori di ricerca. Esistono diversi metodi per capire se effettivamente un sito piace a Big G, ad esempio attraverso i dati presenti all’interno di Google Search Console e del rapporto Statistiche di Scansione, lo strumento che ci permette di conoscere appunto le statistiche di scansione degli ultimi 90 giorni e di scoprire quanto tempo il motore di ricerca dedica al nostro sito.

Detto in maniera ancora più semplice, in questo modo possiamo scoprire qual è il crawl budget che ci ha dedicato Big G, la quantità di tempo e risorse che Google dedica alla scansione di un sito.

Ne consegue che, intuitivamente, più alto è questo valore, più abbiamo importanza per il motore di ricerca stesso. In pratica, se ogni giorno Google scansiona e scarica tante pagine, significa che vuole i nostri contenuti perché considerati di qualità e valore per la composizione delle sue SERP.

Comprendere il vero significato del crawl budget diventa quindi un passo essenziale nella costruzione di una strategia di ottimizzazione basata sui numeri. Senza tracciare e monitorare i propri dati, anche con strumenti come la Google Search Console o SEOZoom, non è affatto semplice capire se le risorse stanno effettivamente andando sprecate o se stiamo favorendo una scansione davvero mirata sulle pagine che generano traffico di qualità.

Come si misura il crawl budget

Ricapitolando, quindi, crawl budget è un parametro, o meglio un valore, che Google assegna al nostro sito.

Possiamo pensarlo proprio come un budget – di tempo e pazienza – che Googlebot ha a disposizione per scansionare le pagine del nostro sito, e quindi possiamo anche definirlo come il numero di URL che Googlebot può e desidera sottoporre a scansione, e determina il numero di pagine che i motori di ricerca scansionano durante una sessione di ricerca per la indicizzazione.

Attraverso Search Console è possibile capire quanti file, pagine e immagini vengono scaricati e scansionati ogni giorno dal motore di ricerca. In tale ottica, i valori principali da tenere in considerazione sono sicuramente due, ovvero il numero di pagine che Google scansiona ogni giorno e il tempo che impiega per farlo. Andiamo a vedere nel dettaglio il tutto:

Pagine sottoposte a scansione giornalmente: il valore ideale è quello di avere un numero totale di pagine scansionate più alto del numero delle pagine presenti sul sito web, ma anche un pareggio (pagine scansionate uguale al numero di pagine del sito web) va più che bene.
Tempo trascorso per il download: questo indica principalmente il tempo che impiega Googlebot per effettuare una scansione delle nostre pagine, bisognerebbe mantenere basso questo valore andando ad aumentare la velocità del nostro sito web. Questo andrà a influire anche sul numero di kb scaricati dal motore di ricerca durante le scansioni, ovvero con quanta facilità (e velocità) Google riesce a “scaricare” le pagine di un sito web.

Le due immagini qui pubblicate mostrano anche l’evoluzione di questo dominio: i valori che nel 2016 (screen in alto) segnalavano un’attività media, nel 2022 sono diventati invece indice di una richiesta di bassa intensità.

Passando agli aspetti “dietro le quinte”, Google gestisce il crawl budget con lo scopo di bilanciare la scansione tra le esigenze dei propri utenti e l’efficienza dei server sui quali i siti sono ospitati. In termini pratici, Google prende in considerazione due elementi principali: quantità e qualità. Da un lato, si assicura di inviare il suo Googlebot con sufficiente frequenza per garantire che le pagine rilevanti di un sito siano aggiornate nei suoi indici (crawl demand), dall’altro monitora il carico del server per evitare di rallentare inutilmente i siti (crawl rate).

Che cosa sono il crawl rate e crawl demand

Il crawl budget di Google è quindi una risorsa finita, che viene distribuita sulle varie pagine di un dominio in maniera intelligente, il cui valore dipende dal limite di capacità di scansione (crawl rate) e dalla domanda di scansione (crawl demand).

Quando parliamo di Google crawl rate ci riferiamo alla velocità con cui Googlebot esegue le scansioni sul sito. È un parametro che Google cerca di mantenere sempre in equilibrio per non sovraccaricare il server, interferendo così con l’esperienza utente su un sito. Tuttavia, si verifica anche il fattore opposto: in determinate circostanze, Google potrebbe decidere di ridurre il proprio ritmo di scansione se rileva problemi di performance o se il sito non fornisce contenuto aggiornato. Di qui l’importanza di monitorare non solo la velocità del proprio sito, ma anche la regolarità degli aggiornamenti.

A completare il quadro della gestione del Google crawl budget troviamo il concetto di crawl demand. Anche se il nostro sito può essere tecnicamente pronto per ricevere molte scansioni, non tutte le pagine sono uguali in termini di interesse per Google. Le pagine frequenti aggiornamenti o che stanno attirando molto traffico da query rilevanti verranno prioritarizzate rispetto a quelle stabili, in cui non avvengono cambiamenti significativi.

Per i webmaster che desiderano mantenere il completo controllo sulla scansione del sito, strumenti come Google Search Console diventano indispensabili. La piattaforma facilita la visualizzazione dei dati di scansione e consente di capire quali pagine stanno utilizzando in modo inefficace il crawl budget, rallentando potenzialmente il caricamento del sito. Inoltre, quando necessario, è possibile richiedere a Google una nuova scansione specifica delle pagine aggiornate sfruttando l’opzione “richiedi scansione” nella Search Console.

Comprendere a fondo crawl rate e crawl demand di Google

Senza scendere troppo in dettagli tecnici, possiamo però dire qualche altra cosa utile su questi temi.

Con l’espressione crawl rate facciamo riferimento al numero di richieste al secondo che uno spider effettua verso un sito e il tempo che passa tra le fetches, mentre la crawl demand è la frequenza con cui tali bot eseguono la scansione. Per questo, secondo i consigli ufficiali di Google, i siti che devono essere più attenti a questi aspetti sono quelli di dimensioni maggiori e con più pagine o quelli che hanno pagine auto-generate basate su parametri URL.

Andando più a fondo con le spiegazioni, il compito di Googlebot è eseguire la scansione di ogni sito senza sovraccaricare i suoi server, e quindi calcola questo limite di capacità di scansione rappresentato dal numero massimo di connessioni simultanee che può utilizzare per eseguire la scansione di un sito e dal ritardo tra recuperi, in modo comunque da fornire la copertura di tutti i contenuti importanti, senza sovraccaricare i server.

Il limite del crawl rate o capacità di scansione è dato innanzitutto dal rispetto per il sito: Googlebot cercherà di non peggiorare mai l’esperienza degli utenti a causa di un sovraccarico di fetching. Dunque, esiste per ogni sito un numero massimo di connessioni parallele simultanee che Googlebot può utilizzare per eseguire la scansione, e la velocità di scansione può aumentare o diminuire in base:

Alla salute del sito e del server. In sintesi, se un sito risponde velocemente, il limite si alza e Google usa più connessioni per il crawling; se la scansione è lenta o si presentano errori di server, il limite scende.
Al limite imposto dal proprietario in Search Console, ricordando che l’impostazione di limiti più elevati non aumenta automaticamente la frequenza di scansione
Ai limiti di scansione di Google, che come detto dispone di risorse ragguardevoli, ma non illimitate, e deve pertanto assegnare priorità per ottimizzarne l’impiego.

La crawl demand, invece, è legata alla popolarità: gli URL che sono più popolari sul Web sono tendenzialmente sottoposti a scansione più frequentemente per tenerli “più freschi” nell’Indice di Google. Inoltre, i sistemi del motore di ricerca cercano di impedire la staleness, ovvero che gli URL diventino obsoleti nell’indice.

In genere, specifica la citata guida, Google dedica tutto il tempo necessario alla scansione di un sito in base a dimensioni del sito stesso, frequenza di aggiornamento, qualità delle pagine e pertinenza, in modo commisurato agli altri siti. Pertanto, i fattori che svolgono un ruolo significativo nel determinare la domanda di scansione sono i seguenti:

Inventario percepito: in mancanza di indicazioni del sito, Googlebot proverà a eseguire la scansione di tutti gli URL o della maggior parte degli URL noti sul sito stesso. Se trova un numero elevato di URL duplicati o pagine che non è necessario sottoporre a scansione perché rimosse, non importanti o altro, Google potrebbe impiegare più tempo del dovuto per eseguirne la scansione. Questo è il fattore che possiamo tenere maggiormente sotto controllo.
Popolarità: gli URL più popolari su Internet tendono a essere sottoposti più spesso a scansione per tenerli costantemente aggiornati nell’Indice.
Mancato aggiornamento: i sistemi ripetono la scansione dei documenti con una frequenza sufficiente a rilevare eventuali modifiche.
Eventi a livello di sito, come la migrazione del sito, possono generare un aumento della domanda di scansione per reindicizzare i contenuti in base ai nuovi URL.

Riassumendo, quindi, Google determina la quantità di risorse di scansione da assegnare a ciascun sito in base a fattori come popolarità, valore per l’utente, unicità e capacità di pubblicazione; ai fini del budget viene conteggiato qualsiasi URL di cui Googlebot esegue la scansione, compresi gli URL alternativi, come (l’ormai desueto) AMP o hreflang, i contenuti incorporati, come CSS e JavaScript, e i recuperi XHR, che possono quindi consumare il budget di scansione di un sito. Inoltre, anche se il limite di capacità di scansione non viene raggiunto, la frequenza di scansione di Googlebot può essere inferiore se la domanda di scansione del sito è bassa.

Gli unici due modi per aumentare il crawl budget sono aumentare la capacità di pubblicazione per le scansioni e, soprattutto, aumentare il valore dei contenuti del sito per gli utenti che effettuano ricerche.

Perché il crawl budget è importante per la SEO

A un primo sguardo, il concetto di crawl budget può sembrare una componente secondaria della SEO. Tuttavia, quando ci immergiamo nei processi tecnici che determinano davvero il posizionamento sui motori di ricerca, ci accorgiamo che la gestione del crawl budget è ben più che marginale, perché può avere un impatto sulla visibilità organica e sull’indicizzazione delle nostre pagine.

Quando ottimizzato, il crawl budget consente ai webmaster di assegnare una priorità alle pagine che devono scansionate e indicizzate per prime, nel caso in cui i crawler possano analizzare ogni percorso. Al contrario, sprecare risorse del server in pagine che non generano risultati e non producono effettivamente un valore produce un effetto negativo e rischia di non far emergere i contenuti di qualità di un sito.

In poche parole, il crawl budget rappresenta l’ammontare di risorse che Googlebot destina alla scansione di un sito nel tempo. Ogni sito ha un suo budget specifico, che varia sulla base di criteri come le dimensioni del sito , la qualità della struttura e la popolarità delle sue pagine. Avere un budget ben gestito significa far sì che le pagine più importanti, quelle che generano traffico o conversioni, siano scansionate frequentemente, mentre quelle meno rilevanti o obsolete non rubino spazio.

L’impatto del crawl budget sulla SEO

Nell’ottica SEO, il crawl budget influisce in prima battuta sull’efficienza con cui Googlebot riesce a scansionare il sito e inserire le pagine nel suo indice. Non è un parametro che influenza direttamente l’algoritmo di ranking, ma il modo in cui gestiamo il crawl budget influenza quanto e quali delle nostre pagine vengono scansionate da Google. Un uso inefficiente di questo budget può compromettere l’individuazione dei contenuti importanti per il nostro pubblico e, di conseguenza, ridurre la nostra visibilità sui motori di ricerca.

Il crawl budget ha però un’incidenza diretta su come Googlebot scansiona e indicizza il nostro sito: il numero di pagine che riesce a vedere in un determinato periodo di tempo è limitato, e se dedichiamo troppe risorse a pagine di scarso valore, rischiamo di lasciare fuori quelle pagine cruciali per la nostra strategia SEO. Ad esempio, le nuove pagine del nostro sito potrebbero rimanere non indicizzate per troppo tempo se Google continua a concentrare le sue risorse su contenuti già indicizzati o su URL irrilevanti.

Oppure, se le risorse del crawler vengono sprecate su pagine duplicate, sezioni non ottimizzate o URL di bassa importanza, potremmo assistere a scenari in cui le pagine chiave per il nostro posizionamento non vengono indicizzate correttamente, ostacolando il nostro sito e rendendo vani gli sforzi in termini di creazione e ottimizzazione dei contenuti.

Per i siti web di grandi dimensioni, come i portali di e-commerce o le piattaforme di contenuti, gestire il crawl budget SEO diventa cruciale. Un portale che presenta migliaia di pagine necessita di una chiara priorità in termini di scansione, poiché non tutte le pagine hanno lo stesso peso per raggiungere gli obiettivi strategici. Focalizzarsi solo su una crescita quantitativa delle pagine può portare a sprechi di risorse, se il sito non è strutturato per dirigere le scansioni verso gli URL che contano davvero.

Una leva strategica per rendere più efficiente il sito

Il crawl budget serve proprio a evitare questo: ci permette di fare in modo che Google dedichi attenzione alle pagine giuste, quelle che portano traffico qualificato e generano risultati.

Un altro aspetto legato all’importanza del crawl budget in ottica SEO è l’efficienza complessiva del sito. Avere un sito snello, strutturato correttamente e con un buon impatto a livello di crawling garantisce che Google possa comprendere rapidamente quali pagine visitare e dare priorità.

Strutture disordinate, pagine orfane o di difficile accesso non solo rallentano le scansioni, ma complicano anche la scoperta di quei contenuti che ci interessano di più. Un sito ottimizzato, invece, facilita il lavoro dei crawler, favorendo le pagine con maggiore valore per gli utenti e quelle strategiche a livello commerciale.

Utilizzare il crawl budget come leva strategica per la SEO è un passaggio fondamentale per ottimizzare il potenziale traffico organico. La nostra attenzione deve essere rivolta a massimizzare il valore di ogni risorsa, facendo in modo che Google concentri le sue scansioni sulle pagine in grado di portare risultati concreti.

L’obiettivo non è solo portare Googlebot a visitare il nostro sito frequentemente, ma fare in modo che spenda le sue risorse sulle pagine più utili. Questo può riflettersi in una rapida indicizzazione di contenuti critici, migliorando l’esperienza dell’utente e, di conseguenza, il ranking organico del nostro sito.

Quali siti dovrebbero preoccuparsi del crawl budget?

Non tutti i siti web devono necessariamente preoccuparsi del crawl budget, ed è la guida di Google a sottolineare specificamente questo punto.

In particolare, a preoccuparsi del crawl budget dovrebbero essere in particolare tre categorie di siti (le cifre indicate sono solo una stima approssimativa e non sono da considerarsi soglie precise):

Siti di grandi dimensioni (oltre un milione di pagine univoche) con contenuti che cambiano con una certa frequenza (una volta a settimana).
Siti di medie o grandi dimensioni (oltre 10.000 pagine univoche) con contenuti che cambiano molto spesso (ogni giorno).
Siti con una porzione consistente di URL totali classificati da Search Console come Rilevata, ma attualmente non indicizzata.

Dovrebbe essere semplice capire perché per chi gestisce progetti digitali molto estesi, come grandi portali di notizie, siti eCommerce con migliaia di pagine prodotto o blog con un’enorme quantità di contenuti, sia fondamentale dedicare attenzione a questo parametro, per evitare che risorse preziose vengano spese inutilmente.

I siti di grandi dimensioni, infatti, hanno una complessità che li rende più vulnerabili a problematiche legate alla scansione. Ad esempio, può capitare che i crawler spendano molto tempo in pagine irrilevanti o poco trafficate, riducendo la possibilità di scansionare le pagine davvero strategiche per quel sito. Il crawl budget di un sito come un grande eCommerce deve essere dedicato innanzitutto a quelle pagine che convertono, alle nuove schede prodotto o alle offerte, che necessitano di essere continuamente aggiornate. Non è affatto raro, infatti, che pagine di bassa qualità o duplicate vadano sprecando il crawl budget in modo inefficiente, togliendo risorse alle sezioni più performanti.

Anche il tipo di struttura del sito può influenzare molto la distribuzione del crawl budget. In un portale o magazine, ad esempio, la priorità di crawling articolata su articoli recenti è essenziale per garantire che le proposte ai lettori rimangano pertinenti e fresche. Se, invece, lasciamo che i crawler stabilmente scansino pagine vecchie o non aggiornate, rischiamo di compromettere i risultati.

Gestendo in modo più accurato il server budget possiamo incentivare Google a dedicare più tempo alla scansione delle sezioni che contano davvero, migliorando la resa della nostra struttura e, in ultima analisi, i risultati SEO nel lungo termine. Ecco perché chi gestisce siti complessi, come portali editoriali o negozi online, deve preoccuparsi del crawl SEO per evitare che risorse dedicate ai crawler vengano sprecate nelle sezioni sbagliate del sito o in pagine di bassa qualità.

Crawl budget optimisation, cosa significa

Ottimizzare il crawl budget significa fare in modo che Googlebot dedichi la maggior parte delle sue risorse alle pagine più importanti del sito, contribuendo a migliorare sia il posizionamento generale che la velocità di indicizzazione dei contenuti chiave. Esistono varie tecniche e strategie che possiamo attuare per garantire che le risorse di scansione non vadano sprecate su pagine irrilevanti o di bassa qualità.

A livello generale, uno dei metodi per incrementare il crawl budget è sicuramente quello di aumentare il trust del sito. Come sappiamo bene, tra i fattori di posizionamento di Google c’è proprio l’autorevolezza del sito, che tiene conto anche del peso dei link: se un sito è linkato vuol dire che è “consigliato” e “popolare”, e di conseguenza il motore di ricerca interpreta questi collegamenti proprio come un consiglio e dà considerazione a quel contenuto.

A influire sul crawl budget è anche la frequenza di aggiornamento del sito, ovvero quanti contenuti nuovi vengono creati e con quale periodicità. In pratica, se Google arriva su un sito web e scopre ogni giorno pagine nuove quello che farà è ridurre il tempo di scansione del sito stesso. Un esempio concreto: di solito, un sito di notizie che pubblica 30 articoli al giorno avrà un tempo di scansione più corto rispetto a un blog che pubblica un articolo al giorno.

Più in generale, uno dei modi più immediati per ottimizzare il crawl budget è limitare la quantità di URL a basso valore presenti su un sito Web, che possono come detto sottrarre tempo e risorse preziose all’attività di scansione delle pagine più importanti di un sito.

Tra le pagine a basso valore rientrano quelle che presentano contenuto duplicato, le pagine di errore soft 404, la faceted navigation e i session identifiers, e poi ancora pagine compromesse da hacking, spazi e proxy infiniti e ovviamente contenuti di bassa qualità e spam. Un primo lavoro che si può fare è dunque verificare la presenza di questi problemi sul sito, controllando anche i rapporti sugli errori di scansione in Search Console e riducendo al minimo gli errori del server.

Gli interventi per ottimizzare il crawl budget

Sul fronte pratico, uno dei primi interventi per aumentare il crawl budget che Google stesso ci mette a disposizione riguarda la gestione della velocità del sito web, e in particolare quella della risposta del server nel servire a Googlebot la pagina richiesta.

Ciò significa lavorare sul file robots.txt, che ci consente di indicare a Googlebot quali pagine possono essere scansionate e quali no, dandoci quindi il controllo diretto sulla distribuzione del crawl budget: bloccando la scansione di pagine non rilevanti (come URL duplicati, pagine di login o di test), possiamo immediatamente ridurre il carico dei crawler e indirizzarli verso le sezioni che realmente necessitano attenzione. Un uso intelligente del file robots.txt è uno dei fondamentali della crawl optimisation.

Altro elemento tecnico da considerare è lo sfruttamento della link building interna: utilizzare strategicamentente link interni tra le diverse sezioni del sito aiuta a distribuire il crawl budget uniformemente e a dare indicazioni a Google su quali percorsi seguire. Le pagine con maggiore importanza devono essere facilmente raggiungibili e collegare correttamente le pagine tra loro migliora l’efficacia del crawl.

Ridurre il numero di pagine duplicate o di bassa qualità è un’altra mossa imprescindibile: contenuti duplicati o pagine con scarso valore non solo rubano risorse ai crawler, ma possono anche danneggiare la performance complessiva del sito – motivo per cui è importante gestire al meglio anche il tag “noindex” per un’indicizzazione efficace. Anche l’ottimizzazione della gerarchia del sito è essenziale: una struttura ben organizzata, che consenta ai motori di ricerca di individuare rapidamente le pagine principali, facilita la scansione e garantisce che le risorse vengano allocate correttamente.

Un ultimo accorgimento riguarda la gestione di redirect: se ben gestiti, i reindirizzamenti possono migliorare le prestazioni di crawling indirizzando i crawler alle nuove versioni delle pagine, senza disperdere risorse in tentativi di scansione falliti. Tuttavia, un numero eccessivo di redirect male gestiti può rallentare il processo e creare delle strozzature. Utilizzare la Google Search Console per monitorare i redirect e migliorare le prestazioni secondo le linee guida è una buona prassi da seguire continuamente per gestire il crawling del sito in modo efficace e funzionale.

Come migliorare l’efficienza del crawling, i consigli di Google

Il documento ufficiale di Google ci fornisce anche una guida rapida all’ottimizzazione di alcuni aspetti del sito che possono influenzare il budget di scansione – sottolineando la premessa che questo aspetto dovrebbe “preoccupare” solo alcune tipologie specifiche di siti, anche se ovviamente anche tutti gli altri siti possono trarre giovamento e spunti di ottimizzazione da questi interventi.

Nello specifico, i consigli sono:

Gestire l’inventario di URL, utilizzando gli strumenti appropriati per comunicare a Google quali pagine è necessario o meno sottoporre a scansione. Se Google dedica troppo tempo alla scansione di URL non idonei all’indicizzazione, Googlebot potrebbe decidere che non vale la pena esaminare il resto del sito (né tantomeno aumentare il budget per farlo). In concreto, possiamo:
- Accorpare i contenuti duplicati, per concentrare la scansione su contenuti univoci anziché su URL univoci.
- Bloccare la scansione degli URL utilizzando il file robots.txt., così da ridurre la probabilità di indicizzazione degli URL che non desideriamo siano visualizzati nei risultati della Ricerca, ma che fanno riferimento a pagine importanti per gli utenti, e quindi da mantenere intatte. Un esempio sono le pagine a scorrimento continuo che duplicano informazioni su pagine collegate o le versioni della stessa pagina ordinate in modo diverso.

A questo proposito, la guida invita a non utilizzare il tag noindex, in quanto Google ne eseguirà comunque la richiesta, anche se poi abbandonerà la pagina non appena rileva un meta tag o un’intestazione noindex nella risposta HTTP, sprecando tempo per la scansione. Parimenti, non dobbiamo utilizzare il file robots.txt per riallocare temporaneamente del budget di scansione per altre pagine, ma solo per bloccare le pagine o le risorse che non vogliamo che siano sottoposte a scansione. Google non trasferirà il nuovo budget di scansione disponibile ad altre pagine, a meno che non stia già raggiungendo il limite di pubblicazione del sito.

Restituire un codice di stato 404 o 410 per le pagine rimosse Google non eliminerà un URL noto, ma un codice di stato 404 segnala in modo chiaro di evitare la nuova scansione di quel dato URL; gli URL bloccati continueranno a rimanere nella coda di scansione, anche se verranno sottoposti nuovamente a scansione solo con la rimozione del blocco.
Eliminare gli errori soft 404. Le pagine soft 404 continueranno a essere sottoposte a scansione e a incidere negativamente sul budget.
Mantenere aggiornate le Sitemap, includendo tutti i contenuti che vogliamo che siano sottoposti a scansione. Se il sito include contenuti aggiornati, dobbiamo includere il tag <lastmod>.
Evitare lunghe catene di reindirizzamento, che hanno un effetto negativo sulla scansione.
Verificare che le pagine si carichino in modo efficiente: se Google riesce a caricare e visualizzare le pagine più velocemente, è possibile che riesca a leggere più contenuti sul sito.
Monitorare la scansione del sito, controllando se il sito ha riscontrato problemi di disponibilità durante la scansione e cercando dei modi per renderla più efficiente.

Per quanto riguarda quest’ultimo aspetto, Google sintetizza anche quali sono i passaggi principali per monitorare la scansione del sito, ovvero:

Verificare se Googlebot sta riscontrando problemi di disponibilità sul sito.
Verificare se sono presenti pagine che devono essere sottoposte a scansione e non lo sono.
Verificare se la scansione di parti del sito debba essere più veloce di quanto lo sia al momento.
Migliorare l’efficienza della scansione del sito.
Gestire i casi di scansione eccessiva del sito.

Come migliorare l’efficienza della scansione di un sito

La guida scende poi in dettagli preziosi per provare a gestire in modo efficiente il budget di scansione.

In particolare, ci sono una serie di interventi che ci permettono di aumentare la velocità di caricamento della pagina e delle risorse presenti.

Come detto, la scansione di Google è limitata da fattori come larghezza di banda, tempo e disponibilità delle istanze di Googlebot: quanto più veloce è la risposta del sito, tanto maggiore è il numero di pagine che è possibile vengano sottoposte a scansione. Di fondo, però, Google vorrebbe eseguire solo (o comunque prioritariamente) la scansione di contenuti di alta qualità, e quindi velocizzare il caricamento di pagine di scarsa qualità non induce Googlebot a estendere la scansione del sito e ad aumentare il budget di scansione, cosa che potrebbe avvenire invece se facciamo capire a Google che può rilevare contenuti di alta qualità.

Un aspetto cruciale è monitorare la scansione tramite strumenti come il report Statistiche di scansione in Google Search Console o l’analisi dei log del server per controllare se Googlebot ha eseguito la scansione di determinati URL. Il monitoraggio costante della cronologia di scansione diventa essenziale, in particolar modo se Googlebot non sta individuando alcune pagine importanti del nostro sito. In quei casi, potrebbe essere utile analizzare gli avvisi nei log o nel report “Statistiche di scansione” per verificare se i problemi siano legati alla disponibilità del server (ad esempio un sovraccarico) che limita le capacità di Googlebot. In caso di sovraccarico del server, è consigliabile aumentare temporaneamente le risorse, analizzando nel corso di alcune settimane se ciò produce un aumento delle richieste di scansione da parte di Google.

Tradotto in termini pratici, possiamo ottimizzare in questo modo le pagine e le risorse per la scansione:

Impedire a Googlebot il caricamento di risorse di grandi dimensioni, ma non importanti, utilizzando il file robots.txt, bloccando solo le risorse non critiche, ossia risorse non importanti per comprendere il significato della pagina (come immagini a scopo decorativo).
Verificare che le pagine vengano caricate rapidamente.
Evitare lunghe catene di reindirizzamento, che hanno un effetto negativo sulla scansione.
Verificare il tempo di risposta alle richieste del server e il tempo necessario per il rendering delle pagine, incluso il tempo di caricamento e di esecuzione delle risorse incorporate, come immagini e script, che sono tutti importanti, facendo attenzione a risorse voluminose o lente necessarie per l’indicizzazione.

Sempre dal punto di vista tecnico, un consiglio diretto è di specificare le modifiche ai contenuti con codici di stato HTTP, perché generalmente Google supporta per la scansione le intestazioni delle richieste HTTP If-Modified-Since e If-None-Match. I crawler di Google non inviano le intestazioni con tutti i tentativi di scansione, ma dipende dal caso d’uso della richiesta: quando i crawler inviano l’intestazione If-Modified-Since, il valore dell’intestazione equivale alla data e all’ora dell’ultima scansione dei contenuti, in base al quale il server potrebbe scegliere di restituire un codice di stato HTTP 304 (Not Modified) senza un corpo della risposta, spingendo Google a riutilizzare la versione dei contenuti sottoposta a scansione l’ultima volta. Se i contenuti sono successivi alla data specificata dal crawler nell’intestazione If-Modified-Since, il server può restituire un codice di stato HTTP 200 (OK) con il corpo della risposta. Indipendentemente dalle intestazioni della richiesta, se i contenuti non sono cambiati dall’ultima volta che Googlebot ha visitato l’URL possiamo però inviare un codice di stato HTTP 304 (Not Modified) e nessun corpo della risposta per qualsiasi richiesta di Googlebot: ciò consentirà di risparmiare tempo e risorse di elaborazione del server, il che potrebbe migliorare indirettamente l’efficienza della scansione.

Altro intervento pratico è nascondere gli URL che non desideriamo siano visualizzati nei risultati di ricerca: lo spreco di risorse del server su pagine superflue può compromettere l’attività di scansione di pagine per noi importanti, comportando un ritardo significativo nel rilevamento di contenuti nuovi o aggiornati su un sito. Se è vero che bloccare o nascondere le pagine già sottoposte a scansione non trasferirà il budget di scansione a un’altra parte del sito, a meno che Google non stia già raggiungendo i limiti di pubblicazione del sito, possiamo comunque lavorare sulla riduzione delle risorse, e in particolare evitare di mostrare a Google un numero elevato di URL del sito che non vogliamo vengano sottoposti a scansione dalla Ricerca: in genere, questi URL rientrano nelle seguenti categorie:

Navigazione per facet e identificatori di sessione: la navigazione per facet estrapola in genere contenuti duplicati dal sito e gli identificatori di sessione, così come altri parametri URL, ordinano o filtrano la pagina ma non forniscono nuovi contenuti.
Contenuti duplicati, che generano una scansione superflua.
Pagine soft 404.
Pagine compromesse, da ricercare e correggere attraverso il report Problemi di sicurezza.
Spazi infiniti e proxy.
Scarsa qualità e contenuti spam.
Pagine del carrello degli acquisti, pagine a scorrimento continuo e pagine che eseguono un’azione (come pagine con invito a registrarsi o ad acquistare).

Il file robots.txt è il nostro strumento utile quando non vogliamo che Google esegua la scansione di una risorsa o di una pagina, bloccando solo quegli elementi che non sono necessari per un lungo periodo di tempo o che non devono comparire nei risultati di ricerca. Inoltre, se una stessa risorsa (ad esempio un’immagine o un file JavaScript condiviso) viene riutilizzata su più pagine, è consigliabile fare riferimento alla risorsa utilizzando il medesimo URL in ogni pagina, in modo che Google possa memorizzare e riutilizzare tale risorsa, senza doverla richiedere più volte.

Sono invece sconsigliate pratiche come aggiungere o rimuovere con assiduità pagine o directory dal file robots.txt per riallocare il budget di scansione per il sito, e alternare tra Sitemap o utilizzare altri meccanismi di occultamento temporaneo per riallocare il budget. È anche importante sapere che l’indicizzazione di nuove pagine non avviene immediatamente: in genere passeranno anche alcuni giorni prima che Googlebot rilevi nuovi contenuti, eccezion fatta per siti in cui è essenziale una scansione rapida come i siti di notizie. Aggiornare costantemente le Sitemap con i più recenti URL e monitorare regolarmente la disponibilità del server permettono di garantire che non ci siano colli di bottiglia che rallentino la scansione o l’indicizzazione dei contenuti più importanti.

Come ridurre le richieste di scansione di Google

Se il problema è esattamente l’opposto – e quindi siamo di fronte a un caso di scansione eccessiva del sito – abbiamo alcune azioni da seguire per evitare il sovraccarico del sito, ricordando comunque che Googlebot è dotato di algoritmi che gli impediscono di sovraccaricare il sito con richieste di scansione. La diagnosi di questa situazione va fatta attraverso un monitoraggio del server, per verificare che effettivamente il sito sia in difficoltà a causa di eccessive richieste da Googlebot, mentre la gestione prevede di:

Restituire temporaneamente codici di stato della risposta HTTP 503 o 429 per le richieste di Googlebot quando il tuo server è sovraccarico. Googlebot riproverà a eseguire nuovamente la scansione di questi URL per circa 2 giorni, ma la restituzione dei codici di tipo “nessuna disponibilità” per più di alcuni giorni comporterà il rallentamento o l’interruzione definitiva della scansione degli URL sul sito (e l’eliminazione dall’indice), quindi dobbiamo procedere con gli altri step
Ridurre la frequenza di scansione di Googlebot per il sito. Questa operazione può richiedere fino a due giorni per diventare effettiva e richiede l’autorizzazione dell’utente proprietario della proprietà in Search Console, e va eseguita solo se nel grafico di Disponibilità dell’host > Utilizzo dell’host del report Statistiche di scansione notiamo che Google sta eseguendo da diverso tempo un numero eccessivo di scansioni ripetute.
Se la frequenza di scansione diminuisce, interrompere la restituzione dei codici di stato della risposta HTTP 503 o 429 per le richieste di scansione; se restituisci 503 o 429 per più di 2 giorni.
Eseguire il monitoraggio della scansione e della capacità dell’host nel tempo e, se necessario, aumentare di nuovo la frequenza di scansione o abilitare la frequenza di scansione predefinita.
Se a causare il problema è uno dei crawler di AdsBot, è possibile che abbiamo creato target per gli annunci dinamici della rete di ricerca per il sito e che Google stia tentando di eseguirne la scansione. Questa scansione viene ripetuta ogni due settimane. Se la capacità del server non è sufficiente a gestire queste scansioni, possiamo limitare i target degli annunci o richiedere un aumento della capacità di pubblicazione.

Dubbi e falsi miti: Google chiarisce le questioni sul crawl budget

La rilevanza sempre crescente del tema ha portato, quasi inevitabilmente, alla nascita e alla proliferazione di tantissimi falsi miti sul crawl budget, alcuni dei quali elencati anche nella guida ufficiale di Google: ad esempio, tra le notizie sicuramente false ci sono che

Possiamo controllare Googlebot con la regola “crawl-delay” (in realtà, Googlebot non elabora la regola non standard “crawl-delay” del file robots.txt).
URL alternativi e contenuti incorporati non contanoai fini del budget di scansione (qualsiasi URL di cui Googlebot esegue la scansione viene conteggiato al budget).
Google preferisce URL puliti privi di parametri di ricerca (in realtà può eseguire la scansione dei parametri).
Google preferisce contenuti vecchi, che hanno più peso, rispetto a contenuti nuovi (se la pagina è utile, resta tale indipendentemente dall’età dei contenuti).
Con il suo algoritmo QDF, Google preferisce e premia i contenuti più aggiornati possibile, quindi conviene continuare ad apportare piccole modifiche alla pagina (i contenuti vanno aggiornati secondo necessità, e non serve a nulla far apparire le pagine rinnovate apportandovi solo banali modifiche e aggiornandone la data).
I siti di piccole dimensioni non vengono sottoposti a scansione con la stessa frequenza dei siti di grandi dimensioni (al contrario: se un sito presenta contenuti importanti che subiscono frequenti modifiche, spesso ne eseguiamo la scansione, indipendentemente dalle dimensioni).
La compressione delle sitemap può aumentare il budget di scansione (anche se inserite in file .zip, le sitemap devono comunque essere recuperate sul server, pertanto Google non risparmia molto in termini di tempo o di impegno quando inviamo Sitemap compresse).
Le pagine che mostrano codici di stato HTTP 4xx sprecano budget di scansione (a parte l’errore 429, le altre pagine non sprecano budget di scansione: Google ha tentato di eseguire la scansione della pagina, ma ha ricevuto un codice di stato e nessun altro contenuto).
La scansione è un fattore di ranking (non è così).

Come stimare il crawl budget di un sito

Stimare il crawl budget di un sito web è un esercizio fondamentale per capire come Googlebot interagisce con le nostre pagine e quali sezioni del sito stanno assorbendo la maggior parte delle risorse di scansione.

Lo strumento più efficace per ottenere una stima del crawl budget è senza dubbio la più volte citata Google Search Console, che mette a disposizione una serie di report dedicati al comportamento dei crawler. In Google Search Console i rapporti scansione permettono di determinare il numero di URL scansionati, la frequenza e le eventuali problematiche riscontrate durante la scansione di pagine specifiche.

Utilizzare questi report ci consente di avere una visione chiara della quantità di pagine realmente sottoposte a crawling, offrendo così spunti su come migliorare la gestione del nostro sito. La sezione “Copertura” della Google Search Console, in particolare, ci offre indicazioni su quante pagine del nostro sito sono state scansionate e quante URL sono state escluse dal crawling o addirittura si trovano nella stato “rilevata ma attualmente non indicizzata”. Questi dati sono preziosi per identificare eventuali carenze o inefficienze nel processo di scansione e per intraprendere azioni correttive, come richiedere manualmente una rettifica con il comando “recrawl google“.

Un altro approccio utile per stimare il crawl budget è attraverso l’utilizzo di strumenti SEO avanzati come SEOZoom. Questo strumento fornisce una visione d’insieme sul rendimento delle pagine del sito e mette in evidenza quali URL consumano maggiormente il crawl budget senza contribuire significativamente al traffico organico. Analizzando i gruppi di pagine “ad alto consumo e basso rendimento”, è possibile individuare sezioni del sito che rubano risorse ma non portano valore, permettendoci di ottimizzare la presenza del sito sui motori di ricerca in modo più consapevole e strategico, migliorando quindi la nostra capacità di SEO crawling.

Gli strumenti di SEOZoom per conoscere e ottimizzare il crawl budget

Approfondendo in particolare le opportunità presenti all’interno della nostra suite, possiamo sfruttare a pieno la sezione Rendimento Pagine di SEOZoom per gestire al meglio il crawl budget e migliorare l’efficienza delle risorse dedicate alla scansione del sito.

In quest’area, presente all’interno dei Progetti, possiamo monitorare rapidamente le aree critiche e avere una panoramica chiara su come Google sta utilizzando il tempo e le risorse per scansionare le pagine del sito. SEOZoom ci fornisce una stima dettagliata che evidenzia quali URL vengono scansionati più frequentemente senza però offrire un contributo al traffico organico, consentendoci di identificare rapidamente le pagine che sprecano crawl budget perché non portano valore aggiunto in termini di posizionamento o volume di ricerca.

Attraverso i dati disponibili, possiamo quindi capire quali pagine stanno realmente impiegando maggiori risorse di crawling, confrontandole con il traffico mensile stimato e con il numero di keyword posizionate. Questo tipo di analisi ci permette di intervenire in modo strategico, decidendo se provare a ottimizzare le pagine che stanno consumando risorse inutilmente o se, in alcuni casi, rimuoverle o ridurre la loro importanza per liberare risorse di crawling. Se una pagina non ha un buon rendimento organico, possiamo verificare facilmente se si tratta di una risorsa che rischia di non essere scansionata perché non posizionata con keyword rilevanti o se è semplicemente non visibile agli utenti.

Prima di intraprendere azioni drastiche, però, è importante avere un quadro completo e contestualizzato del rendimento complessivo delle risorse: a questo proposito è utile incrociare i dati con quelli di strumenti come Google Search Console e Google Analytics. In questo modo possiamo essere certi che il basso traffico non derivi da canali esterni come social o referral, ed evitare di eliminare pagine che potrebbero essere strategiche da altri punti di vista.

Un’altra area di SEOZoom che si rivela estremamente utile riguarda la possibilità di identificare le pagine che hanno un alto potenziale di miglioramento. SEOZoom ci fornisce indicazioni mirate su quali URL possono beneficiare di un’ottimizzazione SEO, concentrandoci in particolar modo su quelle pagine che hanno già un buon posizionamento su Google, ma che non stanno ancora raggiungendo la prima pagina dei risultati. Ottimizzare questi contenuti significa massimizzare sia il loro potenziale di traffico sia il loro impatto sul crawl budget globale del sito, perché potremmo trasformare pagine già presenti e scansionate in veri e propri punti di forza per il posizionamento del sito nei risultati di ricerca.

Inoltre, SEOZoom ci permette di analizzare il rendimento delle pagine segmentato per gruppi di traffico, mettendo in evidenza quali parti del sito richiedono più risorse per essere scansionate rispetto ai risultati che stanno generando. Questo ci dà la possibilità di prendere decisioni consapevoli su quali porzioni del sito razionalizzare o potenziare, per garantire che Googlebot stia utilizzando il tempo dedicato alla scansione in modo produttivo, concentrandosi sulle pagine che davvero attirano traffico e interazione.

Tutto questo è possibile grazie alla chiara visualizzazione e organizzazione delle informazioni nella sezione Crawl Budget di SEOZoom, che ci consente di vedere come le risorse vengano distribuite su diverse categorie di pagine e, soprattutto, di verificare se stiamo sprecando risorse su pagine poco utili o su contenuti duplicati, soft 404 o pagine compromesse. Ottimizzando queste aree critiche non solo possiamo migliorare la scansione, ma anche accelerare la risposta del motore di ricerca rispetto agli aggiornamenti del sito, favorendo una migliore indicizzazione e un’esperienza complessiva più fluida e proficua per i visitatori.

SEOZoom ci offre, dunque, una visione precisa e mirata sull’utilizzo delle risorse di crawling del sito, e ci consente di agire proattivamente per ottimizzare non solo la scansione, ma l’efficienza generale del sito in ottica SEO. Con tutte queste informazioni a disposizione, possiamo facilmente trovare uno strumento potente a supporto di una gestione intelligente del crawl budget, indispensabile per garantire che Googlebot si concentri sempre sui contenuti che offrono il maggior valore, lasciando da parte quelli che invece consumano risorse senza portare risultati concreti.

Questi consigli tornano particolarmente utili se non abbiamo accesso alla Search Console (ad esempio, se il sito non è nostro), perché ci offrono comunque un modo per capire se il sito sta piacendo al motore di ricerca, grazie anche al colpo d’occhio immediato fornito dalla Zoom Authority, la nostra metrica nativa che fa individuare immediatamente quanto è influente e rilevante un sito per Google.

La ZA prende in considerazione molti criteri e, dunque, non solo le pagine posizionate nella top 10 di Google o il numero di link ottenuti, e quindi un valore elevato equivale a un gradimento generale del motore di ricerca, che premia con visibilità frequente i contenuti di quel sito – e possiamo anche analizzare la pertinenza per argomento attraverso la metrica della Topical Zoom Authority.

Ottimizzazione del crawl budget per la SEO, le best practices

Un approfondimento su Search Engine Land di Aleh Barysevich presenta un elenco di consigli per ottimizzare il crawl budget e migliorare la crawlability di un sito, con 8 regole semplici da seguire per ogni sito:

Non bloccare le pagine importanti.
Resta fedele al codice HTML quando possibile, evitando file pesanti in JavaScript o altri formati.
Risolvi le catene di redirect troppo lunghe.
Segnala a Googlebot i parametri degli URL.
Correggi gli errori HTTP.
Mantieni aggiornate le Sitemap.
Usa il rel canonical per evitare contenuti duplicati.
Usa i tag hreflang per indicare il Paese e la lingua.

Un ulteriore consiglio tecnico per ottimizzare il crawl budget di un sito arriva da Gary Illyes, che spiega come impostare il disallow sugli URL non rilevanti permette di non pesare sul crawl budget, e dunque usare il comando disallow nel file robots può consentire di gestire meglio la scansione di Googlebot. Nello specifico, in una conversazione su Twitter il Googler ha spiegato che “se usi il disallow su una directory inutile con milioni di URL guadagni crawl budget”, perché il bot dedicherà il suo tempo ad analizzare e sottoporre a scansione risorse più utili del sito.

I possibili interventi di ottimizzazione sul sito

Approfondendo i consigli descritti possiamo quindi definire alcuni interventi specifici che potrebbero aiutare a gestire meglio il crawl budget del sito: nulla di particolarmente “nuovo”, perché si tratta di alcuni noti segnali della salute del sito web.

Il primo suggerimento è quasi banale, ovvero consentire la scansione delle pagine importanti del sito nel file robots.txt, un passo semplice ma decisivo per avere sotto controllo le risorse sottoposte a scansione e quelle bloccate. Ugualmente, è bene prendersi cura della sitemap XML, così da dare ai robot un modo semplice e più veloce di comprendere dove conducono i collegamenti interni; ricordiamoci di usare solo gli URL canonici per la sitemap e di aggiornarla sempre alla versione più recente caricata del robots.txt – mentre invece non serve a molto comprimere le Sitemap, perché devono comunque essere recuperate sul server e questo non equivale a un risparmio sensibile in termini di tempo o di impegno per Google.

Sarebbe poi bene verificare – o evitare del tutto – le catene di reindirizzamento, che costringono Googlebot a sottoporre a scansione più URL: in presenza di una quota eccessiva di redirect, il crawler del motore di ricerca potrebbe improvvisamente terminare la scansione senza raggiungere la pagina che deve indicizzare. Se i 301 e 302 andrebbero limitati, altri codici di stato HTTP sono ancora più nocivi: le pagine in 404 e 410 pagine tecnicamente consumano crawl budget e, per di più, danneggiano anche l’user experience del sito. Non meno fastidiosi sono gli errori 5xx legati al server, motivo per il quale è bene fare un’analisi periodica e un checkup di salute del sito, usando magari il nostro SEO spider!

Un’altra riflessione da fare riguarda i parametri URL, perché gli URL separati vengono conteggiati dai crawler come pagine separate, e quindi sprecano in modo inestimabile parte del budget e rischiano anche di sollevare dubbi sui contenuti duplicati. Nei casi di siti multilingua, poi, dobbiamo usare al meglio il tag hreflang, informando nel modo più chiaro possibile Google delle versioni geolocalizzate delle pagine, sia con l’header che con l’elemento <loc> per un dato URL.

Una scelta di fondo per migliorare la scansione e semplificare l’interpretazione di Googlebot potrebbe essere infine quella di preferire sempre l’HTML agli altri linguaggi: anche se Google sta imparando a gestire JavaScript in maniera sempre più efficace (e ci sono tante tecniche per l’ottimizzazione SEO di JavaScript), il vecchio HTML resta ancora il codice che dà maggiori garanzie.

Le criticità SEO del crawl budget

Uno dei Googler che più spesso si è dedicato a questo tema è John Mueller che, in particolare, ha ribadito anche su Reddit che non c’è un benchmark per il crawl budget di Google, e che quindi non esiste un “numero” di riferimento ottimale verso cui tendere con gli interventi sul sito.

Quello che possiamo fare, in termini pratici, è cercare di ridurre gli sprechi sulle pagine “inutili” del nostro sito – vale a dire quelle che non hanno keyword posizionate o che non generano visite – per ottimizzare l’attenzione che Google dedica ai contenuti per noi importanti e che possono rendere di più in ottica di traffico.

L’assenza di un parametro di riferimento o un valore ideale a cui tender fa basare tutta la discussione sul crawl budget si basa su astrazioni e teorie: quel che sappiamo di certo è che Google solitamente è più lento a eseguire la scansione di tutte le pagine di un piccolo sito che non si aggiorna spesso o non ha molto traffico rispetto a quella di un grande sito con molte modifiche giornaliere e una quantità significativa di traffico organico.

Il problema sta nel quantificare i valori di “spesso” e “molto”, ma soprattutto nell’individuare un numero univoco sia per i siti enormi e potenti che per i piccoli blog; ad esempio, sempre in linea teorica, un valore X di crawl budget raggiunto da un sito web di rilievo potrebbe essere problematico, mentre per un blog con poche centinaia di pagine e poche centinaia di visitatori al giorno potrebbe essere il livello massimo raggiunto, difficile da migliorare.

Dare priorità alle pagine rilevanti per noi

Per questo motivo, un’analisi seria di questo “budget di ricerca per indicizzazione” si deve concentrare su una gestione complessiva del sito, cercando di migliorare la frequenza dei risultati su pagine importanti (quelle che convertono o che attraggono traffico) utilizzando strategie diverse, piuttosto che cercare di ottimizzare la frequenza complessiva dell’intero sito.

Tattiche rapide per raggiungere questo obiettivo sono i redirect per portar via Googlebot da pagine meno importanti (bloccandole dalla scansione) e l’uso dei link interni per incanalare una maggiore importanza sulle pagine che si desidera promuovere (che, ça va sans dire, devono fornire contenuti di qualità). Se operiamo bene in questa direzione – usando anche gli strumenti di SEOZoom per verificare su quali URL conviene concentrarsi e concentrare le risorse – potremmo aumentare la frequenza dei passaggi di Googlebot sul sito, perché Google dovrebbe teoricamente vedere più valore nell’inviare traffico alle pagine che indicizza, aggiorna e classifica del sito.

Le considerazioni sul crawl budget

Dovrebbe essere abbastanza chiaro che avere sotto controllo il crawl budget è molto importante, perché può essere un’indicazione positiva del fatto che le nostre pagine piacciano a Google, soprattutto se il nostro sito viene scansionato ogni giorno, più volte al giorno.

Secondo Illyes – autore già nel 2017 di un approfondimento sul blog ufficiale di Google – però il crawl budget non dovrebbe preoccupare troppo se “le nuove pagine tendono a essere sottoposte a scansione lo stesso giorno in cui vengono pubblicate” o “se un sito ha meno di qualche migliaio di URL”, perché in genere questo significa che la scansione di Googlebot funziona in modo efficiente.

Anche altre voci pubbliche di Google hanno spesso invitato proprietari di siti e webmaster a non preoccuparsi in maniera esagerata del crawl budget, o meglio a non pensare esclusivamente agli aspetti tecnici assoluti quando si eseguono interventi di ottimizzazione onsite. Ad esempio, in uno scambio su Twitter John Mueller consiglia piuttosto di concentrarsi prima sugli effetti positivi in termini di user experience e di incremento delle conversioni che potrebbero derivare da questa strategia.

Per la precisione, il Search Advocat sostiene che esistono molte buone pratiche per ottimizzare il crawl budget, ma possono avere pochi effetti pratici: ad esempio, rimuovere 25 pagine inutili è un’ottima soluzione per rendere i siti più snelli ed evitare che gli utenti si perdano durante la navigazione, ma non è un’operazione che si deve fare per migliorare il crawl budget (crawl-budget question) o per sperare in riscontri concreti sul ranking.

Come funzionano crawl budget e rendering? La sintesi di Google

Ed è lo stesso John Mueller a darci qualche indicazione sintetica, ma comunque interessante, su crawl budget, tecniche per cercare di ottimizzarne la gestione e aspetti correlati, come la caching o la riduzione delle risorse embedded e il loro impatto sulla velocità del sito per gli utenti.

Lo spunto di partenza per questa riflessione, approfondita in un episodio della serie #AskGooglebot, nasce dalla domanda di un utente via Twitter, che chiede se “un utilizzo intenso di WRS può anche ridurre il crawl budget di un sito”.

Come di consueto, il Search Advocate chiarisce le definizioni dei termini e delle attività, ricordando che:

WRS è il Web Rendering Service, ovvero il sistema che Googlebot usa per renderizzare le pagine come un browser, in modo da poter indicizzare tutto allo stesso modo in cui lo vedrebbero gli utenti.
Crawl Budget si riferisce al sistema che “usiamo per limitare il numero di richieste che facciamo ad un server, in modo da non causare problemi durante il nostro crawling”.

Come Google gestisce il crawl budget di un sito

Mueller ribadisce ancora una volta che il crawl budget non è un tema che dovrebbe preoccupare tutti i siti, perché in genere “Google non ha problemi a fare crawling di sufficienti URL per la maggior parte dei siti”. E anche se non c’è una soglia specifica o un benchmark di riferimento, in linra di massima il crawl budget “è un argomento che dovrebbe interessare per lo più grandi siti web, quelli con oltre centomila URL”.

In generale, i sistemi di Google riescono automaticamente a determinare il numero massimo di richieste che un server può elaborare in un determinato periodo di tempo. Questa operazione viene “fatta automaticamente e regolata nel tempo”, spiega Mueller, perché “appena vediamo che il server inizia a rallentare o a restituire errori del server, riduciamo il crawl budgeta disposizione dei nostri crawler”.

Google e rendering

Il Googler si sofferma anche sul rendering, spiegando ai siti che i servizi del motore di ricerca devono “poter accedere a contenuti embedded, come file JavaScript, CSS, file, immagini e video e alle risposte del server dalle API che sono utilizzate nelle pagine”.

Google fa un “largo uso di caching per cercare di ridurre il numero di richieste necessarie per renderizzare una pagina, ma nella maggior parte dei casi il rendering risulta più di una semplice richiesta, quindi più di un semplice file HTML che viene inviato al server”.

Ridurre le risorse embedded aiuta anche gli utenti

In definitiva, secondo Mueller, soprattutto quando si opera su grandi siti può essere d’aiuto per il crawling “ridurre il numero di risorse embedded necessarie per renderizzare una pagina”.

Questa tecnica permette anche di offrire pagine più veloci per gli utenti e di ottenere quindi due risultati importanti per la nostra strategia.

L’approfondimento di Google sul budget di scansione

Il crawl budget è stato anche il tema centrale di un appuntamento con SEO Mythbusting season 2, la serie in cui il Developer Advocate di Google Martin Splitt cerca di sfatare miti e chiarire i dubbi frequenti sui topic SEO.

Nello specifico, nell’episodio che avuto come ospite Alexis Sanders, Senior Account Manager presso l’agenzia di marketing Merkle, il focus è andato sulle definizioni e dai consigli di gestione del budget di scansione, un argomento che crea parecchie difficoltà di comprensione a chi opera nel search marketing.

Martin Splitt inizia quindi il suo approfondimento dicendo che “quando parliamo di Google Search, di indicizzazione e di crawling, dobbiamo fare una sorta di compromesso: Google vuole sottoporre a scansione la quantità massima di informazioni nel più breve tempo possibile, ma senza sovraccaricare i server”, trovando cioè il crawl limit o crawl rate.

Per la precisione, il crawl rate viene definito come il numero massimo di richieste parallele che Googlebot può fare in simultanea senza sovraccaricare un server, e quindi in pratica indica la quota massima di stress che Google può esercitare su un server senza portare nulla al crash o generare disagi per questo sforzo.

Google deve però fare attenzione solo alle risorse altrui, ma anche alle proprie, perché “il Web è enorme e non possiamo sottoporre a scansione tutto per tutto il tempo, ma fare alcune distinzioni”, spiega Splitt.

Ad esempio, prosegue, “un sito di news probabilmente cambia piuttosto spesso, e quindi noi probabilmente dobbiamo stare al suo passo con una frequenza elevata: al contrario, un sito sulla storia del kimchi probabilmente non cambierà così assiduamente, perché la storia non ha lo stesso passo rapido del settore delle notizie di attualità”.

Si spiega così che cos’è il crawl demand, ovvero la frequenza con cui Googlebot sottopone a scansione un sito (o, meglio, a una tipologia di sito) in base alla sua probabilità di aggiornamento. Come dice Splitt nel video, “cerchiamo di capire se è il caso di passare più spesso o se invece possiamo dare una controllata di tanto in tanto”.

Il processo di decisione di questo fattore si basa sull’identificazione che Google fa del sito alla prima scansione, quando in pratica prende le “impronte digitali” dei suoi contenuti, vedendo il topic della pagina (che sarà usato anche per la deduplicazione, in fase successiva) e analizzando anche la data dell’ultima modifica.

Il sito ha la possibilità di comunicare le date a Googlebot – ad esempio, attraverso i dati strutturati o altri elementi temporali in pagina – che “più o meno tiene traccia della frequenza e della tipologia dei cambiamenti: se rileviamo che la frequenza delle modifiche è molto bassa, allora non sottoporremo il sito a scansione con particolare cadenza”.

La frequenza di scansione non riguarda la qualità dei contenuti

Molto interessante è la puntualizzazione successiva del Googler: questo tasso di scansione non ha nulla a che vedere con la qualità, dice. “Puoi avere contenuti fantastici che si posizionano benissimo, che non cambiano mai”, perché ciò la questione in questo caso è “se Google deve passare di frequente sul sito per un crawling o se può lasciarlo tranquillo per un certo periodo di tempo”.

Per aiutare Google a rispondere in modo corretto a questa domanda, i webmaster hanno a disposizione vari strumenti che danno “suggerimenti”: oltre ai già citati dati strutturati, si possono usare ETag o gli HTTP headers, utili per segnalare la data dell’ultima modifica nelle sitemap. È però importante che gli aggiornamenti siano utili: “Se aggiorni solo la data nella sitemap e ci accorgiamo che non c’è alcuna modifica vera sul sito, o che sono cambiamenti minimi, non ci sei di aiuto” nell’individuare la probabile frequenza di modifiche.

Quando il crawl budget è un problema?

Secondo Splitt, il crawl budget è comunque un tema che prioritariamente dovrebbe interessare o preoccupare i siti enormi, “diciamo con milioni di url e di pagine”, a meno che tu “non abbia un server scadente e inaffidabile”. Ma in quel caso, “più che sul crawl budget dovresti concentrarti sull’ottimizzazione del server”, prosegue.

Di solito, secondo il Googler, si parla di crawl budget a sproposito, quando non c’è un vero problema collegato; per lui, i crawl budget issues capitano quando un sito nota che Google scopre ma non scansiona le pagine di cui gli importa per un periodo ampio di tempo e tali pagine non presentano problemi o errori di sorta.

Nella maggioranza dei casi, invece, Google decide di sottoporre a scansione ma non indicizzare le pagine perché “non ne vale la pena a causa della scarsa qualità del contenuto presente”. In genere, questi url sono marcati come “esclusi” nel rapporto sulla copertura dell’Indice della Google Search Console, chiarisce il video.

La crawl frequency non è un indicatore di qualità

Avere un sito sottoposto a scansione con grande frequenza non rappresenta necessariamente un aiuto per Google perché la crawl frequency non è un segnale di qualità, spiega ancora Splitt, perché per il motore di ricerca è OK anche se “avere qualcosa sottoposto a crawling, indicizzato e che non cambia più” e non richiede altri passaggi del bot.

Ottimizza il crawl budget

Gli strumenti di SEOZoom ti aiutano a mostrare a Google le tue pagine principali

Scopri di più

Qualche consiglio più mirato arriva per gli e-Commerce: se ci sono tantissime piccole pagine molto simili tra loro con contenuti affini, bisognerebbe pensare alla loro utilità chiedendosi innanzitutto se abbia senso la loro esistenza. Oppure, valutare la possibilità di estendere il contenuto per renderlo migliore? Ad esempio, se si tratta solo di prodotti che variano per una piccola caratteristica, si potrebbero raggruppare in una sola pagina con un testo descrittivo che include tutte le variazioni possibili (anziché avere 10 piccole pagine per ogni possibilità).

Il peso di Google sui server

Il crawl budget si collega a una serie di questioni, quindi: tra quelle citate ci sono appunto la duplicazione o la ricerca delle pagine, ma anche la velocità del server è un tema delicato. Se il sito si appoggia a un server che di tanto in tanto crolla, Google potrebbe avere difficoltà a comprendere se questo succeda per le caratteristiche povere del server o a causa di un sovraccarico delle sue richieste.

A proposito di gestione delle risorse del server, poi, Splitt spiega anche come funziona l’attività del bot (e quindi quello che si vede nei log file) nelle fasi iniziali della scoperta di Google o quando, ad esempio, si compie una migrazione del server: inizialmente, un incremento dell’attività di crawling, seguito da una lieve riduzione, che continua creando quindi un’onda. Spesso, però, il cambio di server non richiede una nuova riscoperta da parte di Google (a meno di passare da qualcosa di rotto a qualcosa che funziona!) e quindi l’attività del bot per il crawling resta stabile come prima dello switch.

Crawl budget e migrazione, i consigli di Google

Piuttosto delicata è anche la gestione dell’attività di scansione di Googlebot nel corso delle migrazioni complessive del sito: il consiglio che arriva dal video a chi si trova nel mezzo di queste situazioni è di aggiornare progressivamente la sitemap e segnalare a Google che cosa sta cambiando, così da informare il motore di ricerca che ci sono state modifiche utili da seguire e verificare.

Questa strategia offre ai webmaster un piccolo controllo di come Google scopre i cambiamenti nel corso di una migrazione, anche se in linea di massima è possibile anche attendere semplicemente che l’operazione si completi.

Ciò che conta è assicurare (e assicurarsi) che entrambi i server siano funzionanti e lavorino regolarmente, senza crolli improvvisi momentanei o status code di errore; importante è anche impostare correttamente i redirect e verificare che non ci siano risorse rilevanti bloccate sul nuovo sito attraverso un file robots.txt non adeguatamente aggiornato al nuovo sito post-migrazione.

Come funziona il crawl budget

Una domanda di Alexis Sanders ci riporta al tema centrale dell’appuntamento e consente a Martin Splitt di spigare come funziona il crawl budget e su quale livello del sito interviene: solitamente, Google opera sul livello del sito, quindi considera tutto ciò che trova sullo stesso dominio. I sottodomini possono essere scansionati a volte, mentre in altri casi risultano esclusi, mentre per i CDN “non c’è nulla di cui preoccuparsi”.

Un altro suggerimento pratico che arriva dal Googler riguarda la gestione dei contenuti user-generated, o più in generale le ansie sulla quantità di pagine presenti su un sito: “Puoi dirci di non indicizzare o di non scansionare contenuti che sono di bassa qualità”, ricorda Splitt, e quindi per lui la crawl budget optimization è “qualcosa che riguarda più il lato dei contenuti che l’aspetto dell’infrastruttura tecnica”, (approccio che è in linea con quello dei nostri strumenti!).

Non sprecare il tempo e le risorse di Google

In definitiva, lavorare sul crawl budget significa anche non sprecare il tempo e le risorse di Google, anche attraverso una serie di soluzioni molto tecniche come la gestione della cache.

In particolare, Splitt spiega che Google “cerca di essere il più aggressivo possibile quando fa caching di sub-risorse, come CSS, JavaScript, chiamate API, tutto questo genere di cose”. Se un sito ha “chiamate API che non sono richieste GET, allora non possiamo metterli in cache, e quindi bisogna essere molto attenti a fare le richieste POST o simili, che alcune API fanno di default”, perché Google non può “metterle in cache e questo consumerà più rapidamente il crawl budget del sito”.