Pagine orfane: cosa sono e come trovarle sul sito
Sono isole sperdute, stanze senza porte o, per essere “poetici”, stelle senza costellazione. Le pagine orfane, nel contesto web, sono pagine che non sono collegate ad altre pagine all’interno dello stesso sito e, pertanto, risultano non raggiungibili dai visitatori attraverso la navigazione tradizionale. Il nome è piuttosto evocativo e simbolico, e sta a indicare proprio la caratteristica principale di queste risorse, che non hanno riferimenti in ingresso da alcuna altra pagina del sito. Le pagine orfane non ricevono link interni, sono praticamente isolate dalla struttura del sito e dalle altre pagine, e pertanto risultano fortemente a rischio di essere solitarie, dimenticate e spesso ignorate anche dai visitatori e dai crawler. Si capisce quindi che la presenza copiosa di tale situazione può rappresentare un problema per la SEO, ma la ricerca e la correzione delle pagine orfane non è complicata e ci sono vari strumenti per intervenire.
La definizione di pagine orfane: che cosa sono e perché si chiamano così
Si definiscono pagine orfane quelle che sono presenti e attive sul sito ma non hanno alcun link che punti verso di esse da nessuna altra pagina. Una orphan page, in inglese, può essere quindi un URL o una sotto-pagina fisicamente presente, ma sostanzialmente invisibile per gli utenti che navigano perché assente dalla struttura di linking interna del sito.
Si chiamano orfane perché non hanno genitori – le pagine da cui parte il link – e sono quindi isolate e prive di qualsiasi link alle pagine principali del sito. Per questo, le pagine orfane non hanno alcun collegamento con il mondo esterno: un utente potrà accedervi solo se conosce l’URL diretto, e anche i crawler dei motori di ricerca hanno spesso difficoltà a reperirle.
Come sappiamo, infatti, questi bot eseguono la scansione viaggiando nei siti Web tramite appunto i link che trovano, così da compilare un elenco di URL dei siti da inviare all’Indice: le pagine orfane sono al di fuori della ragnatela (per riprendere la classica metafora del Web come rete del ragno, appunto) e possono essere scoperte dai motori di ricerca solo se inserite nel file sitemap o in eventuali backlink esterni, ma più frequentemente non vengono indicizzate per nulla.
Quali sono le tipologie di pagina orfana
Tecnicamente non esiste una classificazione ufficiale dei tipi di pagine orfane, ma possiamo riconoscere una limitata varietà di casistiche differenti, raggruppandole secondo il modo in cui vengono isolate.
In tal senso, abbiamo:
- Pagine orfane “pure”. Non hanno alcun link in entrata da nessun’altra pagina del sito.
- Pagine orfane “a bassa visibilità“. Queste pagine hanno uno o due collegamenti in entrata, ma sono comunque difficili da trovare per gli utenti e per i crawler dei motori di ricerca.
E, più specificamente,
- Pagine orfane non intenzionali. Sono pagine che sono state create e poi dimenticate, o che sono state scollegate dal resto del sito a seguito di una ristrutturazione o di un errore.
- Pagine orfane intenzionali. A volte, le pagine vengono create senza link intenzionalmente, per esempio, per essere accessibili solo tramite un URL diretto per una promozione speciale o un evento, come avviene tipicamente per le landing page.
La differenza tra pagine orfane e pagine dead-end
Dobbiamo però fare attenzione a non confondere le pagine orfane con le pagine dead-end: entrambe possono creare problemi per la navigabilità del nostro sito e per la sua visibilità nei motori di ricerca, ma rappresentano due problemi distinti.
Una pagina orfana, come abbiamo appena discusso, è una pagina che non ha alcun link interno che la colleghi al resto del nostro sito: è una stanza senza porte, inaccessibile a meno che di non conoscerne l’esatta posizione.
È per certi versi il concetto opposto rispetto a pagina dead-end, una pagina che non ha alcun link in uscita. In questo caso, è come una stanza con porte che conducono solo all’interno, senza nessuna porta che conduca fuori. Questo significa che una volta che i visitatori o i motori di ricerca arrivano a una pagina dead-end non hanno modo di continuare a esplorare il resto del nostro sito. Si tratta insomma di vicoli ciechi, pagine che non conducono da nessun’altra parte perché non hanno link in uscita (ma hanno, al contrario, link in ingresso) e quindi intrappolano i visitatori, impedendo loro di continuare la loro esplorazione.
Come si creano le pagine orfane: cause ed esempi pratici
Di norma, le pagine orfane non vengono create intenzionalmente, ma sono piuttosto il risultato di una serie di circostanze e azioni che possono sfuggire al nostro controllo, come cambiamenti nel sito o semplici errori.
Ci sono diversi motivi che possono portare alla comparsa di questi URL, come ad esempio pagine di prodotti non più in stock, vecchi contenuti news ormai rimossi o video cancellati, che magari abbiamo provveduto a eliminare dal nostro menu o dai link interni ma che sono ancora fisicamente presenti sul server e raggiungibili. Un altro tipo di pagina orfana sono le pagine di ringraziamento che si visualizzano dopo aver compilato un modulo o effettuato un acquisto – esistono, ma non sono collegate a nessuna altra parte del nostro sito – ma che non rappresentano un vero problema perché assolvono una funzione specifica.
Altri motivi che generano pagine orfane sono un utilizzo sbagliato del CMS per la creazione di pagine, cattiva gestione di una migrazione, categorie messe offline senza un redirect, mancata eliminazione di pagine test (ad esempio, quelle usate per i test A/B).
E ci sono poi due cause tecniche comuni che danno vita a pagine orfane che dovrebbero essere immediatamente affrontate e risolte, perché creano essenzialmente duplicati di pagina che dovrebbero reindirizzare automaticamente e in modo coerente a un solo URL: si tratta della gestione di HTTPS/HTTP e www/non-www non canonici e quella dei trailing slash, lo slash finale del percorso.
Per ricapitolare, quindi, le cause frequenti che portano alla nascita di pagine orfane sul sito sono:
- Pagine obsolete. Esempi come pagine di eventi passati, prodotti non più disponibili o non più venduti, pagine di test o semplicemente vecchi articoli e blog post rischiano tutti di diventare pagine orfane, se decidiamo di rimuovere il link a queste pagine da menu, archivi, categorie e dalle altre pagine aggiornate senza, però, rimuovere fisicamente la risorsa obsoleta.
- Cambiamenti nella struttura. Ad esempio, rimuovere una pagina dal nostro menu principale o da una barra di navigazione laterale dimenticando di aggiungere un link a quella pagina da un’altra parte del nostro sito.
- Rimozione di pagine collegate. Se rimuoviamo una pagina che contiene link a altre pagine – e quei link erano l’unico modo per raggiungerle – quelle pagine diventano orfane.
- Errori di programmazione. Ad esempio, un errore nel nostro codice che impedisce la visualizzazione di alcuni link, rendendo inaccessibili le pagine a cui quei link dovrebbero condurre.
- Casi speciali: pagine di ringraziamento e landing page. Come detto, alcune pagine orfane vengono create intenzionalmente, come le pagine di ringraziamento che si visualizzano dopo aver compilato un modulo o le landing page utilizzate per le campagne di marketing. Queste pagine sono spesso isolate dal resto del sito per evitare distrazioni e guidare l’utente verso una specifica azione, ma se non gestite correttamente possono contribuire a creare un labirinto di pagine inaccessibili che fanno massa.
- Varianti delle pagine. A livello ideale, ogni pagina pubblica del sito dovrebbe utilizzare HTTP o HTTPS (preferibilmente) in modo coerente e, sempre con coerenza, versione con www o senza www. Per controllare che non ci siano errori, possiamo fare una semplice prova: digitare le quattro varianti della home page del sito nel browser – vale a dire
https://www.example.com
http://www.example.com
https://example.com
http://example.com
– e verificare che tutte e quattro reindirizzino automaticamente allo stesso identico URL che, per coerenza, dovrebbe essere impostata come canonical a se stessa. Se una di queste varianti non reindirizza correttamente, può essere un segno di problemi simili sul sito anche in altre pagine e bisogna controllare altri URL per la variante incriminata, per vedere se si tratta di un errore più diffuso, testando poi alcune pagine del sito e il file .htaccess per assicurarsi che i reindirizzamenti per queste siano impostati correttamente.
- Percorsi con trailing slash. Un’altra cosa a cui prestare attenzione è l’uso coerente delle barre finali, ovvero dei trailing slash. Ad esempio, questi due URL possono produrre lo stesso contenuto, ma gli URL non sono identici:
https://example.com/page1/
https://example.com/page1
Per sapere se le impostazioni sono corrette, basta fare un controllo random su alcune pagine del sito cercate con e senza lo slash finale, verificando che ci sia un redirect automatico allo stesso URL e che la scelta sia coerente.
Pagine orfane e SEO: perché sono un problema
Per capire perché le pagine orfane sono un problema possiamo usare una similitudine e immaginare il nostro sito web come una grande casa: ogni pagina è una stanza e ogni link è una porta che collega le stanze tra loro. I visitatori e i motori di ricerca entrano nella casa e iniziano a esplorare, passando da una stanza all’altra attraverso le porte.
Se però una stanza non ha porte rimane inesplorata, ignorata, dimenticata. È esattamente quello che succede con le pagine orfane: esistono fisicamente nella struttura della casa, ma nessuno le visita perché non ci sono porte che le colleghino e consentano l’ingresso.
Questo è il motivo per cui le pagine orfane sono problematiche: non solo i visitatori non possono trovare queste pagine, ma anche i motori di ricerca possono incontrare difficoltà a indicizzarle. E se una pagina non è indicizzata, non può apparire nei risultati di ricerca, il che significa che tutti i nostri sforzi per creare contenuti di qualità su quella pagina saranno sprecati.
Gli effetti negativi per la SEO
In generale, la struttura dei link di un sito web dovrebbe essere organizzata in modo uniforme per garantire due obiettivi: favorire il passaggio di link juice interna alle pagine importanti e assicurare una buona esperienza utente.
Lasciate così, le pagine orfane non hanno nessun valore per il sito e anzi possono diventare dannose, soprattutto se presenti in grande numero.
Da un lato, creano user experience frustranti, perché gli utenti non possono raggiungere quelle pagine attraverso la struttura naturale del sito; se ci sono informazioni importanti o utili su quelle pagine, vanno quindi sprecate.
Dall’altro lato, possono impattare sull’ottimizzazione del crawl budget e sulla qualità delle visite e delle conversioni del sito: il web crawler non può riportare molti dati o un profilo favorevole all’indicizzazione, e ciò alla lunga può influire sul posizionamento, facendo apparire il sito web di minore qualità.
Non avendo collegamenti interni, poi, non ricevono alcuna equity e i motori di ricerca non hanno un contesto semantico o strutturale in cui valutare la pagina: non hanno modo cioè di comprendere dove la pagina si inserisce nel sito nel suo insieme, e questo rende più difficile determinare per quali query la pagina è rilevante.
Le implicazioni per il sito e per la SEO
Ricapitolando, le pagine orfane possono quindi avere una serie di conseguenze negative per il sito web, tra cui:
- Ridotta visibilità. Le pagine orfane non sono accessibili agli utenti tramite la navigazione interna del sito e non vengono indicizzate dai motori di ricerca, quindi hanno una visibilità molto limitata.
- Peggioramento della SEO. Le pagine orfane non contribuiscono al ranking del sito web, anzi possono addirittura danneggiarlo, poiché possono essere viste come pagine di bassa qualità dai motori di ricerca.
- Aumento del bounce rate. Gli utenti che visitano una pagina orfana sono più propensi (praticamente costretti) ad abbandonare il sito web, il che aumenta il bounce rate.
- Problemi di gestione. Queste pagine occupano spazio sul server, non contribuiscono al ranking del sito e possono addirittura danneggiarlo, soprattutto quando sprecano il tempo che Google dedica complessivamente alla scansione del sito, sottraendo crawl budget alle risorse più utili e rilevanti.
Come sappiamo, dal punto di vista della scoperta delle pagine web i motori di ricerca come Google di solito trovano nuove pagine in due modi:
- Il crawler segue un collegamento da un’altra pagina.
- Il crawler trova l’URL elencato nella sitemap XML.
Affinché Google esegua la scansione e la successiva indicizzazione della pagina, deve innanzitutto essere in grado di trovarla grazie ai link; nel caso delle pagine orfane, ciò non è possibile e quindi questi URL spesso non vengono indicizzati e non possono essere mai visualizzati nei risultati di ricerca.
Anche se elencate nella sitemap XML, le orphan pages restano però un problema per la SEO e bisogna provare a individuarle e correggerle.
Come trovare tutte le pagine orfane del sito web
Il primo passaggio per risolvere il problema delle orphan pages è identificare le pagine scansionabili, ovvero creare un elenco completo degli URL che attualmente possono essere raggiunti attraverso il crawling dei link del sito.
È importante avere una lista di tutti gli URL attivi – quelli cioè che possono ricevono hit dai crawler – e quindi escludere le pagine che non sono indicizzabili dai motori di ricerca, perché classificate come noindex o bloccate con impostazione in robots.txt. La scansione dovrebbe iniziare sempre dalla home page del sito e procedere assicurandosi di utilizzare l’URL canonico, inclusi HTTPS o HTTP corretti e versioni www o senza www.
Confrontare gli elenchi di URL per scoprire i gap
Ottenuta la scansione, si esporta l’elenco di URL in un foglio di lavoro excel, incollandoli in una colonna.
Ora bisogna procedere con la gap analysis, che mette a raffronto i dati di fonti diverse alla ricerca di eventuali discrepanze: ad esempio, i dati Google Analytics, quelli della Search Console, della Sitemap oppure dei file log server del sito.
Ciò che conta è avere delle liste complete di URL da analizzare alla ricerca di risorse che “mancano” per identificare i gap, per l’appunto: usando ad esempio la formula match si lancia automaticamente la ricerca di corrispondenze e assenze e sarà possibile trovare gli URL orfani.
Come affrontare e risolvere le pagine orfane
Dopo aver eseguito questi passaggi e trovato tutte le pagine orfane, è il momento di capire quale destino devono avere sulla base di alcune valutazioni e riflessioni:
- La pagina è rilevante?
- Si posiziona per alcune keyword, nonostante tutto?
- Genera visite?
- Riceve backlink da fonti esterne autorevoli?
- Ha senso la sua esistenza nella tassonomia del sito?
- È ottimizzata?
Se le risposte sono positive, bisogna valorizzare ulteriormente questa pagina e inserirla all’interno della struttura di link interni del sito, semplicemente collegandolo da una pagina esistente regolare; per migliorare le sue performance, poi, si può aggiornare e migliorare se necessario il suo contenuto.
Al contrario, se la pagina è inutile e, per di più, presenta contenuto duplicato o quasi, l’opzione migliore è rimuoverla, impostando un codice di stato HTTP 404 o 410, che potrebbe offrire benefici anche in termini di efficienza del crawl budget.