La Sitemap.xml del tuo sito è fatta bene?

La sitemap.xml di un sito web è un ingrediente molto importante per fare SEO: indica a Google e agli altri motori di ricerca quali sono le URL da indicizzare del proprio sito web e la loro importanza relativa.
Monitorare, aggiornare e verificare la correttezza sintattica della sitemap.xml diventano azioni da compiere periodicamente, a seconda della frequenza di aggiornamento del vostro sito, ma in ogni caso almeno bimestralmente.

Spider e Sitemap.xml

Per quanto riguarda il formato e la sintassi corretta della sitemap.xml ti rimando a questa guida, qui vediamo come controllare con Excel e Screaming Frog (o altri crawler, visto che ScreamingFrog nella versione free arriva ad un massimo di 500 url) la completezza della tua Sitemap.xml, in tre semplice passaggi:

1. Preparare i dati per l’analisi
2. Verificare che tutti gli URL in Sitemap.xml siano raggiungibili dallo spider
3. Verificare che tutte le pagine navigabili siano inserite in sitemap.xml

1 -Prepariamo i dati per l’analisi

Iniziamo facendo la scansione delle sole pagine HTML e delle immagini del sito web, escludiamo quindi CSS e JavaScript, utilizzando ScreamingFrog inserite il sito su cui state lavorando andate su “filter” e selezionate prima “HTML”.

ScreamingFrog Mode Spider
Fonte: ScreamingFrog

A processo terminato estraiamo i dati in Excel e teniamo solo la lista di URL e lo Status Code HTTP, (ovvero la risposta del server).

La tabella sotto mostra i principali Status Code HTTP e il relativo significato:
Significato status code HTTP

Adesso ripetiamo lo stesso processo, ma scegliendo l’opzione “images” al posto di “HTML” sempre attraverso il menu a tendina “filter”.
Ho chiamato il foglio Excel che abbiamo così creato con pagine HTML e immagini “SCANSIONE”.

Ora navighiamo sul sito in esame e salviamo in locale il file Sitemap.xml, se il sito è gestito correttamente lato SEO dovremmo trovarlo all’indirizzo miosito.it/sitemap.xml, da qui clicchiamo con il tasto destro del mouse e selezioniamo salva con nome.

Sitemap.xml di un sito
Fonte: miosito.it/sitemap.xml

A questo punto apriamo ScreamingFrog, nel menu in alto selezioniamo “Mode”- “list” e carichiamo la sitemap.xml che avevamo precedentemente salvato.

ScreamingFrog, mode list
Fonte: ScreamingFrog

Una volta che il processo di scansione sarà terminato esportiamo in un altro foglio dello stesso file Excel le colonne “URL” e “Status Code”.
Ho chiamato il foglio Excel “SITEMAP”.

A questo punto dovremmo avere un file Excel con i fogli “SCANSIONE” (con i risultati di Crawling del sito) e “SITEMAP” (con le url della Sitemap.xml).

Passiamo a verificare che tutto sia al posto giusto!

2- Verifichiamo che la Sitemap.xml contenga tutti gli URL corretti

Andiamo sul foglio Excel Nominato “SITEMAP” e nella cella a destra dello status code della prima URL (Dovrebbe essere la cella C1 se non avete messo titoli, altrimenti la C2) inseriamo la funzione cerca.vert impostando la ricerca sul foglio “SCANSIONE”.
La formula che uso in questo caso è =cerca.vert(A1;SCANSIONE!A:A;1;0), se non abbiamo messo titoli o intestazioni.

Foglio Excel Sitemap
Fonte: Excel

Questa funzione controlla che tutti gli URL elencati in “SITEMAP” siano anche elencati nel foglio “SCANSIONE”.
In caso affermativo Excel mostrerà l’URL, in caso negativo riceverai l’errore #N/D.

Se troviamo #N/D dovremo andare ad analizzare possibili problemi e relative soluzioni:

  • In Sitemap.xml sono elencati URL non esistenti con status code 404 o 503.SOLUZIONE: Aggiornare la sitemap rimuovendo o correggendo gli URL errati.
  • In Sitemap.xml sono presenti URL con status code 200 ma che ScreamingFrog non ha rilevato.

    SOLUZIONE: Verificare il percorso di navigazione del sito web, il menu e link interni. Tutte le pagine elencate in sitemap devono essere raggiungibili dall’utente finale navigando il sito.

3- Verifichiamo che tutte le pagine navigabili siano contenute nella Sitemap.xml

Andiamo sul foglio Excel “SCANSIONE” e ripetiamo il processo appena svolto ma riferiamoci al foglio “SITEMAP” con la funzione cerca.vert.

La formula in questo caso è =cerca.vert(A1;SITEMAP!A:A;1;0)

Foglio Excel Scansione
Fonte: Excel

Se la funzione cerca.vert trova una referenza allora vuol dire che l’URL navigabile è anche in sitemap.xml, se la funzione restituisce un errore #N/D significa che quell’URL non è contemplato nella sitemap.xml

Anche qui se troviamo #N/D dovremo andare ad analizzare possibili problemi e relative soluzioni:

  • Nel foglio “SCANSIONE” sono presenti URL con status code 404 o 503.SOLUZIONE: Verificare e correggere i link interni
  • Nel foglio di scansione sono presenti URL con status code 200 ma non presenti in sitemap.

    SOLUZIONE: dobbiamo farci delle domande; perché non sono inseriti? Necessità o dimenticanza? Sono pagine Noindex oppure dovrebbero essere indicizzate?
    Correggi la sitemap se opportuno.

Per avere un sito con la sitemap.xml sempre aggiornata effettuiamo questa verifica bimestralmente e non dimentichiamoci di inserire il link della sitemap all’interno del file robots.txt in modo da aiutare i Crawler e gli Spider di Google a vedere le novità.

Se ti interessa la SEO tecnica on page guarda la presentazione qui sotto fatta al Webinar SEMRush di Luglio 2015

Torna in alto
Torna su