Il Crawl Budget di Googlebot spiegato da Google

La settimana scorsa è apparso un post davvero interessante sul blog ufficiale di Google riservato ai webmaster.

Gary Illyes, una delle figure tecniche di Big G che ha in qualche modo preso il posto di Matt Cutts come riferimento sul funzionamento dell’algoritmo di Google agli occhi dell’industria SEO, si è occupato di spiegarci in breve cos’è e come funziona il Crawl Budget del bot di Google (Googlebot) che indicizza le pagine web.

Gary Illyes

Negli ultimi anni – con l’evolversi delle metriche di indexing e il crescere smisurato del web come mezzo di comunicazione e publishing – il crawl budget di Google è stato sempre più spesso oggetto dell’attenzione di noi seo specialist, che naturalmente abbiamo notato come tale fattore sia cresciuto d’importanza progressivamente nel corso del tempo fino ad evidenziarsi come uno degli indicatori più interessanti per valutare la salute generale di un dominio web dal punto di vista seo.

La frequenza e la profondità di scansione di un dominio web sono senz’altro alcuni tra i parametri tecnici cui guardare per valutare le attuali performance generali di un sito internet dal punto di vista degli algoritmi di indexing di Google.

Negli anni si è quindi affermata l’idea che Google avesse concepito un modo per misurare ed allocare un determinato ‘budget’ di scansione per ciascun dominio, un valore che fosse quindi capace di misurare l’interesse e la frequenza con cui gli spider di Google avrebbero indicizzato i contenuti del sito.

Tale valore prenderebbe in considerazione l’intera struttura delle URL di un dominio: ecco perché dal punto di vista seo è pratica comune creare quelle condizioni che possano garantire un’allocazione efficiente del crawl budget di Google sulle pagine di un sito, evitando duplicazione di contenuti ed URL e disegnando percorsi di navigazione coerenti ed esaustivi.

Questa buona prassi è stata evidentemente confermata dal post di Gary Illyes, che ha evidenziato una serie di casistiche in cui il crawl budget possa essere ‘sprecato’ a causa di problemi strutturali nell’organizzazione dei contenuti del sito o della loro navigazione (come la navigazione tramite parametri URL, il contenuto duplicato on-site, le pagine che presentano dei ‘soft error 404’ – ovvero l’incorretta applicazione dell’errore 404 – e le pagine con contenuto di bassa qualità o francamente spammoso).

Secondo quanto affermato dal post ufficiale il Crawl Budget deriva dal confronto tra due diversi valori contrapposti, il Crawl Rate Limit e la Crawl Demand.

Taking crawl rate and crawl demand together we define crawl budget as the number of URLs Googlebot can and wants to crawl.

Il Crawl Rate Limit rappresenta il limite massimo di frequenza (e intensità) di scansione adottato da Google per ciascun dominio.

Tale limite viene scelto per non danneggiare il traffico server del dominio oggetto di scansione (intasandone i sistemi con troppe richieste simultanee) ed è direttamente influenzato dalle performance generali offerte dal sito in termini di velocità e stabilità di connessione a fronte delle richieste eseguite dal bot.

Ecco perché avere un sito veloce e un server potente aiuta a ricevere più attenzione da parte di Google.

La Crawl Demand è invece il valore che esprime la richiesta di scansione espressa dal dominio secondo due parametri di Google, che sono la ‘popularity’ e la ‘staleness’.

In altre parole la Crawl Demand di una determinata URL è direttamente influenzata da due fattori: la popolarità della URL nel web (ovvero i link in ingresso da essa ricevuti, per numero e qualità) e la sua ‘staleness’, termine che tradotto letteralmente significa ‘mancanza di freschezza’ e che indica la frequenza entro la quale i contenuti di una determinata URL vengono ritenuti non più ‘aggiornati’ rispetto alla copia indicizzata da Google, e vengono pertanto sottoposti a nuova scansione per evitare l’obsolescenza dell’indice stesso.

googlebot

Esiste una correlazione tra il Crawl Budget e le performance di ranking di un determinato dominio web?

Il post ufficiale nega tale relazione diretta: il crawl budget non influenza il ranking di un determinato documento.

An increased crawl rate will not necessarily lead to better positions in Search results. Google uses hundreds of signals to rank the results, and while crawling is necessary for being in the results, it’s not a ranking signal.

Ecco, questo è sicuramente vero. Ma non dice tutto quello che serve davvero sapere sulla relazione tra le metriche di scansione e il relativo successo (in termini di traffico in ingresso e posizionamento su Google) di una determinato sito web.

Se il Crawl Budget non è un fattore diretto di ranking, stando a quanto dichiarato dallo stesso Google, è anche vero che tutte le strategie seo che funzionano portano – indiscriminatamente – ad accrescere il budget di scansione del dominio web soggetto della campagna.

In altre parole stimolare la Crawl Demand e consentire l’incremento del Crawl Rate Limit (tramite ottimizzazioni o adeguamento server) sono – almeno – alcune tra le precondizioni necessarie per ottenere un più ampio successo in termini generali, a partire dal posizionamento sull’indice di Google fino alla possibilità concreta di intercettare materialmente più ampi flussi di traffico in ingresso dal motore di ricerca.

In questo senso ‘curare’ il Crawl Budget di un dominio web è senz’altro un’operazione divenuta centrale in ambito seo, in una Rete in cui persino le infinite e magmatiche risorse di scansione di Google iniziano a sembrare limitate; e forse ‘riservate’ ad una ristretta cerchia di ‘eletti’ che è in grado di assicurarsi le posizioni migliori e la fetta di traffico più consistente, a seconda del tema e in ciascun settore dell’indice.

Vi suona familiare?

🙂