Cos'è il Crawl Budget

Il crawl budget è la combinazione di due fattori che determinano quante pagine Googlebot scansiona sul tuo sito:

  • Crawl rate limit: la velocità massima di crawling che il server può sostenere senza degradare le performance
  • Crawl demand: quanto Google ritiene importante scansionare le tue pagine (popolarità, freschezza, tipo di contenuto)

Quando il crawl budget è un problema

Per la maggior parte dei siti (sotto le 10.000 pagine), il crawl budget non è un problema. Google riesce a scansionare tutto senza difficoltà.

Diventa critico per:

  • E-commerce con migliaia di SKU e varianti (colore, taglia)
  • Siti con contenuti generati dinamicamente (filtri, ordinamenti, paginazione infinita)
  • Portali con archivi molto grandi (news, forum, directory)
  • Siti con problemi tecnici che rallentano il crawling

Come ottimizzare il Crawl Budget

Eliminare le pagine inutili

  • Pagine duplicate: parametri URL, versioni www/non-www, HTTP/HTTPS
  • Pagine thin content: filtri di ricerca, tag con pochi contenuti, archivi per data
  • Pagine orfane: non linkate da nessuna parte ma ancora indicizzate

Velocizzare il sito

  • Server response time sotto i 200ms (TTFB)
  • HTTP/2 o HTTP/3: permette richieste parallele
  • CDN: riduce la latenza per Googlebot (che crawla da diverse location)

Guidare il crawler

  • Robots.txt: blocca le sezioni non utili per la SEO (admin, filtri, carrello)
  • Sitemap XML: segnala le pagine importanti e la frequenza di aggiornamento
  • Internal linking: le pagine più linkate internamente vengono crawlate più spesso
  • Canonical tag: consolida le varianti su un'unica URL canonica
  • Noindex: per pagine che devono esistere ma non essere indicizzate

Monitorare

  • Google Search Console > Statistiche di scansione: pagine scansionate al giorno, tempo di risposta, errori
  • Log file analysis: analizza i log del server per vedere esattamente cosa crawla Googlebot
  • Screaming Frog / Sitebulb: simulano il crawling e identificano problemi

Crawl Budget e siti Astro (SSG)

I siti statici generati con Astro hanno un vantaggio naturale: le pagine sono HTML pre-renderizzato, velocissimo da servire. Il TTFB è minimo e Googlebot può scansionare il sito rapidamente. Il rischio crawl budget per un sito Astro è molto basso, ma una sitemap ben strutturata e un robots.txt pulito restano best practice.