Cos'è il Crawl Budget
Il crawl budget è la combinazione di due fattori che determinano quante pagine Googlebot scansiona sul tuo sito:
- Crawl rate limit: la velocità massima di crawling che il server può sostenere senza degradare le performance
- Crawl demand: quanto Google ritiene importante scansionare le tue pagine (popolarità, freschezza, tipo di contenuto)
Quando il crawl budget è un problema
Per la maggior parte dei siti (sotto le 10.000 pagine), il crawl budget non è un problema. Google riesce a scansionare tutto senza difficoltà.
Diventa critico per:
- E-commerce con migliaia di SKU e varianti (colore, taglia)
- Siti con contenuti generati dinamicamente (filtri, ordinamenti, paginazione infinita)
- Portali con archivi molto grandi (news, forum, directory)
- Siti con problemi tecnici che rallentano il crawling
Come ottimizzare il Crawl Budget
Eliminare le pagine inutili
- Pagine duplicate: parametri URL, versioni www/non-www, HTTP/HTTPS
- Pagine thin content: filtri di ricerca, tag con pochi contenuti, archivi per data
- Pagine orfane: non linkate da nessuna parte ma ancora indicizzate
Velocizzare il sito
- Server response time sotto i 200ms (TTFB)
- HTTP/2 o HTTP/3: permette richieste parallele
- CDN: riduce la latenza per Googlebot (che crawla da diverse location)
Guidare il crawler
- Robots.txt: blocca le sezioni non utili per la SEO (admin, filtri, carrello)
- Sitemap XML: segnala le pagine importanti e la frequenza di aggiornamento
- Internal linking: le pagine più linkate internamente vengono crawlate più spesso
- Canonical tag: consolida le varianti su un'unica URL canonica
- Noindex: per pagine che devono esistere ma non essere indicizzate
Monitorare
- Google Search Console > Statistiche di scansione: pagine scansionate al giorno, tempo di risposta, errori
- Log file analysis: analizza i log del server per vedere esattamente cosa crawla Googlebot
- Screaming Frog / Sitebulb: simulano il crawling e identificano problemi
Crawl Budget e siti Astro (SSG)
I siti statici generati con Astro hanno un vantaggio naturale: le pagine sono HTML pre-renderizzato, velocissimo da servire. Il TTFB è minimo e Googlebot può scansionare il sito rapidamente. Il rischio crawl budget per un sito Astro è molto basso, ma una sitemap ben strutturata e un robots.txt pulito restano best practice.