Le crawl budget est l'un des sujets les plus négligés du SEO technique — et pourtant il conditionne directement ce que Google index (et donc ce que les moteurs IA peuvent lire sur ton site). Si Google ne crawle pas une page, elle n'est pas indexée. Si elle n'est pas indexée, elle n'apparaît ni dans les SERPs ni dans les réponses de ChatGPT ou Perplexity.
Ce guide t'explique comment fonctionne le crawl budget, quelles pages le gaspillent, et les 5 optimisations qui permettent à Googlebot (et aux autres crawlers IA) d'explorer efficacement ton site.
Qu'est-ce que le crawl budget exactement ?
Le crawl budget, c'est le nombre de pages que Googlebot est prêt à crawler sur ton site dans un intervalle de temps donné. Il est déterminé par deux facteurs :
- Crawl rate limit : la fréquence à laquelle Google peut crawler ton site sans le surcharger. Dépend de la vitesse de ton serveur et de tes paramètres dans la Search Console.
- Crawl demand : l'intérêt de Google pour ton site. Un site avec beaucoup de liens entrants, mis à jour régulièrement, avec des pages souvent visitées → crawl demand élevée.
En pratique : Google crawle les pages en fonction de leur popularité perçue. Les nouvelles pages, les pages linkées par d'autres, et les pages fréquemment modifiées sont prioritaires. Les pages orphelines (sans liens internes pointant vers elles) ou rarement changées sont crawlées moins souvent, voire jamais.
Pour les SaaS et e-commerces : si ton site a 500 pages mais que 150 sont des pages de filtres auto-générées ou du contenu thin, tu gaspilles 30 % de ton budget de crawl sur des pages sans valeur. Ce que Googlebot ne crawle pas, il ne l'indexe pas — et ce que les moteurs IA ne peuvent pas lire ne peut pas être cité dans leurs réponses.
Les 3 gaspilleurs de crawl budget à traiter en priorité
1. Les erreurs 4xx et 5xx
Chaque page retournant une erreur 404, 410, ou 5xx consomme du crawl budget sans aucun bénéfice. Googlebot visite la page, reçoit une erreur, et passe à la suivante — mais le quota est entamé.
Ce qu'il faut faire : audite tes logs serveur (ou utilise Screaming Frog) pour identifier les URLs erronées qui reçoivent encore des crawls. Retourne un 410 (Gone) pour les pages définitivement supprimées plutôt qu'un 404 — Google désindexe plus vite.
2. Les chaînes de redirections
Une chaîne A → B → C consomme 3 fois plus de budget qu'un accès direct à C. Au-delà de 3 redirections, Googlebot abandonne souvent la chaîne.
Ce qu'il faut faire : identifie toutes tes redirections avec un crawler (Screaming Frog, Ahrefs) et consolide-les en redirections directes A → C. Cas fréquent : migrations successives où les redirects s'accumulent sur des années.
3. Les pages en duplicate et thin content
Les pages auto-générées (filtres e-commerce avec paramètres URL, pages de pagination, pages de tags vides) peuvent démultiplier le nombre d'URLs sans créer de valeur. Si tu as un site e-commerce avec 10 filtres possibles et 3 valeurs par filtre, tu génères facilement 1 000 URLs uniques pour les mêmes 50 produits.
Ce qu'il faut faire : utilise <link rel="canonical"> pour consolider les pages dupliquées vers leur version canonique. Bloque les paramètres inutiles dans robots.txt ou via la balise <meta name="robots" content="noindex"> sur les pages de faible valeur.
Les 5 optimisations fondamentales
1. Robots.txt bien configuré
Un robots.txt correctement configuré indique à Googlebot (et à GPTBot, Anthropic-AI, PerplexityBot) les zones à ne pas crawler. Cela préserve ton budget pour tes pages à forte valeur.
User-agent: *
Disallow: /admin/
Disallow: /checkout/
Disallow: /search?
Disallow: /tag/
Important : robots.txt n'est pas une garantie d'indexation zéro. Il empêche le crawl, mais une page peut apparaître dans les SERPs si elle est linkée par d'autres sites. Pour bloquer l'indexation, utilise noindex.
2. Balises canoniques sans ambiguïté
Chaque page doit se pointer elle-même avec <link rel="canonical" href="https://ton-site.com/cette-page/"> sauf si c'est explicitement une variante (version mobile dépréciée, page de pagination).
Erreur fréquente : des canonicals en boucle (A pointe vers B qui pointe vers A) ou des self-canonicals incorrects (la page /produit/?couleur=rouge se déclare canonique vers elle-même au lieu de /produit/).
3. Sitemap XML propre
Un sitemap XML correctement maintenu est la façon la plus directe de signaler à Google les pages que tu veux indexées. Règles :
- N'inclus que les URLs retournant un 200 avec un canonical correspondant
- Exclure les pages
noindex, les redirections, et les URLs avec paramètres - Maintiens les dates
<lastmod>à jour pour les pages régulièrement modifiées
Soumets ton sitemap dans la Search Console (propriété sc-domain) et vérifie qu'il ne contient pas d'erreurs.
4. Noindex stratégique
Toute page que tu ne veux pas voir apparaître dans Google doit avoir <meta name="robots" content="noindex, follow">. Le follow est important : il permet à Googlebot de suivre les liens internes de la page même si elle n'est pas indexée elle-même.
Pages candidates au noindex : pages de filtres, pages de pagination au-delà de la page 2, pages de confirmation de commande, pages de profil privées, pages de tags avec < 3 articles.
5. Structure de liens internes cohérente
Googlebot découvre les nouvelles pages en suivant les liens internes. Une page orpheline (aucun lien interne pointant vers elle) peut ne jamais être crawlée, même si elle est dans le sitemap.
Action concrète : vérifie que chaque nouvelle page est linkée par au moins 2–3 pages existantes avec du trafic. Les pages les plus importantes (piliers de ton architecture de contenu) doivent recevoir des liens depuis la nav principale ou le footer.
L'impact sur le GEO : les crawlers des moteurs IA
En 2026, les moteurs de recherche génératifs ont leurs propres crawlers :
- GPTBot (OpenAI) : crawle les sites publics pour l'entraînement et les réponses ChatGPT Search
- Anthropic-AI (Anthropic / Claude) : crawler pour Claude
- PerplexityBot : crawler de Perplexity AI
- Google-Extended : crawler spécifique de Google pour les modèles d'IA (Gemini)
Ces crawlers respectent robots.txt. Si tu as bloqué Googlebot sur certaines sections, les crawlers IA sont souvent bloqués aussi — par les règles User-agent: *. Si tu veux être cité par les moteurs IA mais pas indexé par Google sur certaines pages, tu dois gérer les règles par User-agent spécifiquement.
Règle pratique : un site difficile à crawler par Google est difficile à crawler par les moteurs IA. Optimiser ton crawl budget pour Google a un effet direct sur ta visibilité dans les réponses de ChatGPT, Perplexity et Google AI Overviews.
Exemple concret : site SaaS B2B de 500 pages
Voici un diagnostic typique pour un SaaS de 500 pages :
| Type de page | Nombre | Problème |
|---|---|---|
| Pages produit clés | 20 | Bien crawlées ✅ |
| Articles de blog | 80 | Crawlées correctement ✅ |
| Pages de filtres auto-générés | 150 | Duplicate content, noindex manquant ⚠️ |
| Pages de pagination (/page/2, /page/3…) | 60 | Sans noindex ni canonical ⚠️ |
| Pages d'erreur 404 non nettoyées | 40 | Consomment du budget sans valeur ❌ |
| Pages de profils utilisateurs publics | 150 | Thin content, souvent dupliqués ❌ |
Résultat : seulement 100 pages sur 500 (20 %) ont une vraie valeur SEO. Les 400 autres gaspillent du crawl budget et diluent les signaux de qualité envoyés à Google.
Après correction (noindex sur filtres + pagination, nettoyage des 404, canonical sur profils) :
- Budget crawl libéré pour les 100 pages à valeur ≈ +40 % de fréquence de re-crawl sur les pages prioritaires
- Réindexation accélérée des nouveaux articles (Googlebot revient plus vite car le budget n'est plus gaspillé)
À retenir
- Le crawl budget n'est critique que si ton site dépasse ~1 000 pages ou a des problèmes de génération automatique d'URLs
- Les 3 gaspilleurs prioritaires : erreurs 4xx/5xx, chaînes de redirects, pages thin content sans noindex
- Les 5 optimisations : robots.txt propre, canonicals sans ambiguïté, sitemap XML maintenu, noindex stratégique, liens internes cohérents
- Les crawlers IA (GPTBot, PerplexityBot, Anthropic-AI) respectent robots.txt — optimiser pour Google optimise aussi ta visibilité GEO
- Une page non crawlée = une page non indexée = une page invisible aux SERPs et aux moteurs IA
Tu veux savoir comment se porte le crawl budget de ton site ? Lance ton audit gratuit /100 — le rapport SeAudit inclut une section dédiée à l'analyse du crawl et de l'indexation.
FAQ
Mon site a 100 pages : le crawl budget est-il un problème ?
Non. Le crawl budget n'est critique qu'au-delà de ~1 000 pages, ou si tu as des problèmes connus de génération d'URLs automatique (e-commerce avec filtres, site communautaire avec profils). En dessous de 500 pages bien structurées, Googlebot crawle généralement tout en quelques jours.
Robots.txt et noindex, quelle différence ?
Robots.txt empêche le crawl mais pas l'indexation (une page bloquée dans robots.txt peut quand même apparaître dans les SERPs si elle est linkée). Noindex empêche l'indexation mais permet le crawl (Googlebot lit la page pour suivre ses liens). Utilise les deux en fonction de l'objectif.
Comment vérifier les pages que Google a indexées ?
Dans Google Search Console (rapport sur l'état des pages), ou via l'opérateur site:ton-domaine.com dans Google. La différence entre le nombre de pages de ton site et le nombre indexé par Google est un indicateur direct de ton état de crawl.
Les crawlers IA ont-ils leurs propres budgets ?
Oui, mais ils sont moins documentés que le crawl budget Google. GPTBot et PerplexityBot crawlent à une fréquence bien inférieure à Googlebot. Si tu veux être cité rapidement par les moteurs IA, assure-toi que tes pages clés sont accessibles et non bloquées dans robots.txt, et qu'elles sont bien indexées par Google (proxy de confiance pour les crawlers IA).
