SEO Technique

Robots.txt : Contrôler le Crawl de votre Site

Le fichier robots.txt est un élément fondamental du SEO technique. Il permet de contrôler quelles pages les robots de Google et autres moteurs peuvent explorer (crawler). Un robots.txt bien configuré optimise votre budget de crawl, protège les pages sensibles et améliore l'efficacité de votre référencement. Ce guide vous explique tout ce que vous devez savoir.

Qu'est-ce que le Fichier Robots.txt ?

Le fichier robots.txt est un fichier texte placé à la racine de votre site (www.votresite.com/robots.txt) qui donne des instructions aux robots des moteurs de recherche sur les pages qu'ils peuvent ou ne peuvent pas explorer.

Le robots.txt est comme un panneau de signalisation pour les robots : il leur dit où ils peuvent aller et où l'accès est interdit. Attention : c'est une demande polie, pas un verrou de sécurité !

— TroisSix

Pourquoi C'est Important

3 raisons d'utiliser robots.txt :

  • Optimiser le budget de crawl : Google alloue un quota de pages à crawler par site. Bloquer pages inutiles = plus de crawl sur pages importantes
  • Protéger pages sensibles : Admin, back-office, zones de test (note : pas une sécurité absolue, juste une barrière)
  • Éviter duplicate content : Bloquer versions alternatives (paramètres URL, filtres, archives...)

Important : Ce que Robots.txt NE FAIT PAS

⚠️ Idées reçues :

  • ✗ N'empêche PAS l'indexation : Une page bloquée dans robots.txt peut quand même apparaître dans Google (si elle a des backlinks). Pour désindexer → utiliser `noindex` dans meta robots
  • ✗ N'est PAS une sécurité : Robots malveillants ignorent robots.txt. Pour sécuriser → authentification serveur
  • ✗ N'est PAS obligatoire : L'absence de robots.txt = "tout est autorisé"

Accès au Fichier

Voir votre robots.txt actuel :

  • Votre site : https://www.votresite.com/robots.txt
  • Exemple TroisSix : https://www.troissix.ch/robots.txt
  • Tester : Google Search Console > Outils > Testeur de robots.txt

Syntaxe et Directives Robots.txt

Structure de Base

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.votresite.com/sitemap.xml

Décomposition :

  • User-agent : À quel robot s'applique la règle
    • User-agent: * = tous les robots
    • User-agent: Googlebot = uniquement Google
    • User-agent: Bingbot = uniquement Bing
  • Disallow : Répertoires/pages interdits au crawl
  • Allow : Exceptions (autoriser dans un répertoire bloqué)
  • Sitemap : Indique l'emplacement du sitemap XML

Directives Principales

1. User-agent (obligatoire)

# Tous les robots
User-agent: *

# Google uniquement
User-agent: Googlebot

# Bing uniquement
User-agent: Bingbot

2. Disallow (bloquer)

# Bloquer tout le site
Disallow: /

# Bloquer un dossier
Disallow: /admin/

# Bloquer un fichier
Disallow: /page-privee.html

# Bloquer type de fichier
Disallow: /*.pdf$

# Bloquer paramètres URL
Disallow: /*?s=

3. Allow (autoriser exception)

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

4. Sitemap (recommandé)

Sitemap: https://www.votresite.com/sitemap.xml
Sitemap: https://www.votresite.com/sitemap-images.xml

Wildcards (Caractères Spéciaux)

  • * (astérisque) : N'importe quelle séquence de caractères
    • Disallow: /*.pdf = tous fichiers PDF
    • Disallow: /*/admin = /blog/admin, /shop/admin, etc.
  • $ (dollar) : Fin d'URL
    • Disallow: /*.pdf$ = fichiers se terminant par .pdf
    • Disallow: /admin$ = /admin mais pas /admin/page

Exemples de Robots.txt par Type de Site

Site Vitrine / Blog Simple

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /cgi-bin/

Sitemap: https://www.votresite.com/sitemap.xml

Logique : Bloquer dossiers WordPress inutiles, autoriser sitemap

E-commerce (WooCommerce, Shopify...)

User-agent: *
# Pages admin
Disallow: /wp-admin/
Disallow: /mon-compte/
Disallow: /panier/
Disallow: /commander/

# Éviter duplicate content
Disallow: /*?add-to-cart=
Disallow: /*?filter=
Disallow: /*?orderby=

# Fichiers systèmes
Disallow: /wp-includes/
Disallow: /wp-content/plugins/

Sitemap: https://www.votresite.com/sitemap.xml
Sitemap: https://www.votresite.com/sitemap-products.xml

Logique : Bloquer compte client, panier, paramètres de tri/filtres

Site avec Zone Membres

User-agent: *
# Zones membres
Disallow: /membres/
Disallow: /mon-profil/
Disallow: /dashboard/

# Admin
Disallow: /admin/
Disallow: /login/

Sitemap: https://www.votresite.com/sitemap.xml

Site Multilingue

User-agent: *
Disallow: /wp-admin/
Disallow: /*?lang=

Sitemap: https://www.votresite.com/sitemap-fr.xml
Sitemap: https://www.votresite.com/sitemap-en.xml
Sitemap: https://www.votresite.com/sitemap-de.xml

Logique : Bloquer paramètres de langue, un sitemap par langue

Bonnes Pratiques et Erreurs à Éviter

✅ À Faire

  1. Placer à la racine : www.votresite.com/robots.txt (pas dans sous-dossier !)
  2. Nommer exactement : robots.txt (minuscules, pas Robots.txt)
  3. Encoder en UTF-8 : Éviter caractères spéciaux problématiques
  4. Ajouter sitemap : Facilite découverte de vos pages
  5. Tester avant publication : Google Search Console > Testeur robots.txt
  6. Laisser vide si doute : Pas de robots.txt = tout autorisé (mieux qu'un mauvais robots.txt)
  7. Commenter : Utiliser # pour expliquer vos choix

❌ Erreurs Fatales

1. Bloquer tout le site par erreur

User-agent: *
Disallow: /

☠️ Résultat : Aucune page n'est crawlée, disparition totale de Google !

2. Bloquer CSS/JS

Disallow: /css/
Disallow: /js/

❌ Problème : Google ne peut pas rendre la page correctement (pénalité mobile)

3. Confondre noindex et Disallow

  • Disallow : Empêche le crawl (mais page peut être indexée via backlinks)
  • Noindex : Empêche l'indexation (meta robots ou X-Robots-Tag)
  • Pour désindexer : Ne PAS bloquer dans robots.txt + ajouter noindex

4. Syntaxe incorrecte

# ❌ MAUVAIS
Disallow /admin (manque : après Disallow)

# ✅ BON
Disallow: /admin/

5. Oublier le trailing slash

  • Disallow: /admin → Bloque /admin ET /administration
  • Disallow: /admin/ → Bloque uniquement /admin/ et sous-pages

Tester et Valider votre Robots.txt

Outils de Test

1. Google Search Console (recommandé)

  • Menu : Anciens outils et rapports > Testeur de robots.txt
  • Coller votre robots.txt
  • Tester des URLs spécifiques : "Tester" → entrer URL
  • Voir si bloquée ou autorisée

2. Validator en ligne

3. Vérification manuelle

  • Accéder : votresite.com/robots.txt
  • Doit retourner HTTP 200 (pas 404)
  • Contenu doit être du texte brut (pas HTML)

Checklist Validation

  • Fichier accessible en /robots.txt
  • Nom exact : robots.txt (minuscules)
  • Encodage UTF-8
  • Syntaxe correcte (User-agent:, Disallow:, etc.)
  • N'a pas Disallow: / (sauf intention)
  • CSS/JS non bloqués
  • Sitemap(s) ajouté(s)
  • Testé dans GSC
  • Pages importantes non bloquées

Conclusion : Un Fichier Simple mais Puissant

Le robots.txt est un outil simple mais essentiel du SEO technique. Bien configuré, il optimise votre crawl budget et protège les zones sensibles. Mal configuré, il peut faire disparaître votre site de Google.

La règle d'or du robots.txt : en cas de doute, ne bloquez rien. Un site entièrement crawlable est mieux qu'un site partiellement bloqué par erreur.

Actions Immédiates

  1. Vérifier : Accéder à votresite.com/robots.txt
  2. Tester : Google Search Console > Testeur robots.txt
  3. Corriger si nécessaire : Supprimer blocages accidentels (CSS, JS, pages importantes)
  4. Ajouter sitemap : Sitemap: https://votresite.com/sitemap.xml
  5. Bloquer intelligemment : Admin, paramètres URL inutiles, duplicate content

Règles d'Or

  • Simple > Complexe : Ne sur-optimisez pas
  • Tester avant publier : Erreur = catastrophe SEO
  • Disallow ≠ Noindex : Pour désindexer, utiliser noindex
  • Laisser CSS/JS accessibles : Google doit rendre la page
  • Documenter : Commenter vos choix avec #