Robots.txt : Guide Complet pour Optimiser le Crawl de votre Site

Qu'est-ce que le Fichier Robots.txt ?

Le fichier robots.txt est un fichier texte placé à la racine de votre site (www.votresite.com/robots.txt) qui donne des instructions aux robots des moteurs de recherche sur les pages qu'ils peuvent ou ne peuvent pas explorer.

Le robots.txt est comme un panneau de signalisation pour les robots : il leur dit où ils peuvent aller et où l'accès est interdit. Attention : c'est une demande polie, pas un verrou de sécurité !
— TroisSix

Pourquoi C'est Important

3 raisons d'utiliser robots.txt :

Optimiser le budget de crawl : Google alloue un quota de pages à crawler par site. Bloquer pages inutiles = plus de crawl sur pages importantes
Protéger pages sensibles : Admin, back-office, zones de test (note : pas une sécurité absolue, juste une barrière)
Éviter duplicate content : Bloquer versions alternatives (paramètres URL, filtres, archives...)

Important : Ce que Robots.txt NE FAIT PAS

⚠️ Idées reçues :

✗ N'empêche PAS l'indexation : Une page bloquée dans robots.txt peut quand même apparaître dans Google (si elle a des backlinks). Pour désindexer → utiliser `noindex` dans meta robots
✗ N'est PAS une sécurité : Robots malveillants ignorent robots.txt. Pour sécuriser → authentification serveur
✗ N'est PAS obligatoire : L'absence de robots.txt = "tout est autorisé"

Accès au Fichier

Voir votre robots.txt actuel :

Votre site : https://www.votresite.com/robots.txt
Exemple TroisSix : https://www.troissix.ch/robots.txt
Tester : Google Search Console > Outils > Testeur de robots.txt

Syntaxe et Directives Robots.txt

Structure de Base

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.votresite.com/sitemap.xml

Décomposition :

User-agent : À quel robot s'applique la règle
- User-agent: * = tous les robots
- User-agent: Googlebot = uniquement Google
- User-agent: Bingbot = uniquement Bing
Disallow : Répertoires/pages interdits au crawl
Allow : Exceptions (autoriser dans un répertoire bloqué)
Sitemap : Indique l'emplacement du sitemap XML

Directives Principales

1. User-agent (obligatoire)

# Tous les robots
User-agent: *

# Google uniquement
User-agent: Googlebot

# Bing uniquement
User-agent: Bingbot

2. Disallow (bloquer)

# Bloquer tout le site
Disallow: /

# Bloquer un dossier
Disallow: /admin/

# Bloquer un fichier
Disallow: /page-privee.html

# Bloquer type de fichier
Disallow: /*.pdf$

# Bloquer paramètres URL
Disallow: /*?s=

3. Allow (autoriser exception)

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

4. Sitemap (recommandé)

Sitemap: https://www.votresite.com/sitemap.xml
Sitemap: https://www.votresite.com/sitemap-images.xml

Wildcards (Caractères Spéciaux)

* (astérisque) : N'importe quelle séquence de caractères
- Disallow: /*.pdf = tous fichiers PDF
- Disallow: /*/admin = /blog/admin, /shop/admin, etc.
$ (dollar) : Fin d'URL
- Disallow: /*.pdf$ = fichiers se terminant par .pdf
- Disallow: /admin$ = /admin mais pas /admin/page

Exemples de Robots.txt par Type de Site

Site Vitrine / Blog Simple

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /cgi-bin/

Sitemap: https://www.votresite.com/sitemap.xml

Logique : Bloquer dossiers WordPress inutiles, autoriser sitemap

E-commerce (WooCommerce, Shopify...)

User-agent: *
# Pages admin
Disallow: /wp-admin/
Disallow: /mon-compte/
Disallow: /panier/
Disallow: /commander/

# Éviter duplicate content
Disallow: /*?add-to-cart=
Disallow: /*?filter=
Disallow: /*?orderby=

# Fichiers systèmes
Disallow: /wp-includes/
Disallow: /wp-content/plugins/

Sitemap: https://www.votresite.com/sitemap.xml
Sitemap: https://www.votresite.com/sitemap-products.xml

Logique : Bloquer compte client, panier, paramètres de tri/filtres

Site avec Zone Membres

User-agent: *
# Zones membres
Disallow: /membres/
Disallow: /mon-profil/
Disallow: /dashboard/

# Admin
Disallow: /admin/
Disallow: /login/

Sitemap: https://www.votresite.com/sitemap.xml

Site Multilingue

User-agent: *
Disallow: /wp-admin/
Disallow: /*?lang=

Sitemap: https://www.votresite.com/sitemap-fr.xml
Sitemap: https://www.votresite.com/sitemap-en.xml
Sitemap: https://www.votresite.com/sitemap-de.xml

Logique : Bloquer paramètres de langue, un sitemap par langue

Bonnes Pratiques et Erreurs à Éviter

✅ À Faire

Placer à la racine : www.votresite.com/robots.txt (pas dans sous-dossier !)
Nommer exactement : robots.txt (minuscules, pas Robots.txt)
Encoder en UTF-8 : Éviter caractères spéciaux problématiques
Ajouter sitemap : Facilite découverte de vos pages
Tester avant publication : Google Search Console > Testeur robots.txt
Laisser vide si doute : Pas de robots.txt = tout autorisé (mieux qu'un mauvais robots.txt)
Commenter : Utiliser # pour expliquer vos choix

❌ Erreurs Fatales

1. Bloquer tout le site par erreur

User-agent: *
Disallow: /

☠️ Résultat : Aucune page n'est crawlée, disparition totale de Google !

2. Bloquer CSS/JS

Disallow: /css/
Disallow: /js/

❌ Problème : Google ne peut pas rendre la page correctement (pénalité mobile)

3. Confondre noindex et Disallow

Disallow : Empêche le crawl (mais page peut être indexée via backlinks)
Noindex : Empêche l'indexation (meta robots ou X-Robots-Tag)
Pour désindexer : Ne PAS bloquer dans robots.txt + ajouter noindex

4. Syntaxe incorrecte

# ❌ MAUVAIS
Disallow /admin (manque : après Disallow)

# ✅ BON
Disallow: /admin/

5. Oublier le trailing slash

Disallow: /admin → Bloque /admin ET /administration
Disallow: /admin/ → Bloque uniquement /admin/ et sous-pages

Tester et Valider votre Robots.txt

Outils de Test

1. Google Search Console (recommandé)

Menu : Anciens outils et rapports > Testeur de robots.txt
Coller votre robots.txt
Tester des URLs spécifiques : "Tester" → entrer URL
Voir si bloquée ou autorisée

2. Validator en ligne

Technical SEO Robots.txt Tester
Vérifie syntaxe et simule crawl

3. Vérification manuelle

Accéder : votresite.com/robots.txt
Doit retourner HTTP 200 (pas 404)
Contenu doit être du texte brut (pas HTML)

Checklist Validation

Fichier accessible en /robots.txt
Nom exact : robots.txt (minuscules)
Encodage UTF-8
Syntaxe correcte (User-agent:, Disallow:, etc.)
N'a pas Disallow: / (sauf intention)
CSS/JS non bloqués
Sitemap(s) ajouté(s)
Testé dans GSC
Pages importantes non bloquées

Conclusion : Un Fichier Simple mais Puissant

Le robots.txt est un outil simple mais essentiel du SEO technique. Bien configuré, il optimise votre crawl budget et protège les zones sensibles. Mal configuré, il peut faire disparaître votre site de Google.

La règle d'or du robots.txt : en cas de doute, ne bloquez rien. Un site entièrement crawlable est mieux qu'un site partiellement bloqué par erreur.

Actions Immédiates

Vérifier : Accéder à votresite.com/robots.txt
Tester : Google Search Console > Testeur robots.txt
Corriger si nécessaire : Supprimer blocages accidentels (CSS, JS, pages importantes)
Ajouter sitemap : Sitemap: https://votresite.com/sitemap.xml
Bloquer intelligemment : Admin, paramètres URL inutiles, duplicate content

Règles d'Or

Simple > Complexe : Ne sur-optimisez pas
Tester avant publier : Erreur = catastrophe SEO
Disallow ≠ Noindex : Pour désindexer, utiliser noindex
Laisser CSS/JS accessibles : Google doit rendre la page
Documenter : Commenter vos choix avec #

Robots.txt : Contrôler le Crawl de votre Site