Qu'est-ce que le Fichier Robots.txt ?
Le fichier robots.txt est un fichier texte placé à la racine de votre site (www.votresite.com/robots.txt) qui donne des instructions aux robots des moteurs de recherche sur les pages qu'ils peuvent ou ne peuvent pas explorer.
Le robots.txt est comme un panneau de signalisation pour les robots : il leur dit où ils peuvent aller et où l'accès est interdit. Attention : c'est une demande polie, pas un verrou de sécurité !
— TroisSix
Pourquoi C'est Important
3 raisons d'utiliser robots.txt :
- Optimiser le budget de crawl : Google alloue un quota de pages à crawler par site. Bloquer pages inutiles = plus de crawl sur pages importantes
- Protéger pages sensibles : Admin, back-office, zones de test (note : pas une sécurité absolue, juste une barrière)
- Éviter duplicate content : Bloquer versions alternatives (paramètres URL, filtres, archives...)
Important : Ce que Robots.txt NE FAIT PAS
⚠️ Idées reçues :
- ✗ N'empêche PAS l'indexation : Une page bloquée dans robots.txt peut quand même apparaître dans Google (si elle a des backlinks). Pour désindexer → utiliser `noindex` dans meta robots
- ✗ N'est PAS une sécurité : Robots malveillants ignorent robots.txt. Pour sécuriser → authentification serveur
- ✗ N'est PAS obligatoire : L'absence de robots.txt = "tout est autorisé"
Accès au Fichier
Voir votre robots.txt actuel :
- Votre site :
https://www.votresite.com/robots.txt - Exemple TroisSix :
https://www.troissix.ch/robots.txt - Tester : Google Search Console > Outils > Testeur de robots.txt
Syntaxe et Directives Robots.txt
Structure de Base
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.votresite.com/sitemap.xml
Décomposition :
- User-agent : À quel robot s'applique la règle
User-agent: *= tous les robotsUser-agent: Googlebot= uniquement GoogleUser-agent: Bingbot= uniquement Bing
- Disallow : Répertoires/pages interdits au crawl
- Allow : Exceptions (autoriser dans un répertoire bloqué)
- Sitemap : Indique l'emplacement du sitemap XML
Directives Principales
1. User-agent (obligatoire)
# Tous les robots
User-agent: *
# Google uniquement
User-agent: Googlebot
# Bing uniquement
User-agent: Bingbot
2. Disallow (bloquer)
# Bloquer tout le site
Disallow: /
# Bloquer un dossier
Disallow: /admin/
# Bloquer un fichier
Disallow: /page-privee.html
# Bloquer type de fichier
Disallow: /*.pdf$
# Bloquer paramètres URL
Disallow: /*?s=
3. Allow (autoriser exception)
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
4. Sitemap (recommandé)
Sitemap: https://www.votresite.com/sitemap.xml
Sitemap: https://www.votresite.com/sitemap-images.xml
Wildcards (Caractères Spéciaux)
- * (astérisque) : N'importe quelle séquence de caractères
Disallow: /*.pdf= tous fichiers PDFDisallow: /*/admin= /blog/admin, /shop/admin, etc.
- $ (dollar) : Fin d'URL
Disallow: /*.pdf$= fichiers se terminant par .pdfDisallow: /admin$= /admin mais pas /admin/page
Exemples de Robots.txt par Type de Site
Site Vitrine / Blog Simple
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /cgi-bin/
Sitemap: https://www.votresite.com/sitemap.xml
Logique : Bloquer dossiers WordPress inutiles, autoriser sitemap
E-commerce (WooCommerce, Shopify...)
User-agent: *
# Pages admin
Disallow: /wp-admin/
Disallow: /mon-compte/
Disallow: /panier/
Disallow: /commander/
# Éviter duplicate content
Disallow: /*?add-to-cart=
Disallow: /*?filter=
Disallow: /*?orderby=
# Fichiers systèmes
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Sitemap: https://www.votresite.com/sitemap.xml
Sitemap: https://www.votresite.com/sitemap-products.xml
Logique : Bloquer compte client, panier, paramètres de tri/filtres
Site avec Zone Membres
User-agent: *
# Zones membres
Disallow: /membres/
Disallow: /mon-profil/
Disallow: /dashboard/
# Admin
Disallow: /admin/
Disallow: /login/
Sitemap: https://www.votresite.com/sitemap.xml
Site Multilingue
User-agent: *
Disallow: /wp-admin/
Disallow: /*?lang=
Sitemap: https://www.votresite.com/sitemap-fr.xml
Sitemap: https://www.votresite.com/sitemap-en.xml
Sitemap: https://www.votresite.com/sitemap-de.xml
Logique : Bloquer paramètres de langue, un sitemap par langue
Bonnes Pratiques et Erreurs à Éviter
✅ À Faire
- Placer à la racine :
www.votresite.com/robots.txt(pas dans sous-dossier !) - Nommer exactement :
robots.txt(minuscules, pas Robots.txt) - Encoder en UTF-8 : Éviter caractères spéciaux problématiques
- Ajouter sitemap : Facilite découverte de vos pages
- Tester avant publication : Google Search Console > Testeur robots.txt
- Laisser vide si doute : Pas de robots.txt = tout autorisé (mieux qu'un mauvais robots.txt)
- Commenter : Utiliser
#pour expliquer vos choix
❌ Erreurs Fatales
1. Bloquer tout le site par erreur
User-agent: *
Disallow: /
☠️ Résultat : Aucune page n'est crawlée, disparition totale de Google !
2. Bloquer CSS/JS
Disallow: /css/
Disallow: /js/
❌ Problème : Google ne peut pas rendre la page correctement (pénalité mobile)
3. Confondre noindex et Disallow
- Disallow : Empêche le crawl (mais page peut être indexée via backlinks)
- Noindex : Empêche l'indexation (meta robots ou X-Robots-Tag)
- Pour désindexer : Ne PAS bloquer dans robots.txt + ajouter noindex
4. Syntaxe incorrecte
# ❌ MAUVAIS
Disallow /admin (manque : après Disallow)
# ✅ BON
Disallow: /admin/
5. Oublier le trailing slash
Disallow: /admin→ Bloque /admin ET /administrationDisallow: /admin/→ Bloque uniquement /admin/ et sous-pages
Tester et Valider votre Robots.txt
Outils de Test
1. Google Search Console (recommandé)
- Menu : Anciens outils et rapports > Testeur de robots.txt
- Coller votre robots.txt
- Tester des URLs spécifiques : "Tester" → entrer URL
- Voir si bloquée ou autorisée
2. Validator en ligne
- Technical SEO Robots.txt Tester
- Vérifie syntaxe et simule crawl
3. Vérification manuelle
- Accéder :
votresite.com/robots.txt - Doit retourner HTTP 200 (pas 404)
- Contenu doit être du texte brut (pas HTML)
Checklist Validation
- Fichier accessible en
/robots.txt - Nom exact :
robots.txt(minuscules) - Encodage UTF-8
- Syntaxe correcte (User-agent:, Disallow:, etc.)
- N'a pas
Disallow: /(sauf intention) - CSS/JS non bloqués
- Sitemap(s) ajouté(s)
- Testé dans GSC
- Pages importantes non bloquées
Conclusion : Un Fichier Simple mais Puissant
Le robots.txt est un outil simple mais essentiel du SEO technique. Bien configuré, il optimise votre crawl budget et protège les zones sensibles. Mal configuré, il peut faire disparaître votre site de Google.
La règle d'or du robots.txt : en cas de doute, ne bloquez rien. Un site entièrement crawlable est mieux qu'un site partiellement bloqué par erreur.
Actions Immédiates
- Vérifier : Accéder à
votresite.com/robots.txt - Tester : Google Search Console > Testeur robots.txt
- Corriger si nécessaire : Supprimer blocages accidentels (CSS, JS, pages importantes)
- Ajouter sitemap :
Sitemap: https://votresite.com/sitemap.xml - Bloquer intelligemment : Admin, paramètres URL inutiles, duplicate content
Règles d'Or
- Simple > Complexe : Ne sur-optimisez pas
- Tester avant publier : Erreur = catastrophe SEO
- Disallow ≠ Noindex : Pour désindexer, utiliser noindex
- Laisser CSS/JS accessibles : Google doit rendre la page
- Documenter : Commenter vos choix avec #