Introduction à Robots.txt
Cet article donne la compréhension de base de :
- Qu’est-ce qu’un fichier robots.txt ?
- Quel est son but ?
- Comment créer le fichier robots.txt dans Worpdress ?
- Introduction aux instructions de robots.txt.
Qu’est-ce qu’un fichier robots.txt ?
Robots.txt est un fichier texte qui indique aux robots Web, à partir des moteurs de recherche, quelles pages de votre site doivent être explorées.
Pourquoi utiliser un robots.txt ?
Robots.txt est utilisé pour le référencement. C’est l’une des façons de dire aux moteurs de recherche quelles URL doivent être indexées ou non.
Les moteurs de recherche utilisent des robots d’exploration Web pour analyser votre site Web.
Le but de ce fichier est de minimiser le budget d’exploration du robot du moteur de recherche lorsque vous consultez vos URL.
Les robots d’exploration n’ont qu’un nombre limité d’URL, appelé budget d’exploration, ils sont autorisés à analyser chaque fois qu’ils effectuent une visite de votre site Web.
Il existe de nombreux robots d’exploration Web.
Comment et où créer le fichier robots.txt dans WordPress.
Avant de vous lancer dans la création d’un nouveau fichier, vous voudrez peut-être vérifier si vous l’avez déjà.
- WordPress créera un fichier robots.txt pour vous.
- Le plugin Yoast SEO gérera également le fichier robots.txt pour vous.
Si vous ne l’avez pas déjà créé:
- Créez un fichier vide nommé ‘robots.txt’.
- Téléchargez robots.txt sur votre serveur sous le répertoire racine de votre site Web (public_html dans de nombreux cas).
- Testez que votre nouveau fichier robots est accessible en accédant dans un navigateur à l’url: https://<votre-domaine-ici>/robots.txt.
Si vous voyez une page vierge sans erreur, cela signifie que cela fonctionne, car le contenu du fichier robots.txt est vide.
L’étape suivante consistera à modifier le fichier et à ajouter des instructions que les robots d’exploration pourront lire.
Remarque: Si le fichier reste vide, cela signifie que les robots d’exploration n’ont aucune limitation et analyseront toutes les URL accessibles au public de votre site.
Si vous recevez une page 404, des autorisations refusées ou toute autre chose, il y a très probablement une mauvaise configuration sur vos fichiers et / ou répertoires de serveur. Vous voudrez contacter votre hébergeur.
Introduction aux instructions de robots.txt.
Notez que les robots d’indexation Web ne sont pas obligés d’obéir aux instructions de votre fichier robots.txt.
Heureusement, la plupart d’entre eux font les choses correctement, tout comme Googlebot de Google. Mais gardez à l’esprit qu’il appartient au robot de décider si la règle sera appliquée ou non.
- Autoriser tous les robots: User-agent: * Disallow:
- Bloquer tous les robots d’indexation de tous les fichiers: User-agent: * Disallow: /
- Blocage d’un fichier spécifique de tous les robots: User-agent: * Disallow: /<path-to-file>/<file-name>
- Blocage d’un dossier spécifique de tous les robots: User-agent: * Disallow: /<specific-folder-here>/
- Blocage d’un robot spécifique: User-agent: Googlebot
Il est également recommandé d’indiquer au fichier robot où se trouve votre plan du site.
Sitemap: https://<your-domain>/sitemap.xml
Voici un exemple de base d’un robots.txt :
# Voici un exemple de base d'un robots.txt:
User-agent: *
Disallow: /wp-admin/
Sitemap: https://<your-domain>/sitemap.xml
Faits amusants
Jetez un œil au propre fichier robots.txt de Google : Robots.txt de Google