Une affaire de robots.txt

Publié dans Référencement | Marqué avec , , , ,
Share

Le fichier robots.txt est un des fichiers bien pratique sur tout site Web pour que les robots des moteurs de recherche (et tous les robots bienveillants en général) puissent comprendre comment l’indexer intelligemment. Il permet de préciser les pages à ne pas indexer (accès admin par exemple), et d’interdire l’entrée à certains robots connus. C’est aussi là que l’on peut préciser le chemin vers un fichier sitemap pour que le site soit indexer plus rapidement.
Robots.txt
Ce fichier se créé très rapidement, en quelques lignes c’est chose faites. Il faut le créer à la racine du site Web et de la nommer « robots.txt ». Un petit exemple :

User-Agent: T-Rex
Disallow: /
User-Agent: *
Disallow:
Sitemap: http://www.example.com/sitemap.xml

Ce fichier robots.txt interdit la visite de toutes les pages du site pour le user-agent T-Rex, ce qui correspond à Lycos, et autorise tous les autres robots à visiter toutes les pages du site.
Ce fichier précise aussi le chemin vers le fichier sitemap.xml (qui rappelons-le doit se trouver aussi à la racine du site Web. Voir Parlons de Sitemaps).
Voyons son fonctionnement plus en détails.

Comment remplir robots.txt

Explicitons les 2 lignes d’un « bloc robot » :

  • User-Agent: Permet de préciser le User-Agent, c’est-à-dire le nom, du robot à bloquer. L’étoile correspond à « n’importe quel robot ».
  • Disallow: Permet de préciser les pages ou les répertoires à bloquer pour le ou les robots concernés. En laissant vide, toutes les pages sont accessibles. En précisant seulement un slash ( / ), tout le site est bloqué. En précisant un nom de répertoire ( /monDossier/ ), tout ce répertoire est bloqué. En indiquant un nom de fichier ( /monDossier/file1.php ), seule cette page est inaccessible aux robots.

Il est possible d’ajouter autant de lignes Disallow: que l’on souhaite, comme on peut le voir sur l’exemple suivant :

User-Agent: *
Disallow: /monDossier/
Disallow: /file1.php
Disallow: /norobots/page2.php
Disallow: /monAutreDossier/

Il est aussi possible d’utiliser Allow:, je pense qu’il n’est pas nécessaire de la détailler outre-mesure :p

Certains robots comme celui de Google ou de Yahoo ont un User-Agent connu par tous. Toutefois, il faut garder en tête que cette technique est surtout utile pour indiquer aux moteurs de recherche de ne pas indexer une page admin, ou un accès réservé aux membres. Mais les robots malveillants ne suivant pas du tout les recommandations d’un bête fichier robots.txt.

Quelques User-Agent de robots connus

  • Alta Vista : Scooter
  • Excite : ArchitextSpider
  • Google : Googlebot
  • HotBot : Slurp
  • InfoSeek : InfoSeek Sidewinder
  • Lycos : T-Rex
  • Voilà : Echo
  • Yahoo : Yahoo-MMCrawler

On peut en trouver d’autres chez Rield.com.

Pour conclure

Pour ma part, robots.txt m’est surtout utile pour préciser l’url vers ma sitemap, bloquer mes accès admin, et accessoirement empêcher Google et ses amis d’indexer un site en conception.

2 réponses à Une affaire de robots.txt

  1. Bonjour,

    Je travaille à la communication d’123people et, après vérification auprès de notre service technique en Autriche (histoire de ne pas dire de bêtise), 123people n’a pas de bot 🙂

    123people exploite les bots de ses partenaires « moteurs de recherche ».

    Voilà, ça valait le coup de le dire 🙂

  2. BN

    Bonjour,

    Merci Erick pour ces informations. J’étais persuadé qu’123people utilisait 1 ou plusieurs, voilà pourquoi en lisant l’article sur robots.txt de Rield.com, j’ai sauté à la conclusion sans vérifier.
    J’ai trouvé confirmation à vos dires sur un Ootweet plutôt amusant : 123people et robots.txt

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*