Une affaire de robots.txt

Le fichier robots.txt est un des fichiers bien pratique sur tout site Web pour que les robots des moteurs de recherche (et tous les robots bienveillants en général) puissent comprendre comment l’indexer intelligemment. Il permet de préciser les pages à ne pas indexer (accès admin par exemple), et d’interdire l’entrée à certains robots connus. C’est aussi là que l’on peut préciser le chemin vers un fichier sitemap pour que le site soit indexer plus rapidement.

Ce fichier se créé très rapidement, en quelques lignes c’est chose faites. Il faut le créer à la racine du site Web et de la nommer « robots.txt ». Un petit exemple :

User-Agent: T-Rex
Disallow: /
User-Agent: *
Disallow:
Sitemap: http://www.example.com/sitemap.xml

Ce fichier robots.txt interdit la visite de toutes les pages du site pour le user-agent T-Rex, ce qui correspond à Lycos, et autorise tous les autres robots à visiter toutes les pages du site.
Ce fichier précise aussi le chemin vers le fichier sitemap.xml (qui rappelons-le doit se trouver aussi à la racine du site Web. Voir Parlons de Sitemaps).
Voyons son fonctionnement plus en détails.

Comment remplir robots.txt

Explicitons les 2 lignes d’un « bloc robot » :

User-Agent: Permet de préciser le User-Agent, c’est-à-dire le nom, du robot à bloquer. L’étoile correspond à « n’importe quel robot ».
Disallow: Permet de préciser les pages ou les répertoires à bloquer pour le ou les robots concernés. En laissant vide, toutes les pages sont accessibles. En précisant seulement un slash ( / ), tout le site est bloqué. En précisant un nom de répertoire ( /monDossier/ ), tout ce répertoire est bloqué. En indiquant un nom de fichier ( /monDossier/file1.php ), seule cette page est inaccessible aux robots.

Il est possible d’ajouter autant de lignes Disallow: que l’on souhaite, comme on peut le voir sur l’exemple suivant :

User-Agent: *
Disallow: /monDossier/
Disallow: /file1.php
Disallow: /norobots/page2.php
Disallow: /monAutreDossier/

Il est aussi possible d’utiliser Allow:, je pense qu’il n’est pas nécessaire de la détailler outre-mesure :p

Certains robots comme celui de Google ou de Yahoo ont un User-Agent connu par tous. Toutefois, il faut garder en tête que cette technique est surtout utile pour indiquer aux moteurs de recherche de ne pas indexer une page admin, ou un accès réservé aux membres. Mais les robots malveillants ne suivant pas du tout les recommandations d’un bête fichier robots.txt.

Quelques User-Agent de robots connus

Alta Vista : Scooter
Excite : ArchitextSpider
Google : Googlebot
HotBot : Slurp
InfoSeek : InfoSeek Sidewinder
Lycos : T-Rex
Voilà : Echo
Yahoo : Yahoo-MMCrawler

On peut en trouver d’autres chez Rield.com.

Pour conclure

Pour ma part, robots.txt m’est surtout utile pour préciser l’url vers ma sitemap, bloquer mes accès admin, et accessoirement empêcher Google et ses amis d’indexer un site en conception.

Une affaire de robots.txt

Comment remplir robots.txt

Quelques User-Agent de robots connus

Pour conclure

2 Responses to Une affaire de robots.txt

Laisser un commentaire Annuler la réponse

Catégories

Fresh !

Archives

A apprendre

A voir

Projets du moment

The Bnbox Company

Une affaire de robots.txt

Comment remplir robots.txt

Quelques User-Agent de robots connus

Pour conclure

Dans le même style

2 Responses to Une affaire de robots.txt

Laisser un commentaire Annuler la réponse

Catégories

Tags

Fresh !

Archives

A apprendre

A voir

Projets du moment

The Bnbox Company