Le fichier robots.txt est un des fichiers bien pratique sur tout site Web pour que les robots des moteurs de recherche (et tous les robots bienveillants en général) puissent comprendre comment l’indexer intelligemment. Il permet de préciser les pages à ne pas indexer (accès admin par exemple), et d’interdire l’entrée à certains robots connus. C’est aussi là que l’on peut préciser le chemin vers un fichier sitemap pour que le site soit indexer plus rapidement.
Ce fichier se créé très rapidement, en quelques lignes c’est chose faites. Il faut le créer à la racine du site Web et de la nommer « robots.txt ». Un petit exemple :
User-Agent: T-Rex Disallow: / User-Agent: * Disallow: Sitemap: http://www.example.com/sitemap.xml
Ce fichier robots.txt interdit la visite de toutes les pages du site pour le user-agent T-Rex, ce qui correspond à Lycos, et autorise tous les autres robots à visiter toutes les pages du site.
Ce fichier précise aussi le chemin vers le fichier sitemap.xml (qui rappelons-le doit se trouver aussi à la racine du site Web. Voir Parlons de Sitemaps).
Voyons son fonctionnement plus en détails.
Continuer la lecture