Le fichier __robots.txt__ est un des fichiers bien pratique sur tout site Web pour que les robots des moteurs de recherche (et tous les robots bienveillants en général) puissent comprendre comment l’indexer intelligemment. Il permet de préciser les pages à ne pas indexer (accès admin par exemple), et d’interdire l’entrée à certains robots connus. C’est aussi là que l’on peut préciser le chemin vers un fichier __sitemap__ pour que le site soit indexer plus rapidement. ((/public/Divers/.wallE2_s.jpg|Robots.txt|C|Robots.txt, fév. 2010)) Ce fichier se créé très rapidement, en quelques lignes c’est chose faites. Il faut le créer à la racine du site Web et de la nommer « robots.txt ». Un petit exemple : /// User-Agent: T-Rex Disallow: / User-Agent: * Disallow: Sitemap: http://www.example.com/sitemap.xml /// Ce fichier robots.txt interdit la visite de toutes les pages du site pour le user-agent T-Rex, ce qui correspond à Lycos, et autorise tous les autres robots à visiter toutes les pages du site. Ce fichier précise aussi le chemin vers le fichier sitemap.xml (qui rappelons-le doit se trouver aussi à la racine du site Web. Voir [Parlons de Sitemaps|/post/2009/Parlons-de-sitemaps]) Voyons son fonctionnement plus en détails. !!! Comment remplir robots.txt Explicitons les 2 lignes d’un « bloc robot » : * __User-Agent:__ Permet de préciser le User-Agent, c’est-à-dire le nom, du robot à bloquer. L’étoile correspond à « n’importe quel robot ». * __Disallow:__ Permet de préciser les pages ou les répertoires à bloquer pour le ou les robots concernés. En laissant vide, toutes les pages sont accessibles. En précisant seulement un slash ( @@/@@ ), tout le site est bloqué. En précisant un nom de répertoire ( @@/monDossier/@@ ), tout ce répertoire est bloqué. En indiquant un nom de fichier ( @@/monDossier/file1.php@@ ), seule cette page est inaccessible aux robots. Il est possible d’ajouter autant de lignes @@Disallow:@@ que l’on souhaite, comme on peut le voir sur l’exemple suivant : /// User-Agent: * Disallow: /monDossier/ Disallow: /file1.php Disallow: /norobots/page2.php Disallow: /monAutreDossier/ /// Il est aussi possible d’utiliser Allow:, je pense qu’il n’est pas nécessaire de la détailler outre-mesure :p Certains robots comme celui de Google ou de Yahoo ont un User-Agent connu par tous. Toutefois, il faut garder en tête que cette technique est surtout utile pour indiquer aux moteurs de recherche de ne pas indexer une page admin, ou un accès réservé aux membres. Mais les robots malveillants ne suivant pas du tout les recommandations d’un bête fichier robots.txt. !!! Quelques User-Agent de robots connus * __Alta Vista__ : Scooter * __Excite__ : ArchitextSpider * __Google__ : Googlebot * __HotBot__ : Slurp * __InfoSeek__ : InfoSeek Sidewinder * __Lycos__ : T-Rex * __Voilà__ : Echo * __Yahoo__ : Yahoo-MMCrawler On peut en trouver d’autres chez [Rield.com|http://www.rield.com/internet-bots/how-to/how-to-block-people-search-engine-bots.html]. !!! Pour conclure Pour ma part, robots.txt m’est surtout utile pour préciser l’url vers ma sitemap, bloquer mes accès admin, et accessoirement empêcher Google et ses amis d’indexer un site en conception.
Catégories
- Apache (6)
- Avent (14)
- CMS (16)
- Geekeries (38)
- HTML et CSS (4)
- Informations (12)
- Java (19)
- Javascript (8)
- L'anecdote du week-end (4)
- PHP (28)
- PHP objet (19)
- Projets (4)
- Référencement (4)
- SQL (9)
- XML (3)
- XMPP (4)
Tags
30 minutes Anecdote Ant Apache attribut base de données C class CMS constructeur CSS date design Dotclear Eclipse Expression Google Java Java EE Javascript Joomla jQuery Ligne de commande Linux Maven MySQL méthode Optimisation PgSQL PHP POO Projet public regex Référencement SEO Shell SQL tutoriel Url Rewriting Wallpaper Windows Wordpress XHTML XML
Bonjour,
Je travaille à la communication d’123people et, après vérification auprès de notre service technique en Autriche (histoire de ne pas dire de bêtise), 123people n’a pas de bot
123people exploite les bots de ses partenaires « moteurs de recherche ».
Voilà, ça valait le coup de le dire
Bonjour,
Merci Erick pour ces informations. J’étais persuadé qu’123people utilisait 1 ou plusieurs, voilà pourquoi en lisant l’article sur robots.txt de Rield.com, j’ai sauté à la conclusion sans vérifier.
J’ai trouvé confirmation à vos dires sur un Ootweet plutôt amusant : 123people et robots.txt