Archives par mot-clé : sitemap

Une affaire de robots.txt

Publié dans Référencement | 2 commentaires

Le fichier robots.txt est un des fichiers bien pratique sur tout site Web pour que les robots des moteurs de recherche (et tous les robots bienveillants en général) puissent comprendre comment l’indexer intelligemment. Il permet de préciser les pages à ne pas indexer (accès admin par exemple), et d’interdire l’entrée à certains robots connus. C’est aussi là que l’on peut préciser le chemin vers un fichier sitemap pour que le site soit indexer plus rapidement.
Robots.txt
Ce fichier se créé très rapidement, en quelques lignes c’est chose faites. Il faut le créer à la racine du site Web et de la nommer « robots.txt ». Un petit exemple :

User-Agent: T-Rex
Disallow: /
User-Agent: *
Disallow:
Sitemap: http://www.example.com/sitemap.xml

Ce fichier robots.txt interdit la visite de toutes les pages du site pour le user-agent T-Rex, ce qui correspond à Lycos, et autorise tous les autres robots à visiter toutes les pages du site.
Ce fichier précise aussi le chemin vers le fichier sitemap.xml (qui rappelons-le doit se trouver aussi à la racine du site Web. Voir Parlons de Sitemaps).
Voyons son fonctionnement plus en détails.
Continuer la lecture

Parlons de sitemaps

Publié dans XML | Laisser un commentaire

A vrai dire il y a 2 types de sitemaps, puisque 2 utilisations possible des dites sitemaps :

  • La sitemap pour les visiteurs, plus communément appelée « Plan du Site ». Son but est d’aider le visiteur à se repèrer, elle doit donc être jolie, bien mise en forme, et ne pas contenir trop de liens. Google n’aime pas quand le nombre d’urls sur une page approche les 100, donc une sitemap ne doit afficher que les liens importants, et à la rigueur les articles en vues.
  • La sitemap pour les robots, comme les robots de moteur de recherche. Son but est d’aider les moteurs de recherche à indexer plus rapidement toutes les pages d’un site Internet. Qu’importe la beauté, c’est donc la structure du fichier qui compte puisqu’un protocole a été mise en place pour standardiser tout ça. Une sitemap peut contenir autant d’url que l’on veut, tant que l’on s’y prend bien. (puisqu’en fait on peut créer plusieurs sitemaps que l’on liste avec une sitemapindex)

Je vais m’attarder un tout petit peu sur le deuxième type de sitemaps puisque j’ai dû générer la sitemaps d’un site de plus de 3 millions de pages, ce qui m’a un peu forcé à me pencher sur la question. (j’étais bien guidé cela dit !)

Le protocole Sitemap

Sitemap classique

Deux choix pour les sitemaps classiques * Un fichier texte avec tous les urls à la ligne. Pas top. * Un fichier XML bien mis en page avec possibilité de spécifier certaines options. Bien mieux ! C’est là dessus que je vais m’attarder.
Voici la tête d’une petite sitemap XML avec 3 urls :

 <?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>  
      <loc>http://la-bnbox.fr/cahier.html</loc>
      <lastmod>2009-07-10</lastmod>
      <changefreq>weekly</changefreq>
      <priority>0.8</priority>
   </url>
   <url>
      <loc>http://la-bnbox.fr/t18-francais.cahier</loc>
      <lastmod>2009-07-25</lastmod>
      <changefreq>weekly</changefreq>
      <priority>0.7</priority>
   </url>
   <url>
      <loc>http://la-bnbox.fr/554-Prepa-PSI--Penser-l-Histoire---Introduction.cahier</loc>
      <lastmod>2009-07-25</lastmod>
      <changefreq>yearly</changefreq>
      <priority>0.5</priority>
   </url>
</urlset>

L’entête est assez classique, mais on peut noter que l’encodage est en UTF-8 et qu’il faut qu’il soit en UTF-8.
Et on peut résumer un bloc pour un url de cette manière :
Continuer la lecture

Etude SEO : Bible Ipsum

Publié dans Référencement | Laisser un commentaire

Petite étude SEO (Search engine optimization) pour le site Bible Ipsum.
Le but ? Le faire remonter un peu sur Google pour y amener des visiteurs. Bon certes, je ferai peut-être mieux de commencer par coder le système pour aider à traduire le site facilement, et corriger 2-3 bugs aussi, voir ajouter quelques fonctionnalités. Mais bon… C’est ma première étude SEO.
A ma connaissance ce n’est pas franchement une science, ça s’apprend sur le tas, en testant, en lisant des articles ou des livres, et en observant ceux dont c’est le métier.

Mots clefs à travailler (et leurs déclinaisons) : (26)

  • Bible Ipsum
  • Lorem Ipsum, lipsum, dolor sit amet
  • Texte d’attente, de remplissage, de production, de pré-production
  • Paragraphe d’attente, de remplissage, de production, de pré-production
  • Générateur de texte d’attente, de remplissage, de production, de pré-production
  • Générateur de paragraphes d’attente, de remplissage, de production, de pré-production
  • Générateur de lignes
  • Générateur de mots
  • générateur de texte aléatoire
  • Générateur
  • Bible
  • Psaumes + Psaumes n
  • Texte de remplissage dans votre langue, en latin
  • (optimiser) lecture sur écran !!Table motclef motclef(id, kw, titre, texte, type(1 normal, 2 psaumes n))

Continuer la lecture