Archives par mot-clé : Référencement

Spam

Quand les spameurs utilisent des techniques de SEO

Publié dans Référencement | Un commentaire

Je suis en ce moment énormément frappé par les spams dans les commentaires de ce blog, c’est assez affligeant et c’est ce qui va sûrement me motiver suffisamment pour tester WordPress pour 30 minutes par jour (j’ai fait des tests, mais pour l’instant il me manque un design correct). Mais pour revenir aux spammeurs, aujourd’hui je viens d’en découvrir un qui utilise des techniques de SEO !

Continuer la lecture

30minparjour sur Twitter

Publié dans Informations | 4 commentaires

Doucement, doucement je m’y met ! Je viens d’ouvrir un compte sur Twitter pour « 30 minutes par jour » sous le pseudo fylhan (original n’est-ce pas ?), on verra ce que ça donne…

http://twitter.com/fylhan

J’en ai profité pour tester les 2 plugins Dotclear pour Twitter, pour l’instant j’ai pris celui qui me convenait le mieux : Twitter. Quand j’aurais un peu plus de temps, je veillerai à customiser ça.

Edit : bon en fait je suis passé sous WordPress et il existe une foultitude d’extensions pour Twitter !

Une affaire de robots.txt

Publié dans Référencement | 2 commentaires

Le fichier robots.txt est un des fichiers bien pratique sur tout site Web pour que les robots des moteurs de recherche (et tous les robots bienveillants en général) puissent comprendre comment l’indexer intelligemment. Il permet de préciser les pages à ne pas indexer (accès admin par exemple), et d’interdire l’entrée à certains robots connus. C’est aussi là que l’on peut préciser le chemin vers un fichier sitemap pour que le site soit indexer plus rapidement.
Robots.txt
Ce fichier se créé très rapidement, en quelques lignes c’est chose faites. Il faut le créer à la racine du site Web et de la nommer « robots.txt ». Un petit exemple :

User-Agent: T-Rex
Disallow: /
User-Agent: *
Disallow:
Sitemap: http://www.example.com/sitemap.xml

Ce fichier robots.txt interdit la visite de toutes les pages du site pour le user-agent T-Rex, ce qui correspond à Lycos, et autorise tous les autres robots à visiter toutes les pages du site.
Ce fichier précise aussi le chemin vers le fichier sitemap.xml (qui rappelons-le doit se trouver aussi à la racine du site Web. Voir Parlons de Sitemaps).
Voyons son fonctionnement plus en détails.
Continuer la lecture

Problème SEO Dotclear : pages archives – pages billets

Publié dans Dotclear | Laisser un commentaire

Calendrier 30minparjour
L’autre jour je surfais un peu sur mon site (on s’ennuie toujours quand on s’ennuie. Je me console en me disant que ça me permet de trouver des bugs ou des fautes de frappes) et en utilisant les liens du calendrier, je me suis fait la réflexion suivante : Sur mon blog, en général, j’écris au maximum 1 billet par jour. (et parfois aucun ;-)) Par conséquent, le contenu d’une page billet (exemple) est presque le même que le contenu d’une page archive du même jour. (exemple) La question est donc : n’y a-t-il pas un risque que Google et ses comparses prennent cela comme du duplicate content (+ de 70-75% de similitude entre 2 pages) et ralentissent le scrawling de mon site ?
Continuer la lecture

Parlons de sitemaps

Publié dans XML | Laisser un commentaire

A vrai dire il y a 2 types de sitemaps, puisque 2 utilisations possible des dites sitemaps :

  • La sitemap pour les visiteurs, plus communément appelée « Plan du Site ». Son but est d’aider le visiteur à se repèrer, elle doit donc être jolie, bien mise en forme, et ne pas contenir trop de liens. Google n’aime pas quand le nombre d’urls sur une page approche les 100, donc une sitemap ne doit afficher que les liens importants, et à la rigueur les articles en vues.
  • La sitemap pour les robots, comme les robots de moteur de recherche. Son but est d’aider les moteurs de recherche à indexer plus rapidement toutes les pages d’un site Internet. Qu’importe la beauté, c’est donc la structure du fichier qui compte puisqu’un protocole a été mise en place pour standardiser tout ça. Une sitemap peut contenir autant d’url que l’on veut, tant que l’on s’y prend bien. (puisqu’en fait on peut créer plusieurs sitemaps que l’on liste avec une sitemapindex)

Je vais m’attarder un tout petit peu sur le deuxième type de sitemaps puisque j’ai dû générer la sitemaps d’un site de plus de 3 millions de pages, ce qui m’a un peu forcé à me pencher sur la question. (j’étais bien guidé cela dit !)

Le protocole Sitemap

Sitemap classique

Deux choix pour les sitemaps classiques * Un fichier texte avec tous les urls à la ligne. Pas top. * Un fichier XML bien mis en page avec possibilité de spécifier certaines options. Bien mieux ! C’est là dessus que je vais m’attarder.
Voici la tête d’une petite sitemap XML avec 3 urls :

 <?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>  
      <loc>http://la-bnbox.fr/cahier.html</loc>
      <lastmod>2009-07-10</lastmod>
      <changefreq>weekly</changefreq>
      <priority>0.8</priority>
   </url>
   <url>
      <loc>http://la-bnbox.fr/t18-francais.cahier</loc>
      <lastmod>2009-07-25</lastmod>
      <changefreq>weekly</changefreq>
      <priority>0.7</priority>
   </url>
   <url>
      <loc>http://la-bnbox.fr/554-Prepa-PSI--Penser-l-Histoire---Introduction.cahier</loc>
      <lastmod>2009-07-25</lastmod>
      <changefreq>yearly</changefreq>
      <priority>0.5</priority>
   </url>
</urlset>

L’entête est assez classique, mais on peut noter que l’encodage est en UTF-8 et qu’il faut qu’il soit en UTF-8.
Et on peut résumer un bloc pour un url de cette manière :
Continuer la lecture

Google Alertes

Publié dans Référencement | Un commentaire

Je viens de découvrir un outils qui peut être bien utile lorsque l’on s’intéresse à un sujet en particulier, ou plus pratiquement, si l’on souhaite surveiller les sites parlant d’un thème similaire au(x) sien(s) sur la Toile. Il s’agit de Google alertes.

L’idée est toute simple : j’ai un site sur les brioches et je veux savoir l’actualité de la brioche sur le Web. J’inscris le mot clef « brioche » dans ma liste de termes recherchés de Google Alertes, et ce dernier m’indiquera au fil du temps par e-mail ou via un flux RSS (visible directement via Google reader) les derniers sites qui en parle. Cela permet, par exemple, de faire des rétro-liens sur des billets intéressants parlant du même sujet que les siens, ou de donner des compléments d’informations, ou des remarques sur le forum ou les commentaires du site en question, avec un lien vers son propre site dans la signature.

Bref, on n’arrête pas le progrès ! (et moi j’apprends de plus en plus de choses dans le domaine du référencement)

Etude SEO : Bible Ipsum

Publié dans Référencement | Laisser un commentaire

Petite étude SEO (Search engine optimization) pour le site Bible Ipsum.
Le but ? Le faire remonter un peu sur Google pour y amener des visiteurs. Bon certes, je ferai peut-être mieux de commencer par coder le système pour aider à traduire le site facilement, et corriger 2-3 bugs aussi, voir ajouter quelques fonctionnalités. Mais bon… C’est ma première étude SEO.
A ma connaissance ce n’est pas franchement une science, ça s’apprend sur le tas, en testant, en lisant des articles ou des livres, et en observant ceux dont c’est le métier.

Mots clefs à travailler (et leurs déclinaisons) : (26)

  • Bible Ipsum
  • Lorem Ipsum, lipsum, dolor sit amet
  • Texte d’attente, de remplissage, de production, de pré-production
  • Paragraphe d’attente, de remplissage, de production, de pré-production
  • Générateur de texte d’attente, de remplissage, de production, de pré-production
  • Générateur de paragraphes d’attente, de remplissage, de production, de pré-production
  • Générateur de lignes
  • Générateur de mots
  • générateur de texte aléatoire
  • Générateur
  • Bible
  • Psaumes + Psaumes n
  • Texte de remplissage dans votre langue, en latin
  • (optimiser) lecture sur écran !!Table motclef motclef(id, kw, titre, texte, type(1 normal, 2 psaumes n))

Continuer la lecture

L’url rewriting c’est le bien

Publié dans Apache | Laisser un commentaire

L’url rewriting, cette technique qui consiste à créer des pages virtuelles avec un url tout mignon et qui redirige vers de vraies pages avec un url tout moche, est particulièrement intéressante pour 2 raisons :

  • Se faire bien voir des moteurs de recherches. L’url est très utilisé par les robots d’indexation, par conséquent, si elle contient déjà des mots clefs importants, c’est tout bon !
  • Améliorer l’expérience de ses visiteurs. En effet, on est plus enclin à cliquer sur un lien http://exemple.fr/presentation-url-rewriting.html que sur http://exemple.fr/index.php?id=1254879, tout simplement parce que l’on sait, a priori, de quoi est censé parler la page sur lequel on va se diriger.

Pour réécrire ses urls, il suffit de créer un fichier .htaccess à la racine de son serveur et d’y écrire quelques lignes pour expliquer à Apache comment rediriger certaines pages. Quelques connaissances en expressions régulières peuvent servir ! Et il faut que le mode url-rewriting de votre serveur Apache soit activé. (ce qui n’est pas le cas partout, mais il y a des techniques pour réécrire quand même ses urls, notamment sur un serveur hébergé par Free) Et ce fichier .htaccess peut ressembler à ça :

RewriteEngine on RewriteBase /site/front ################################################################################
#
# REDIRECTION DES PAGES VIRTUELLES RATTACHEES A DES RUBRIQUES : 
#
#	Exemple de redirection: scooter-rouge_15.php => index.php?id=15 
#
#	PS: 1.	Le - (tiret) sert à séparer les mots dans un nom de page
#		Le _ (underscore) sert à distinguer la page de la rubrique.
#		Exemple: scooter-rouge-08_15.php OU scooter-rouge-fiche_15.php
#
#            2.	Sur certain serveur d'hebergement, il faut forcer l'ajout de "/"
#		devant la 2éme partie des régles: /index.php?id=$2 [L]
#
# Solution : tester avec la règle située à la fin de ce fichier
# ################################################################################
# Règles pour l'affichage des pages articles
RewriteRule ^([a-z,A-Z,0-9,\-]+).html$ index.php?RID=10&kw=$1 [L]

Cela étant dit, je pense que la meilleur manière de réécrire des urls est d’utiliser le titre de la page et seulement le titre de la page. Je m’explique en prenant comme exemple une page index.php?id=42 qui a pour titre (titre de la page, ou titre d’un article) « Hello Word! » :

  • La méthode la plus courante est d’utiliser la forme suivante : hello-world_42.html. C’est déjà pas mal, et c’est même plus que bien ! C’est de loin ce qu’il y a de plus simple aussi.
  • La méthode la plus performante mais légèrement plus délicate à mettre en place est d’utiliser la forme qui suit : hello-world.html. Pour la mettre en place, il suffit d’enregistrer le titre rewrité de chacune de ses pages dans sa base de données. Ces titres rewrités remplacent alors les id des pages. Et puis voilà, le tour est joué ! Bien sûr, pour éviter que 2 pages ayant un titre identique pointent vers le même lien, il est nécessaire que la fonction de rewritage du titre se charge de vérifier que ce dernier n’existe pas encore, et si ce n’était pas le cas, de lui ajouter un id ou je ne sais quoi. Bref, l’idée est là ! Et tant qu’à faire, cette fonction de parsage se chargera de supprimer ou de remplacer les caractères accentués, les majuscules, les espaces, les mots de moins de 2 ou 3 lettres (sauf cas particuliers), … Un truc qui ne garde que les mots clefs réellement important quoi.

Bon, sur ce, je retourne rewrité des pages !