Comment ne pas référencer une page code source ?

La plupart des internautes emploient différentes méthodes pour optimiser le référencement de leurs sites. Toutefois, pas mal d’entre eux cherchent à bloquer l’accès des moteurs de recherche à leurs pages. Cela est dû à une publication de contenu dupliqué ou à une modification temporaire des pages. Mais peu importe la raison, sachez qu’il est tout à fait possible d’effectuer une telle besogne. Pour ce faire, il existe de nombreuses méthodes. Voyons cela en détail !

L’utilisation du fichier robots.txt

Pour ceux qui ne savent pas, « robots.txt » est un fichier texte qui contient les commandes destinées aux robots d’indexation des moteurs de recherche. Voici deux exemples de ce fichier : « User-Agent » et « Disallow ». En utilisant cette méthode, sachez que l’internaute peut s’adresser à un ou plusieurs robots. Il suffit que ce dernier mentionne leur nom. Parmi ces robots de moteurs figurent : MSN Bot, Googlebot, Yahoo, Fast, Voila, Teoma et Deepindex. Ce sont ces robots qui décident quelles pages peuvent être affichées ou pas. Lors de son exploration sur un site, ces derniers essayent d’abord de détecter la présence du fichier robots.txt. De cette manière, ils vont retirer la page dans les résultats de recherche.

L’utilisation de la directive « noindex »

La directive « noindex » est souvent utilisée par les internautes qui n’ont pas accès à la racine de leur serveur. Précisons que cette méthode fonctionne avec la plupart des moteurs de recherche comme Google. En effet, cette technique réside dans l’emploi d’une balise Meta « noindex » dans son code HTML. Cela empêche un site de s’afficher dans la page des résultats de recherche. En outre, il est également possible d’afficher un en-tête « noindex » dans la réponse HTTP.

Lorsque le robot de moteur de recherche (comme Googlebot) va explorer votre site, et qu’il détectera la présence de cette balise ou de cet en-tête, il va exclure le site des résultats de recherche. Sachez que les liens vers ce site présents dans d’autres pages web seront dysfonctionnels. Mais pour que cette méthode fonctionne à merveille, il ne faut pas la doubler avec une autre technique comme l’utilisation du fichier robots.txt.

La gestion des accès serveur

À part ces deux méthodes, il y a également une autre technique permettant de ne pas référencer sa page code source. Cette méthode consiste à employer un fichier « .htacces ». Pour ce faire, le propriétaire du site doit se rendre dans les logs de son serveur. Une fois arrivé, il devra trouver le nom, l’IP ou le referer des robots. Ensuite, il faut placer l’un d’entre eux dans le fichier .htaccess, notamment à la racine du serveur.

Pour vérifier si le robot de moteurs est passé ou pas, il est recommandé d’utiliser l’outil de statistiques. Ce dernier permet d’obtenir les détails concernant le nom des robots et le nombre de visites qu’ils effectuent sur les pages.