Votre fichier robots.txt est un outil puissant lorsque vous travaillez sur le référencement d'un site Web, mais il doit être manipulé avec précaution. Il vous permet de refuser aux moteurs de recherche l’accès à différents fichiers et dossiers, mais c’est souvent ne pas le meilleur moyen d'optimiser votre site. Nous expliquerons ici comment, selon nous, les webmasters devraient utiliser leur fichier robots.txt et proposerons une approche de “meilleure pratique” adaptée à la plupart des sites Web.

Vous trouverez un exemple de fichier robots.txt qui fonctionne pour la grande majorité des sites Web WordPress plus bas sur cette page. Si vous voulez en savoir plus sur le fonctionnement de votre fichier robots.txt, vous pouvez lire notre guide ultime de robots.txt.

À quoi ressemble la «meilleure pratique»?

Les moteurs de recherche améliorent continuellement la manière dont ils explorent le Web et indexent le contenu. Cela signifie que ce qui était autrefois la meilleure pratique il ya quelques années ne fonctionne plus et peut même nuire à votre site.

Aujourd'hui, les meilleures pratiques consistent à utiliser le moins possible votre fichier robots.txt. En fait, il est vraiment nécessaire de bloquer les URL dans votre fichier robots.txt lorsque vous rencontrez des problèmes techniques complexes (par exemple, un site Web de commerce électronique de grande taille avec une navigation par facettes) ou lorsqu'il n'y a pas d'autre option.

Bloquer des URL via robots.txt est une approche «brutale» qui peut entraîner plus de problèmes qu’elle ne résout.

Pour la plupart des sites WordPress, l'exemple suivant constitue la meilleure pratique:

# This space intentionally left blank
# If you want to learn about why our robots.txt looks like this, read this post: https://yoa.st/robots-txt
User-agent: *

Nous utilisons même cette approche dans notre propre fichier robots.txt.

Que fait ce code?

  • le User-agent: * instruction indique que les instructions suivantes s’appliquent à tous les robots.
  • Comme nous ne fournissons aucune autre instruction, nous disons «tous les robots peuvent librement explorer ce site, sans restriction».
  • Nous fournissons également des informations aux utilisateurs qui consultent le fichier (vers cette page), afin qu’ils comprennent pourquoi le fichier est «vide».

Si vous devez interdire les URL

Si vous souhaitez empêcher les moteurs de recherche d’analyser ou d’indexer certaines parties de votre site WordPress, il est presque toujours préférable de le faire en ajoutant balises meta robots ou robots en-têtes HTTP.

Notre guide ultime pour les balises meta robots explique comment vous pouvez gérer l’exploration et l’indexation de la bonne manière, et notre plug-in Yoast SEO fournit les outils nécessaires pour vous aider à mettre en oeuvre ces balises sur vos pages.

Si votre site présente des problèmes d’exploration ou d’indexation qui ne peuvent pas être résolus via balises meta robots ou En-têtes HTTP, ou si vous devez empêcher l’accès au robot pour d’autres raisons, vous devriez lire notre guide ultime sur robots.txt.

Notez que WordPress et Yoast SEO empêchent déjà automatiquement l’indexation de certains fichiers et URL sensibles, comme votre zone d’administration WordPress (via un En-tête HTTP x-robots).

Pourquoi cette pratique du «minimalisme»?

Robots.txt crée des impasses

Avant de pouvoir rivaliser sur les résultats de recherche, les moteurs de recherche doivent découvrir, analyser et indexer vos pages. Si vous avez bloqué certaines URL via le fichier robots.txt, les moteurs de recherche ne peuvent plus analyser par ces pages pour découvrir d'autres. Cela peut signifier que les pages clés ne sont pas découvertes.

Robots.txt nie les liens de leur valeur

L'une des règles de base du référencement est que les liens d'autres pages peuvent influer sur vos performances. Si une URL est bloquée, non seulement les moteurs de recherche ne l'exploreront pas, mais ils pourraient également ne pas distribuer de “valeur de lien” pointant vers cette URL, ou par cette URL vers d'autres pages du site.

Google rend entièrement votre site

Auparavant, les utilisateurs bloquaient l'accès aux fichiers CSS et JavaScript pour que les moteurs de recherche restent concentrés sur ces pages de contenu très importantes.

De nos jours, Google récupère tous vos styles et JavaScript et rend vos pages complètement. Comprendre la mise en page et la présentation de votre page est un élément clé de l’évaluation de la qualité. Donc, Google n'aime pas ça du tout lorsque vous lui refusez l'accès à vos fichiers CSS ou JavaScript.

Meilleure pratique de blocage de l'accès à votre wp-includes répertoire et votre répertoire de plugins via robots.txt n'est plus valide, c'est pourquoi nous avons collaboré avec WordPress pour supprimer les paramètres par défaut. refuser règle pour wp-includes dans la version 4.0.

De nombreux thèmes WordPress utilisent également des requêtes JavaScript asynchrones – appelées AJAX – pour ajouter du contenu à des pages Web. WordPress bloquait Google par défaut, mais nous avons corrigé cela dans WordPress 4.4.

Vous n'avez généralement pas besoin de créer un lien vers votre sitemap

Le standard robots.txt prend en charge l’ajout d’un lien vers votre ou vos sitemap XML au fichier. Cela aide les moteurs de recherche à découvrir l'emplacement et le contenu de votre site.

Nous avons toujours pensé que c'était redondant. vous devriez déjà en ajoutant votre sitemap à votre Google Search Console et Bing Webmaster Tools comptes afin d'accéder aux données d'analyse et de performance. Si vous avez fait cela, vous n’avez pas besoin de la référence dans votre fichier robots.txt.

Lire la suite: Empêcher l'indexation de votre site: la bonne manière »


Source link

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

code