Les moteurs de recherche tels que Google ont un problème: ils s’appellent «dupliquer le contenu». Dupliquer le contenu signifie que du contenu similaire apparaît à plusieurs endroits (URL) sur le Web. Par conséquent, les moteurs de recherche ne savent pas quelle URL afficher dans les résultats de la recherche. Cela peut nuire au classement d'une page Web et le problème ne fait que s'aggraver lorsque les gens commencent à créer des liens vers les différentes versions du même contenu. Cet article vous aidera à comprendre les différentes causes de duplication de contenu et à trouver la solution à chacune d’elles.

Qu'est-ce qu'un contenu en double?

Le contenu dupliqué est un contenu disponible sur plusieurs URL sur le Web. Étant donné que plusieurs URL affichent le même contenu, les moteurs de recherche ne savent pas quelle URL répertorier plus haut dans les résultats de la recherche. Par conséquent, ils peuvent classer les deux URL plus bas et donner la préférence à d’autres pages Web.

Dans cet article, nous nous intéresserons principalement aux causes techniques du contenu en double et à leurs solutions. Si vous souhaitez avoir une perspective plus large sur le contenu dupliqué et savoir en quoi cela se rapporte au contenu copié, gratté ou même cannibalisation mot-clé, nous vous conseillons de lire cet article: Quel est le contenu en double.

Illustrons cela avec un exemple

Le contenu en double peut être assimilé à un carrefour où les panneaux de signalisation indiquent deux directions différentes pour la même destination: quelle route devriez-vous emprunter? Pour aggraver les choses, la destination finale est également différente, mais très légèrement. En tant que lecteur, cela ne vous dérange pas car vous obtenez le contenu que vous êtes venu chercher, mais un moteur de recherche doit choisir la page à afficher dans les résultats de la recherche car, bien sûr, il ne souhaite pas afficher le même contenu deux fois.

Disons votre article sur “Mot-clé x” apparaît à http://www.example.com/keyword-x/ et le même contenu apparaît également à http://www.example.com/article-category/keyword-x/. Cette situation n'est pas fictive: cela se produit dans de nombreux systèmes de gestion de contenu modernes. Ensuite, disons que votre article a été repris par plusieurs blogueurs et que certains d’entre eux renvoient à la première URL, tandis que d’autres pointent vers la seconde. C’est à ce moment-là que le problème du moteur de recherche montre sa vraie nature: votre problème. Le contenu en double est votre problème car ces liens favorisent des URL différentes. S'ils étaient tous liés à la même URL, vos chances de classement pour “Mot-clé x” serait plus élevé.

Si vous ne savez pas si votre classement souffre de problèmes de contenu en double, ces problèmes dupliquer les outils de découverte de contenu va vous aider à découvrir!

Causes du contenu en double

Il y a des dizaines de raisons pour dupliquer le contenu. La plupart d’entre eux sont techniques: il est rare qu’un humain décide de placer le même contenu à deux endroits différents sans préciser l’original – cela ne semble pas naturel pour la plupart d’entre nous. Cependant, il existe de nombreuses raisons techniques, notamment parce que les développeurs ne pensent pas comme un navigateur, ni même un utilisateur, encore moins une araignée pour moteur de recherche – ils pensent comme un programmeur. Prenez cet article que nous avons mentionné plus tôt, qui apparaît sur http://www.example.com/keyword-x/ et http://www.example.com/article-category/keyword-x/. Si vous demandez au développeur, ils diront que cela n'existe qu'une seule fois.

Mal comprendre le concept d'une URL

Non, ce développeur n’est pas devenu fou, ils parlent simplement une autre langue. Un CMS alimentera probablement le site Web. Dans cette base de données, il n’ya qu’un seul article, mais le logiciel du site Web permet simplement de récupérer le même article dans la base de données via plusieurs URL. C’est parce que, aux yeux du développeur, l’identificateur unique de cet article est l’identifiant de cet article dans la base de données, et non l’URL. Mais pour le moteur de recherche, l'URL est l'identifiant unique d'un contenu. Si vous expliquez cela à un développeur, il commencera à avoir le problème. Et après avoir lu cet article, vous pourrez même leur fournir une solution immédiatement.

ID de session

Vous voulez souvent garder une trace de vos visiteurs et leur permettre, par exemple, de stocker les articles qu'ils veulent acheter dans un panier. Pour ce faire, vous devez leur donner une “session”. Une session est un bref historique de ce que le visiteur a fait sur votre site et peut contenir des éléments tels que les éléments de son panier. Pour conserver cette session lorsqu'un visiteur clique d'une page à une autre, l'identifiant unique de cette session, appelé ID de session, doit être stocké quelque part. La solution la plus courante consiste à le faire avec des cookies. Cependant, les moteurs de recherche ne stockent généralement pas de cookies.

À ce stade, certains systèmes ont recours à des identifiants de session dans l'URL. Cela signifie que chaque lien interne sur le site Web obtient cet ID de session ajouté à son URL et, comme cet ID de session est unique à cette session, il crée une nouvelle URL et par conséquent duplique le contenu.

Paramètres d'URL utilisés pour le suivi et le tri

L'utilisation de paramètres d'URL qui ne modifient pas le contenu d'une page, par exemple dans le suivi des liens, est une autre cause du contenu en double. Vous voyez, à un moteur de recherche, http://www.example.com/keyword-x/ et http://www.example.com/keyword-x/?source=rss ne sont pas la même URL. Ce dernier peut vous permettre de suivre la source des personnes, mais cela peut également vous empêcher de bien vous classer – un effet secondaire indésirable!

Cela ne va pas simplement pour les paramètres de suivi, bien sûr. Cela s'applique à tous les paramètres que vous pouvez ajouter à une URL qui ne modifie pas l'élément de contenu essentiel, qu'il s'agisse de “modifier le tri sur un ensemble de produits” ou de “afficher un autre menu latéral”: ils sont tous dupliqués. contenu.

Racleurs et syndication de contenu

La plupart des raisons de dupliquer le contenu sont soit la “faute” de votre part, soit de votre site Web. Parfois, cependant, d'autres sites Web utilisent votre contenu, avec ou sans votre consentement. Ils ne sont pas toujours liés à votre article d'origine. Par conséquent, le moteur de recherche ne le “récupère” pas et doit traiter une autre version du même article. Plus votre site deviendra populaire, plus vous obtiendrez des scrapeurs, ce qui rendra ce problème de plus en plus important.

Ordre des paramètres

Une autre cause fréquente est qu’un CMS n’utilise pas d’URL propres, mais plutôt des URL telles que /?id=1&cat=2, où ID fait référence à l'article et chat, à la catégorie. L'URL /?cat=2&id=1 les mêmes résultats dans la plupart des systèmes de site Web, mais ils sont complètement différents pour un moteur de recherche.

Dans mon cher WordPress, mais aussi dans d’autres systèmes, il existe une option pour paginer vos commentaires. Cela entraîne la duplication du contenu dans l'URL de l'article et dans l'URL de l'article + / comment-page-1 /, / comment-page-2 / etc.

Pages imprimables

Si votre système de gestion de contenu crée des pages imprimables et que vous vous connectez à celles de vos pages d'article, Google les trouvera généralement, à moins que vous ne les bloquiez spécifiquement. Maintenant, demandez-vous: quelle version souhaitez-vous que Google affiche? Celui avec vos annonces et votre contenu périphérique, ou celui qui montre uniquement votre article?

WWW vs. non-WWW

C'est l'un des plus anciens du livre, mais il arrive parfois que les moteurs de recherche se trompent: contenu dupliqué WWW ou non dupliqué lorsque les deux versions de votre site sont accessibles. Une autre situation moins courante, mais que j’ai également vue, est HTTP vs. HTTPS dupliquer le contenu, où le même contenu est diffusé sur les deux.

Solution conceptuelle: une URL «canonique»

Comme nous l’avons déjà vu, le fait que plusieurs URL conduisent au même contenu est un problème, mais il peut être résolu. Une personne travaillant dans une publication pourra normalement vous dire assez facilement l’URL «correcte» d’un article donné, mais parfois, lorsque vous demandez à trois personnes de la même entreprise, vous obtenez trois réponses différentes…

C’est un problème qu’il faut résoudre car, au final, il ne peut y avoir qu’un seul (URL). Cette URL «correcte» pour un élément de contenu est désignée par le terme URL canonique par les moteurs de recherche.

Note de côté ironique

Canonique est un terme issu de la tradition catholique romaine, où une liste de livres sacrés était créée et acceptée comme authentique. Ils étaient connus comme les évangiles canoniques du Nouveau Testament. L'ironie est qu'il a fallu environ 300 ans et de nombreux combats à l'église catholique romaine pour élaborer cette liste canonique, et ils ont finalement choisi quatre versions de la même histoire

Identification des problèmes de contenu en double

Vous pourriez ne pas savoir si vous avez un problème de contenu en double sur votre site ou avec votre contenu. Utiliser Google est l’un des moyens les plus simples de repérer le contenu en double.

Il y a plusieurs opérateurs de recherche qui sont très utiles dans des cas comme ceux-ci. Si vous souhaitez rechercher toutes les URL sur votre site contenant votre mot clé X article, vous avez tapé la phrase de recherche suivante dans Google:

site:example.com intitle:"Keyword X"

Google vous montrera ensuite toutes les pages sur example.com contenant ce mot clé. Plus vous précisez cela intitle partie de la requête, plus il est facile d’éliminer le contenu en double. Vous pouvez utiliser la même méthode pour identifier le contenu en double sur le Web. Disons que le titre complet de votre article a été “Mot-clé X – pourquoi c'est génial”, vous recherchez:

intitle:"Keyword X - why it is awesome"

Et Google vous donnerait tous les sites qui correspondent à ce titre. Parfois, il vaut même la peine de chercher une ou deux phrases complètes dans votre article, car certains scrapers peuvent changer le titre. Dans certains cas, lorsque vous effectuez une recherche de ce type, Google peut afficher un avis de ce type sur la dernière page des résultats:

Ceci est un signe que Google est déjà en train de «duper» les résultats. C’est toujours mal, il est donc intéressant de cliquer sur le lien et de regarder tous les autres résultats pour voir si vous pouvez en réparer certains.

Lire la suite: DIY: vérification du contenu en double »

Solutions pratiques pour le contenu en double

Une fois que vous avez décidé quelle URL est l’URL canonique de votre contenu, vous devez lancer un processus de canonisation (ouais, je le sais, essayez de le dire trois fois à voix haute). Cela signifie que nous devons informer les moteurs de recherche de la version canonique d'une page et les laisser le trouver dès que possible. Il existe quatre méthodes pour résoudre le problème, par ordre de préférence:

  1. Ne pas créer de contenu en double
  2. Redirection du contenu en double vers l'URL canonique
  3. Ajout d'un élément de lien canonique à la page en double
  4. Ajout d'un lien HTML de la page en double à la page canonique

Éviter le contenu en double

Certaines des causes ci-dessus pour le contenu en double ont des solutions très simples:

  • Y a-t-il des identifiants de session dans vos URL?
    Celles-ci peuvent souvent simplement être désactivées dans les paramètres de votre système.
  • Avez-vous des doubles de pages imprimables?
    Celles-ci sont complètement inutiles: vous devriez simplement utiliser un feuille de style d'impression.
  • Utilisez-vous la pagination des commentaires dans WordPress?
    Vous devriez simplement désactiver cette fonctionnalité (sous paramètres »discussion) sur 99% des sites.
  • Vos paramètres sont-ils dans un ordre différent?
    Demandez à votre programmeur de créer un script pour toujours placer les paramètres dans le même ordre (on parle souvent d'usine d'URL).
  • Existe-t-il des problèmes de liens de suivi?
    Dans la plupart des cas, vous pouvez utiliser le suivi de campagne basé sur des balises de hachage au lieu du suivi de campagne basé sur des paramètres.
  • Avez-vous des problèmes avec ou sans WWW?
    Choisissez-en un et respectez-le en rediriger l'un vers l'autre. Vous pouvez également définir une préférence dans Google Webmaster Tools, mais vous devrez revendiquer les deux versions du nom de domaine.

Si votre problème n’est pas aussi facile à résoudre, cela vaut peut-être la peine de faire un effort. L’objectif devrait être d’empêcher l’apparition de doublons de contenu, car c’est de loin la meilleure solution au problème.

301 Rediriger le contenu en double

Dans certains cas, il est impossible d'empêcher complètement le système que vous utilisez de créer des URL incorrectes pour le contenu, mais il est parfois possible de réorienter leur. Si cela n’est pas logique pour vous (ce que je peux comprendre), gardez-le à l’esprit lorsque vous parlez à vos développeurs. Si vous faire Pour vous débarrasser de certains problèmes de contenu en double, veillez à rediriger toutes les anciennes URL de contenu en double vers les URL canoniques appropriées.

Parfois, vous ne voulez pas ou ne pouvez pas vous débarrasser d’une version dupliquée d’un article, même lorsque vous savez que c’est la mauvaise URL. Pour résoudre ce problème particulier, les moteurs de recherche ont introduit l’élément de lien canonique. Il est placé dans le section de votre site, et cela ressemble à ceci:

dans le href section du lien canonique, vous placez l’URL canonique correcte pour votre article. Lorsqu'un moteur de recherche prenant en charge canonique trouve cet élément de lien, il effectue une redirection 301 souple en transférant la plupart des valeurs de lien collectées par cette page vers votre page canonique.

Ce processus est cependant un peu plus lent que la redirection 301, donc si vous pouvez simplement effectuer une redirection 301, cela serait préférable, car mentionné par John Mueller de Google.

Continue de lire: rel = canonique • Qu'est-ce que c'est et comment (ne pas) l'utiliser »

Renvoi au contenu d'origine

Si vous ne pouvez pas faire l’un des choix ci-dessus, peut-être parce que vous ne contrôlez pas section du site sur laquelle votre contenu apparaît, l'ajout d'un lien vers l'article d'origine au-dessus ou au-dessous de l'article est toujours une bonne idée. Vous voudrez peut-être faire cela dans votre flux RSS en ajoutant un lien vers l'article qu'il contient. Certains scrapeurs filtreront ce lien, mais d’autres le laisseront peut-être à l'intérieur. Si Google rencontre plusieurs liens pointant vers votre article d'origine, il constatera assez tôt qu'il s'agit de la version canonique réelle.

Conclusion: le contenu en double est réparable et devrait être corrigé

Le contenu en double arrive partout. Je n'ai pas encore rencontré de site de plus de 1 000 pages qui ne présente pas au moins un problème de contenu dupliqué minime. C’est quelque chose que vous devez surveiller en permanence, mais il est réparable et les récompenses peuvent être abondantes. Votre contenu de qualité pourrait monter en flèche dans les classements, simplement en éliminant le contenu en double de votre site!

Continuer à lire: Rel = canonique: Le guide ultime »


Source link

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

code