Corpus et référencement on-page

Interpellé lors du dernier SEO-CAMP DAY de Bayonne par Laurent sur cette question des corpus, je rebondis aujourd’hui sur cette notion qui semble parfois méconnue et, dans tous les cas, très largement sous-utilisée en référencement.

Cette notion est-elle compliquée à comprendre ?

Non, ce n’est pas compliqué. Pas de maths dans ce billet, même pas de graphes, c’est dire (pourtant, le sujet s’y prête) !

Par contre, vous serez peut-être surpris, si vous utilisez ensuite la méthode donnée, des résultats que l’on peut obtenir en référencement…

Comme le plus souvent sur ce blog, j’essaye de faire du neuf ou du rare. Donc, si les notions abordées ici vous semblent venir d’un « autre univers », sachez que c’est normal. Pour autant, encore une fois, c’est simple à comprendre et à utiliser.

1) Qu’est-ce qu’un corpus ?

Derrière ce terme curieux peuvent se cacher plusieurs significations différentes selon la matière. Ces significations peuvent être voisines, mais elles se distinguent par leur application.

Je vais donc vous donner le sens dans lequel j’utilise ce terme afin de lever toute ambiguïté dès le départ.

Un corpus permet de faire une classification de documents. Toute classification est arbitraire, c’est un choix que l’on fait pour pouvoir « faire du rangement » dans des documents. On peut choisir plusieurs façons de faire ce rangement.

Votre bibliothèque de musique peut être classée dans des listes par interprète, par style, par compositeur, par lettre alphabétique, c’est votre choix à vous : vous faites ce que vous voulez.

En développement objet, une classe est un corpus qui regroupe les objets instanciés, mais une liste ou un tableau aussi. Idem pour une énumération (par extension).

Abordons des exemples de la vie courante, pour que tout le monde comprenne bien.

Prenons des pages sur le web, par exemple, des recettes de cuisine. On peut décider (c’est arbitraire) que l’ensemble des recettes de cuisine sur le web forme un ensemble de pages puisqu’elles ont en commun le même sujet dont elles traitent.

Mais on peut aussi, dans ces recettes, avoir l’ensemble des recettes qui traitent des desserts. Dans l’ensemble des recettes de dessert, on peut aussi avoir les recettes de gâteaux.

Dans ces exemples, chaque corpus comprend d’autres corpus. Mais ce n’est pas forcément le cas. Par exemple, l’ensemble des pages web en français, toutes thématiques confondues, forme un corpus qui ne parle pas forcément de recettes de cuisine…

En fait, la classification des documents va être déterminée par vos besoins. Il faut noter toutefois qu’un corpus n’est pas forcément une thématique… exemple : on peut classifier les documents qui sont écrits en français, mais aller dire que c’est une thématique est faux (si on se rapporte au sens courant du mot « thématique »).

2) Quel est le rapport avec le référencement ?

Quand un internaute cherche sur le web, même s’il va le faire par un mot-clé précis, il recherche un ensemble de pages qui va correspondre à ce mot-clé, mais dans un sens précis.

Par exemple, il tape « meuble en chêne ».
OK, mais il cherche quoi en tapant ce mot-clé ?
L’histoire des meubles en chêne ? Une notice de montage ? Un magasin de meubles ? Un produit d’entretien pour ces meubles ?

Ce que l’internaute recherche, sans l’exprimer, est dans un corpus précis de pages, celles qui contiennent son mot-clé. Il tape ce mot-clé avec un objectif précis.

S’il recherche un bon magasin de meubles, il ne veut pas que Google lui ramène des documents qui s’écartent du sens dans lequel il utilise ce mot-clé.

Pour ce faire, notre ami de toujours a procédé à diverses classifications des pages. Chaque page est rattachée à 1 ou plusieurs corpus (c’est rarement 1 seul). Ces corpus doivent répondre à différents types de demande.

L’idée, dans notre cas, va donc être de faciliter la compréhension du moteur et de lui mettre sous le nez le corpus qui nous intéresse le plus : le corpus qui représente l’intention de l’internaute que l’on veut toucher.

En résumé, je dirai que l’adhésion à un corpus donne la pertinence dont votre page a besoin pour être la page idéale que recherche Google dans un contexte donné de recherche.

3) Comment les moteurs font-ils pour reconnaître le corpus désiré par l’internaute

Les moyens utilisés, à ce jour, sont dans les non-dits de l’internaute.

Par exemple, le moteur va regarder dans vos recherches précédentes, ce que vous cherchez au juste, ce que vous avez zappé. Il va aussi se servir de choses moins avouables, telles que vos informations Google +.

Les moyens utilisés sont assez nombreux, mais ne sont pas parfaits. Ils permettent toutefois de changer les SERP en fonction de l’internaute.

Reconnaître l’intention de l’internaute a ses limites et on ne peut pas trop agir, nous, dessus…
Par contre, on peut faire en sorte que, déjà, votre page soit rattachée à un corpus précis, celui que l’on veut, pas celui qui a été trouvé par Google parce que votre page a seulement une description trop neutre pour être rattachée à quoi que ce soit de précis.

Une des raisons pour laquelle Google zappe les pages trop courtes est le fait que même avec des mots-clés, il ne sait pas trop à quel corpus le document appartient.

C’est pour cette raison que la mise en avant par Laurent Bourrelly du cocon sémantique est si importante : elle donne des billes à Google bien au-delà de ce que vous pouvez imaginer… Avec un cocon bien foutu, on peut l’amener à faire rattacher la page au(x) corpus choisi(s) par nous et non pas par lui.
 
Vous pouvez tout aussi bien l’informer que le leurrer…
Vous pouvez lui faire croire par exemple qu’il est sur une encyclopédie alors qu’en fait, il est sur une centrale de réservation… Ou au contraire, vous avez besoin qu’il vous identifie effectivement comme centrale de réservation. (C’est une question d’objectif marketing et de connaissance du référencement.)
 
Ceux qui ne savent pas ce que sont les cocons sémantiques n’avaient qu’à assister au VLC2013. Merci à RaphSEO, au passage pour ces super conférences.

Mais comment aider les moteurs à comprendre ? Que l’on utilise, ou pas, les cocons sémantiques, il faut apporter dans chaque page d’atterrissage cette connaissance du corpus au moteur.

4) Quelle méthode utiliser pour aider le moteur à comprendre à quel corpus appartient votre page

C’est là que cela devient drôle 😉
Je vous laisserai ensuite méditer, commenter, échanger.
 Je vous donne le début, ensuite, débrouillez-vous en vous servant de votre tête.

Rassurez-vous, je vais quand même vous aider ! Bon, allez, j’arrête de vous taquiner.

Vous pouvez quelque peu modifier cette méthode à votre gré.
  1. Partez d’un navigateur sans cookies, sans historique et déconnectez-vous de l’espion G+.
  2. Tapez dans Google le mot-clé sur lequel vous voulez vous positionner.
  3. Normalement, Google va vous proposer un éventail de pages qui lui semblent les plus pertinentes sans connaissance de vos désirs, avec, souvent, une ventilation des différents corpus possibles.
  4. En partant du meilleur résultat, prenez les 2 ou 3 premières pages qui répondent EXACTEMENT au corpus désiré, MAIS qui ne reçoivent AUCUN lien (c’est important).
  5. Dans les textes de ces 2 ou 3 pages, exactement dans la cible, récupérez les mots signifiants, ceux qui ne pourraient pas être utilisés dans un autre contexte que celui de votre corpus (ce peut-être des verbes, des noms, des adjectifs, des symboles aussi). Tenez compte aussi des balises TITLE.
  6. Faites vos pages avec un texte 100 % original, mais qui utilisent exactement les mêmes termes et verbes que vous avez sentis comme rattachés au corpus. N’hésitez pas à être généreux en quantité de texte.
  7. Ne faites surtout pas de keywords stuffing. Ici, ce sera repéré très vite !
  8. Réfléchissez à deux fois si vous devez passer par des synonymes des mots identifiés comme faisant partie du corpus désiré.
Variante : vous pouvez naviguer entre les sites et Google jusqu’à tant que Google capte le corpus désiré et ne vous propose que des pages pertinentes. Vous avez alors les meilleures pages de ce corpus dans les SERP. Là, aussi, ignorez les pages recevant des liens, car vous ne saurez pas si elles sont positionnées grâce à ceux-ci ou grâce à leur pertinence intrinsèque.

Si vous vous attachez à donner à Google des billes pour vous intégrer à un corpus précis, quand l’internaute cherchera des pages dans ce corpus, vous aurez toutes les chances d’être identifié par Google comme particulièrement pertinent, à Netlinking identique.

5) Conclusion

Vous pensez peut-être que c’est lourd à gérer… pas forcément quand on voit le gain en terme de pertinence…
En outre, il est indispensable, sans spammer, sans faire des tonnes de liens, d’être compris par Google.

Peut-être que lorsque vous relèverez vos positions, sans cookies, vous ne verrez aucune différence de positionnement, mais les internautes ont, eux, des cookies… et ceux que vous voulez cibler vous trouveront plus facilement.

Amusez-vous bien 😉
 
N’hésitez pas à nous contacter si vous avez besoin d’un audit de référencement.

Mots-clefs :

Commentaires (83)

  • Avatar

    Laurent Bourrelly

    |

    Thx pour la mention 🙂
    Mon histoire de cocon sémantique vient également s’encadrer dans le concept du PageRank Sémantique, pour ceux qui ont suivi les SEO Masterclass.
    En tout cas, ton explication est limpide. C’est une notion essentielle à comprendre pour commencer à capter la modélisation du langage.

    Reply

    • Avatar

      Christian Méline

      |

      Ah, le PageRank sémantique (ou jus sémantique) : miam 😉

      Reply

    • Avatar

      Jerome pasquelin

      |

      A la masterclass des Frères Peyronnet (sur Paris) ils illustraient justement cette notion de cocon sémantique avec la mot v1agra : Google arrive fait la différence (entre autre grâce à la sémantique) entre 1 site médical qui parle du produit comme médicament et 1 site pur business. L’intérêt c’est de maitriser ça afin de se placer dans le corpus qui rapporte le plus 😉

      Reply

      • Avatar

        Christian Méline

        |

        Il faut que je finisse par y aller aux masterclass de 2 frangins 😉

        Reply

        • Avatar

          Jerome pasquelin

          |

          Prends du doliprane lol

          Reply

          • Avatar

            Christian Méline

            |

            Pour eux ? 😉

            Reply

          • Avatar

            Jérome pasquelin

            |

            Je me demande qui de vous 3 peut faire le plus mal au crâne ^^

            Reply

  • Avatar

    Vince

    |

    Très bon billet, il m’arrive souvent de tourner en rond pour la rédaction.
    Ici tu ouvres des portes, d’ailleurs ça me donne envie d’écrire et mettre en pratique tes conseils appliqués aux recommandations de Laurent B.

    Reply

    • Avatar

      Christian Méline

      |

      Par contre, il ne faut pas truander le gentil Google, il faut juste l’aider à comprendre de quoi on parle 😉

      Reply

  • Avatar

    Vince

    |

    Ben non Monsieur moi je voulais pas écrire pour le moteur de recherche mais je voulais simplement servir un texte à l’internaute pour répondre à sa question, d’ailleurs il pourra même s’il le veut, l’internaute, aller passer un peu de temps sur les autres pages que j’aurais optimisées heuu pardon écrites avec amour pour lui et puis peut être que bercé par mes mots il atterrira sur une page ou je voulais qu’il vienne 😉
    Ou alors si GG est gentil il l’enverra directement sur cette page mais sinon moi je veux juste écrire pour l’internaute..

    Reply

  • Avatar

    Vince

    |

    Si on y réfléchi, ton approche remplace en quelque sorte les outils de recherche de mots clés connexes non ?

    Reply

    • Avatar

      Christian Méline

      |

      Ici, ce n’est pas un ou plusieurs mots connexes que l’on cherche, mais quels mots, pris ensemble, permettent à Google de comprendre exactement ton propos.
      Si tu ajoutes trop de mots connexes par exemple (et pas forcément les bons), Google ne va plus forcément identifier le corpus visé… et peux te classer dans autre chose 🙁
      Il faut viser juste, c’est pourquoi se baser sur ce qu’il a compris est une bonne base 😉

      Reply

  • Avatar

    Roger Guévremont

    |

    J’avoue que c’est la 1ère fois que j’entends parler de cette notion et, ma foi, ça semble tout à fait logique.

    Oui, c’est de l’ouvrage supplémentaire, mais pour certains domaines très concurrentiels, je crois que le jeu en vaut la chandelle.

    Reply

  • Avatar

    Cyril KUHM

    |

    Comme Roger, je n’avais jamais entendu parler de cette notion, même si je l’ai déjà appliquée (grosso modo) sans en connaître le nom.

    Je n’ai pas encore participé à une MasterClass SEO mais c’est pour bientôt (à Strasbourg : http://www.peyronnet.eu/blog/ ) et j’espère en apprendre davantage sur le Pagerank sémantique.

    En tout cas, ça ouvre de belles perspectives !

    Reply

  • Avatar

    Aubin

    |

    Je n’ai pas bien saisi “MAIS qui ne reçoivent AUCUN lien”. Il s’agit de checker chaque résultat retourné ? La plupart auront toujours des liens, non ?

    Reply

    • Avatar

      Christian Méline

      |

      Non, l’immense majorité des pages disponibles dans les SERP n’ont aucun lien.
      Même si dans un site, on va cibler, par exemple, une dizaine de pages en NetLinking, cela veut dire qu’il en a souvent toutes les autres pages ne recevront pas de lien.
      Il y a aussi de très nombreux sites qui ne reçoivent vraiment rien de rien comme lien, ou seulement sur la home.
      Par contre, comme dit précédemment, il n’y en a pas forcément beaucoup en première page, il faut donc dérouler le classement.

      Reply

      • Avatar

        Mathieu JANIN

        |

        Oui, mais du coup, même si c’est une page ne recevant pas de liens, elle peut être positionnée par le jus transmis par le maillage, et le contexte sémantique ne joue alors plus un rôle si crucial dans son positionnement. Ce n’est donc pas les urls qui ne recoivent pas de lien, mais les urls dont le domaine ne recoit pas de lien qu’il vaut mieux retenir.
        Sinon, c’est un peu le boulot que fait (faisait ?) automatiquement GnoZtik, ce travail de recherche des cooccurences.

        Reply

        • Avatar

          Christian Méline

          |

          Oui, mais là, ce n’est pas une recherche de cooccurrences que l’on va faire.
          On va rechercher des « sets » de mots qui ne seront pas forcément des cooccurrences…

          Reply

  • Avatar

    Loiseau2nuit @ SEO Angers

    |

    Christian ca devient vexant, à chaque fois que je crois tenir une idée top pour un de mes prochains billets, tu me coiffes au poteau xD

    (tant pis, j’ai une autre idée en cours de rédaction 😛 )

    En revanche, j’ai beau savoir que ca n’est pas impossible, néanmoins, en page 1 des SERPs il est tout de même extrêmement compliqué de trouver des pages qui reçoivent zéro lien, non ? A moins d’être sur une requète hyper spécifique, laquelle ne représenterait donc pas de complication particulière pour se positionner, la plupart du temps sur des expressions concurentielles, me semble que ces pages sans lien se trouvent un peu au finfond de la 100ème page. Sauf à ce qu’un détail m’ait échappé ?

    Reply

    • Avatar

      Christian Méline

      |

      En page 1, cela devient effectivement de plus en plus dur, mais il en a 100 pages par requêtes, donc, pas de soucis 😉

      Reply

  • Avatar

    Frédéric

    |

    Merci Christian pour cet article. Je le dis, je le répète à mes clients.. Rédigez sur vos pages ! J’essaye de leur faire comprendre qu’une bouse sans contenu thématisé ne peut se positionner dans Google sur les mots-clés visés, qu’il faut d’abord rendre “légitime” un site web avant (ou en parralèle suivant l’avancement) de commencer les opérations de netlinking !

    Reply

  • Avatar

    Adrien

    |

    Merci pour ce très bon article qui, en plus d’informer, pousse à réfléchir et à aller voir plus loin le référencement sur Google… C’est vrai qu’il faudra souvent aller voir plus loin que la première page de résultat pour trouver des pages sans liens (surtout pour des requêtes très concurrentielles) mais le jeu en vaut certainement la chandelle !

    Reply

  • Avatar

    Caro

    |

    Article utile et original, merci :). Juste une petite question : as-tu déjà mis en place cette technique (même si je suppose que oui^^), si oui il y a combien de temps et en combien de temps as-tu vu des résultats ?

    Reply

    • Avatar

      Christian Méline

      |

      Cette « technique » fonctionne particulièrement bien depuis que la recherche personnalisée existe.
      Les corpus sont la base en GED (gestion électronique de documents).

      Reply

      • Avatar

        elodie

        |

        ça ne répond pas à sa question 😉

        Reply

  • Avatar

    Florian

    |

    Franchement pas mal comme article, très original en tout cas, il ne manque pour ma part qu’un exemple pour bien expliquer ta théorie car c’est un peu tordu 😉

    Reply

  • Avatar

    Stéphane

    |

    Le concept est excellent. Mais cela ressemble à un travail de fourmis de trouver les pages sans liens. A partir de quel outil on le détermine, tu les passes un par un dans OSE ou tu fais confiance aux infos donnés par la barre SEOquake ?

    Reply

    • Avatar

      Christian Méline

      |

      Pour savoir s’il y a des liens, je fais un Bulk avec MajesticSEO (sur une liste de page).
      Du coup, en même temps, je récupère le jus qu’à reçu la page par le maillage du site et de mieux interpréter ce que j’ai sous les yeux.

      Reply

  • Avatar

    Adifco

    |

    Bonjour,
    je découvre là un usage original et intelligent de la sémantique et qui ne comporte aucune sorte de tricherie : ça fait plaisir !
    Merci Christian pour le partage et aux autres pour les commentaires. Bravo !

    Reply

  • Avatar

    Manal

    |

    Intéressant ! ça donne envie d’essayer l’astuce pour voir ce que cela donnerait. Merci 😉

    Reply

  • Avatar

    Awa Ref

    |

    Je plussoie pour cet article bien expliqué! Peut-être qu’il faut davantage que les référenceurs en parlent pour que la communauté puisse maitriser cette notion importante d’améliorer le référencement. Et tout cela montre que le contenu est ROI. Vive la seo-littérature!

    Reply

  • Avatar

    Thibaut

    |

    Ayé, le Panda est réveillé depuis le SEO Camp de Bayonne, chouette 🙂

    J’avais deux minutes à tuer alors j’en ai profité pour lire ce petit tutorial. Sympathique, notamment avec en cumulant avec les notions de Laurent.

    J’ai d’ailleurs l’impression qu’on en revient à ce qu’il disait, ce critère de pertinence. Il va falloir que je m’y penche sérieusement 🙂

    Reply

  • Avatar

    AWR

    |

    Merci Christian pour tes explications. J’avais entendu parlé de corpus mais n’avait pas beaucoup d’info.

    La seule chose que je ne comprends pas dans ton explications c’est la phrase “En partant du meilleur résultat, prenez les 2 ou 3 premières pages qui répondent EXACTEMENT au corpus désiré”.

    – Qu’entends-tu par “meilleur résultat?” La 1ère position ou le résultat qui nous semble être le plus pertinent par rapport à notre requête ?
    – Aussi, qu’entends-tu par “pages qui répondent EXACTEMENT au corpus désiré”. Les pages qui contiennent dans leur la requête que j’ai tapée en exact?

    Reply

    • Avatar

      Christian Méline

      |

      en fait les pages qui doivent te servir de base doivent être :
      parmi les mieux positionnées dans les SERP, celles qui ne reçoivent aucun lien ET qui répondent exactement au contexte sous-entendu de la recherche

      Reply

  • Avatar

    Media*A

    |

    Excellent! cela ouvre effectivement pas mal de porte pour les idées de rédaction d’articles… et cela explique mieux effectivement la raison pour laquelle Google s’obstine parfois à vous faire sortir dans un corpus qui n’est pas le vôtre… (même si parfois cela a son avantage et permet de sortir 1er sur une occurrence moins fréquente)

    Reply

  • Avatar

    Mahary@Seo offshore.com

    |

    C’est en effet très intéressant et c’est a mettre en commun avec la conf de Laurent B sur le cocon sémantique du VLC ! vive le white hat 🙂

    Reply

  • Avatar

    Adifco

    |

    @Agence @Christian la toolbar de Moz le fait même en version gratuite :). Elle ajoute un petit bout d’info à chaque snippet.

    Reply

    • Avatar

      Christian Méline

      |

      Oui, avec quelle fiabilité sur les sites français ?
      C’est un peu le problème de Moz, c’est très anglo-saxon, même openSiteExplorer est à la ramasse sur les sites français 😉

      Reply

      • Avatar

        Adifco

        |

        Certes aucune fiabilité. Mais cela permet au moins de se faire rapidement une idée des volumes de liens.

        Sinon, je me demandais s’il n’aurait sur schema.org, quelque propriété qui pourrait être utile pour aider à définir le corpus ?

        Reply

        • Avatar

          Christian Méline

          |

          Par définition, il n’y en a pas…

          Reply

  • Avatar

    Agence de référencement

    |

    Très intéressant, je n’avais pas pensé à aller checker les pages qui remontent sans recevoir aucun backlinks. Connaissez-vous un plugin permettant de repérer les pages qui ne reçoivent pas de lien, directement depuis les SERP ?

    Reply

    • Avatar

      Christian Méline

      |

      Peut-être l’extension FF et Chrome de MajesticSEO ?

      Reply

      • Avatar

        Agence de référencement

        |

        Très bonne idée, mais cela fonctionne uniquement avec la version payante :S “Pour utiliser ‘Majestic SEO Firefox Addon’, vous devrez prendre un abonnement. Nous vous invitons à consulter la page récapitulant nos différentes formules d’abonnement.”

        Reply

  • Avatar

    Yann@Promoteur

    |

    C’est très bien, sauf que quand GG a décidé de rétrograder manuellement une page qui ne triche en rien sur son contenu, simplement à cause de liens jugés sur-optimisés, corpus ou pas, il n’y a plus rien à faire.

    Cette méthode s’applique donc amha pour un nouveau site, et quand connait l’attention particulière avec laquelle les nouveaux sites sont surveillés du côté de GG…

    Reply

    • Avatar

      Christian Méline

      |

      Cette méthode s’applique à tous les sites dès qu’ils n’ont pas reçu de sanction.

      Reply

  • Avatar

    JB

    |

    Bonjour,
    Très intéressant.
    Une question. Une page qui ne reçoit aucun backlink et se retrouve en page 4 sur une requête donnée. Peut-on considérer qu’elle est performante et que son contenu joue en faveur de son positionnement (qui est du coup relativement mauvais) ?

    Reply

    • Avatar

      Christian Méline

      |

      C’est selon.
      Le contenu, tout en étant médiocre, peut contenir le groupe de mots que GG a identifié.
      Après, c’est une question de concurrence, certaines requêtes ne donnent que peu de résultats et GG se croit parfois obligé aujourd’hui de mettre quand même 100 pages de résultats absurdes.
      Comme toujours, il faut regarder cela au coin du bon sens.

      Reply

  • Avatar

    Xavier

    |

    Ouah tu viens clairement de me bluffer avec un tel article, en effet Sylvain a raison quand il parle du meilleur article de contenu. C’est un bel exemple de ce qu’il faut être capable de faire, à la fois pour le moteur et le visiteur, ce qui permettra aussi au site d’être plus crédible. Je vais me faire un plaisir de tester ta combine

    Reply

  • Avatar

    Marc

    |

    Et pour éviter d’avoir à nettoyer le cache et les cookies du navigateur, on utilise Epic Privacy Browser, merveilleux navigateur pro du silence basé sur chromium.

    Reply

  • Avatar

    Laurent@Changer de site

    |

    La lecture de ce billet – que comme Xavier je découvre suite à une mention de Sylvain, je l’avais raté celui-là – me ramène à une question :
    Quelle est la façon à la fois la plus rapide et la plus fiable pour s’assurer qu’un site n’a jamais subi la moindre forme de sanction de la part de Google ? Comprendre : qu’il n’a jamais allumé un voyant rouge chez eux.
    Sinon, les explications données sont vraiment très claires. Je pense qu’intuitivement on est nombreux à avoir utilisé au moins par moments ce genre de “techniques”, sans pour autant l’avoir formalisé. Donc je dis “chapeau” !

    Reply

    • Avatar

      Christian Méline

      |

      Pour savoir si un site a été sanctionné, on peut parfois en avoir des soupçons en regardant le trafic par semrush (ou autre) sur 24 mois, mais bon, ce n’est pas fiable à 100 %… tu peux aussi regarder son historique de PR, parfois, ça donne des pistes.

      Reply

  • Avatar

    liz

    |

    Merci pour cet article intéressant !

    A mon avis, cela coince quand même sur des thématiques très concurrentielles,
    où tous les sites des 3 premières pages semblent recevoir des liens.
    Prenons par exemple, la requête “bracelet homme”

    Je ne suis pas sure d’avoir compris toutes les subtilités de ta méthode;
    mais peut-on dire que Google ventilerait ses corpus,
    par niveau de prix / de gamme ?

    On s’aperçoit que sur cette requête, se mêlent :
    – un grand nombre de boutiques de luxe qui ont pignon sur rue,
    – des bijouterie (vendant de l’or et des metaux precieux),
    – des boutiques généralistes pureplayer ( type amazon, rue du commerce),
    – et quelques boutiques fantaisie, (p-etre assimilées à “bijoux pas cher”?)

    Peut-on parler de différents corpus ? Un classement selon les types de cames vendues ?
    Ici tous ces sites sont marchands, on ne trouve aucun site d’information par exemple.

    Dans ce cas précis, il me semble difficile de détrôner une grande marque, ou un site comme amazon.

    Si jamais tu trouvais le temps de nous donner un exemple ( sans forcement aller au bout des choses) ce serait top (et p-etre trop demander sorry ;-))

    en tout cas, grand merci, cela fait plaisir d’avoir un point de vue frais et réfléchi sur le sujet

    Reply

    • Avatar

      Christian Méline

      |

      Il faut savoir tourner les pages des SERPS, c’est sûr, mais pour le coup, on trouve des choses très intéressantes quand on creuse… petit complément sur ce que l’on cherche dans le billet sur les empreintes ; billet qui va arriver…

      En pratique, il faut trouver la première des pages web qui répond le mieux à ce que l’on a à proposer ET qui ne reçoit pas de lien. Bien sûr, il faut aussi distinguer si c’est l’autorité du site, qui comprend la page, qui a provoqué le placement de ladite page dans les SERPS. Mais on est sensé avoir du flair, non ?

      Une fois que l’on a cette page, il faut alors trouver ce que Google a trouvé de bien dans son contenu. Cela NE PEUT PAS ÊTRE dans les mots utilisés partout. Donc, il faut faire l’inventaire des mots de cette page et tirer les conclusions…

      Les corpus sont implémentés depuis plusieurs années, et peu à peu, prennent le pas sur les seuls mots-clés.
      La recherche personnalisée intègre ceux-ci au point de transformer le PageRank « global et neutre » en une multitude de PageRank selon les thèmes et corpus.

      Laurent Bourrelly appelle cela le PageRank sémantique.
      Sylvain Peyronnet appelle cela le PageRank thématique et en a constaté l’existence réelle dans ses recherches.

      Pour ma part, je le nomme différemment, mais cela n’a pas d’importance, car il existe bel et bien et est l’avenir du référencement (même le Netlinking doit également intégrer cette dimension).

      Note : Ça marche très très bien sur les thématiques concurrentielles, justement, et c’est même là que c’est le plus intéressant 😉

      Reply

  • Avatar

    liz

    |

    Merci Christian pour cette réponse,
    je vais effectivement, “tourner les pages des SERP” alors…
    au plaisir de te lire

    Reply

  • Avatar

    Olivier de ocweb

    |

    Bonjour,
    Super article ! D’où l’importance également de bien baliser le parcours visiteur une fois arrivé sur le site …
    Je découvre ton site j’en profite pour le rajouter dans mes favoris 😉
    Olivier

    Reply

  • Avatar

    light on seo

    |

    Bravo Christian !

    les scientifiques de la ri mieux que les seo ont le bon vocabulaire, ce que tu décris comme corpus, un jour je l’aurai appelé corpus un autre champ sémantique.

    j’aime beaucoup ta façon d’intégrer la notion d’intention de la requête dans la détection du corpus idéal. c’est pas un exercice facile, et tu es bien placé pour savoir que sur de très nombreuses requêtes, google lui même ne sachant pas ou danser avec l’intent de l’utilisateur, propose des pages correspondant à des intentions différentes (achat, information) et donc, d’après ta définition à des corpus différents. dans ce cas te figure ne risque tu pas, dans ta recherches d’expressions significatives pour le moteur de recherche, de mélanger les genres ?

    dernier point je comprends parfaitement pourquoi tu insistes sur le no backlinks, et le besoin d’utiliser uniquement la qualité intrinsèque des pages pour ta recherche, en revanche je n’y crois pas, car une page reçoit au moins des liens internes et du crédit accordé au nom de domaine, c’est pourquoi je me demande s’il n’est pas préférable de supprimer le filtre no backlinks, d’autant plus que google apprend les corpus grâce aux pages web et qui sait si dans son système de machine learning il ne donne pas plus de crédibilité aux sites populaires. En gros je préférerai me contenter de checker par exemple le contenu des 10 ou 20 pages web, privées de leur stop words et autres expressions non significatives… mais sans trop me soucier de la présence de backlinks.

    Reply

    • Avatar

      Christian Méline

      |

      En fait, je n’ai pas dit que l’on n’aurait pas besoin de lien pour se positionner, j’ai juste dit qu’en ne regardant que les pages sans lien, cela aiderait à la détection des pages dont le résultat dans les SERP est non faussé par les backlinks sur ancre exacte… c’est tout ce que je dis 😉
      Le fait qu’une page soit sur un site d’autorité est presque secondaire, car aucun lien avec ancre exacte n’est venu fausser le sens de la page… c’est en ce sens que la recherche de pages sans BL a de l’intérêt.

      Reply

  • Avatar

    light on seo

    |

    attends il y a une petite incompréhension de ta part. je te cite «je n’ai pas dit que l’on n’aurait pas besoin de lien pour se positionner»

    euh, je ne t’ai jamais accusé de l’avoir dit 😉

    j’ai parfaitement compris pourquoi tu préfères analyser les pages n’ayant pas de backlinks, c’est par ce que tu cherches à analyser les pages positionnées avant tout pour leur qualité intrinsèque (pour ne pas fausser ton «analyse de corpus»).. je me trompe ?… tu vois que je suis 🙂

    et justement je te disais moi que ta méthode est imparfaite puisque même si la page n’a pas de bl, elle a des liens internes et de la popularité provenant de l’ensemble du domaine, par conséquent tu n’a jamais la garantie, même pour une page sans backlinks, que son positionnement soit dû uniquement à ses qualités intrinsèques. de la en découle que ta précaution de prendre uniquement les pages n’ayant pas de backlinks, ne sert pas tes objectifs et que finalement il vaut peut peut être mieux ne pas prendre en compte ce critère de backlinks. est ce que je me suis mieux expliqué ?

    Reply

  • Avatar

    light on seo

    |

    google n’a pas besoin d ancre optimisées, la présence de coocurences suffit parfois a positionner une page sur un terme qu’elle ne contient pas. rand fishkin parlait de cocitations avant de se faire rappeler a l’ordre par bill slawsky.

    j’ai l’impression de critiquer ton article alors que je le trouve génial, Mais encore une fois et ca n’engage que moi, c’est avec ton filtre de précautions que je ne suis pas d’accord. évidemment si tu constate un Google bombing ancre exacte sur la page, normal tu la disqualifie, sinon je vois pas pourquoi… mais bon ce n’est que mon point de vue?

    Reply

    • Avatar

      Christian Méline

      |

      Y’a pas de soucis, t’en fais pas.
      L’expérience montre que la méthode, celle où on retire les pages avec BL, fonctionne mieux.

      Reply

  • Avatar

    light on seo

    |

    ok c’est noté, encore bravo pour ce superbe article !

    Reply

    • Avatar

      Christian Méline

      |

      Merci 🙂

      Reply

  • Avatar

    Anais

    |

    ça fait des années que sur les forums seo j’entends certains rabâcher que “le contenu est roi”, pingouin et compagnie semble de plus en plus donner raison à cette maxime…

    Reply

  • Avatar

    François

    |

    Hello,
    merci pour ce pédagogique article 🙂 c’est intéressant et une nouvelle fois ça confirme toujours la même chose : le contenu de qualité est la clé.

    Reply

  • Avatar

    Christophe Maggi

    |

    Hello,
    Je suis surpris de voir la réaction de certains dans les commentaires. Personne n’a entendu parler durant ses études (cours de français) des champs lexicaux et des champs sémantiques ? Ce que Christian appelle un corpus sémantique n’est autre qu’un champ sémantique. Et un bon contenu doit respecter un champ lexical… C’est la base de la linguistique et de la rédaction.

    Reply

    • Avatar

      Christian Méline

      |

      Il peut y avoir correspondance entre corpus et champ sémantique, mais pas dans tous les cas…

      Reply

  • Avatar

    Aurélien

    |

    Une fois que l’on a fini de lire ce tuto ça parait certes évident mais c’est toujours important de rappeler ce qui est la base même du SEO. Par contre j’ai du mal à comprendre comment un symbole peu influer sur la pertinence d’un contenu, tu aurais un exemple Christian ? Merci.

    @Laurent Bourelly, à quand ton podcast sur le cocon sémantique ? Je n’en peu plus d’attendre ! lol

    Reply

    • Avatar

      Christian Méline

      |

      Pour les symboles, cela dépend du sujet.
      Sans doute s’attend-on à trouver quelques symboles monétaires dans une page qui parle de bourse, ou de symboles mathématiques dans une thèse scientifique… Certains symboles sont fortement pondérant.

      Note : On pourrait aussi s’attendre à trouver certains types de photos si une page qui parle de couchés de soleil…

      Reply

  • Avatar

    Aurélien

    |

    Ok je comprends mieux, ça parait logique d’ailleurs, merci pour ta réactivité et ce complément d’information.

    Reply

  • Avatar

    Aurélien@Référencement strasbourg

    |

    Bonjour. Intéressant ton article.

    Finalement cette notion de corpus est analogue à celle qu’on appelle plus classiquement, celle de champ lexical. En gros, selon le champ lexical qu’on retrouve dans un texte et l’appartenance de tel ou tel terme à tel champ, le moteur détermine la pertinence d’un résultat par rapport à un autre.

    Reply

    • Avatar

      Christian Méline

      |

      Non, pas tout-à-fait justement… lis les commentaires, ils font partie du billet 😉

      Reply

  • Avatar

    Marc Longo

    |

    Intéressant billet qui reflète le “sentiment” de l’amateur SEO que je suis et que j’ai mis en pratique sans savoir le nommer. Un annuaire comme le miens, avec 1000 catégories et 36 000 communes n’a forcément que très peu de pages avec des liens externes, une dizaine au mieux sur environ 5 millions de pages.

    L’Annuaire Français par département, en 1996, c’était un équivalent des pages jaunes (pas sur le net a cet époque) mais sur le web, on cliquait sur un département puis une rubrique comme l’on avait l’habitude de le faire avec la version papier.

    Google ayant mélangé récemment tous nos sous-domaines , je ne sais pour quelle raison, les pages de Marseille se retrouvent dans le 18 (Cher) etc etc, je craque au bout de 6 mois et décide de restructurer à nouveau, en date du 11 Novembre.

    Et j’ai tenu compte du “CORPUS” sans le connaitre, si j’ai bien compris, avec la reflexion suivante :
    Mon arborescence était structurée de la manière suivante :
    Département | Rubrique | ville
    01-ain | avocat | Marseille (pour google, mon Marseille est dans le 01 … 🙂 ))
    hors, l’internaute lui tape essentiellement la requete suivante :
    “avocat marseille 13” (le 13 dans le meilleur des cas) , ou “Avocat marseille”.

    L’ordre des mots dans ma structure interne n’était pas respecté, et il est possible que ce soit négatif, ou moins profitable que d’avoir une structure “dans l’ordre des mots tapé”. Les liens internes eux correspondent a l’ordre normal et sont largement diversifiés.

    J’ai donc lancé le test, qui résous mon problème de mélange des pages villes par Google (mais qui étaient dans la bonne rubrique), en créant 1000 sous domaines, un par rubrique, et correspond mieux au “corpus” de la requete , ex :
    Rubrique | département |
    Rubrique | ville |
    avocat.annuairefrancais.fr/69-rhone-dept/
    avocat.annuairefrancais.fr/lyon/
    à la place de 69-rhone.annuairefrancais.fr/avocat/lyon.html

    Avec une redirection de toutes les pages anciennes rubrique vers la rubrique en sous domaine, j’élimine le mélange des villes par Google en restant sur la même rubrique, et je rentre mieux dans l’ordre de la requête de l’internaute.
    Le seul risque, c’est la suroptimisation, a suivre …

    C’est de toute manière la dernière modif SEO que je fais puisque pour échapper a la dépendance de Google, je travaille sur mon propre moteur … c’est dis …

    Reply

  • Avatar

    Achraf@AS SEO

    |

    Je trouve que ca fait partie de l’avenir des recherches sur Google, en effet, il ne faut pas négliger les utilisateurs des smartphones et des tablettes qui sont toujours connectés à leurs comptes g+

    Reply

  • Avatar

    sebastien@redaction de contenu

    |

    CHRISTIAN,

    cet article apporte un argument supplémentaire à la méthode que j’utilise : CQQCOQP.

    L’idée est bonne et complémentaire à la mienne … Par contre j’ai peur que le travail à faire est trop lourd … je ferai des essais sur les prochains études de cas …

    Merci en tout cas, une méthode à laquelle je n’aurai pas pense tout seul !

    SEBASTIEN

    Reply

  • Avatar

    Emilie

    |

    La méthode qui consiste à comprendre comment les moteurs interprètent les corpus de notre page clarifie bien le concept. Toutefois un backlink sur une page (PR0) sémantiquement très pertinente aux yeux de google aurait il pour autant, autant de poids voir même plus qu’une autre page avec un gros PR ou gros trust flow ? J’espère avoir été claire…

    Reply

    • Avatar

      Christian Méline

      |

      La valeur indiquée dans la ToolBar n’a pas de vrai sens dès que l’on parle de sémantique.

      Par contre, le PR thématique va pleinement jouer son jeu ici, donc, tout dépend des valeurs respectives de ceux-ci sur chacun des deux sites liants.
      Ça, c’est pour le jus, celui qui sert à monter dans les SERP sur certaines expressions thématiques.

      Sinon, un gros pageRank a des « chances » d’avoir aussi de l’autorité. Si c’est le cas, même si cela n’affecte pas directement le positionnement, c’est intéressant dans le temps pour l’avenir du site…

      Reply

  • Cocons sémantiques et SEO

    |

    […] le développerai pas. Méthode réellement sémantique : Vous vous rappelez du billet sur les corpus ? Nous cherchons à positionner une page dans un contexte de personnalisation de la recherche […]

    Reply

  • Avatar

    Antoine

    |

    Salut Christian,

    Super ton article, pour une fois on va plus loin que “rédigez du contenu de qualité”.
    Petite question pour savoir si je vais dans la bonne voie : après avoir identifié les résultats qui “matchent” le corpus désiré, si j’applique une recette à base de co-occurences et de tf-idf, je suis sur la bonne voie ?

    Merci.

    Reply

    • Avatar

      Christian Méline

      |

      Salut Antoine,

      co-occurences pas toujours
      tf-idf, si existant, peut-être…

      Le mieux est de regarder le contenu des pages et d’avoir les yeux partout ;-).

      Reply

  • Avatar

    Anthony Degrange

    |

    Salut Christian,

    Je ne tombe sur ton article que maintenant.

    C’est grâce à lui que je comprends mieux l’intérêt de mes cours de corpus linguistic pour le SEO à l’université 😉

    Je vais essayer d’appliquer tes conseils pour mon prochain article. Je doute que j’arriv eà appliquer cette méthode à chaque fois. Pas le temps de tout faire… Si j’ai des interrogations, je reviens vers toi 😉

    Reply

  • Avatar

    Marc

    |

    Bonjour,

    Voilà un très bon article sur le fond comme sur la forme. Donc merci 🙂

    Sinon, dans ta méthode tu indiques que la page ne doit recevoir aucun backlink afin d’être certain que seul le contenu influence sa pertinence et c’est tout à fait logique. Cependant tu ne traites pas de l’autorité du domaine qui peut tout autant fausser qu’une page fortement linkée, le positionnement et donc l’analyse que l’on en fait .

    Exemple “investissement immobilier locatif”, 4 premier (PAP, Figaro, Nexity, Capital) résultats sont linkés c’est certain car ce sont des annonceurs, publications de références et promoteurs (et puis j’ai vérifié =).

    Le 5ème est la caisse d’épargne et là le linking sur cette page est famélique
    /particuliers/emprunter-investissement-immobilier-locatif.aspx

    Et derrière ça repart sur les annonceurs avec un ou deux blogs qui se battent en duel.

    Comment interpréterais-tu la position de cette page (par ailleurs seule banque dans le Top 10, dont 2 seulement sur le Top 20)

    La pertinence du contenu ou l’autorité ?

    (réalisé avec Epic Privacy Brower donc,sans cookies, sans histo et sans login)

    D’avance merci de ton expertise et de ton retour éclairé 😛

    Reply

  • Avatar

    Stivel

    |

    Bonjour Christian,

    je tombe sur ton article que maintenant mais il n’est jamais trop tard. En plein dans la thématique du pagerank thématique 🙂 … ton article m’aide beaucoup.

    Bravo pour cet article au top.

    Reply

  • Avatar

    Anthony Degrange

    |

    Salut Christian,

    Je ne tombe sur ton article que maintenant.

    C’est grâce à lui que je comprends mieux l’intérêt de mes cours de corpus linguistic pour le SEO à l’université 😉

    Je vais essayer d’appliquer tes conseils pour mon prochain article. Je doute que j’arrive à appliquer cette méthode à chaque fois. Pas le temps de tout faire… Si j’ai des interrogations, je reviens vers toi 😉

    Reply

Laisser un commentaire