Corpus Reloaded, les structures en SEO, opus 6

La notion de corpus est aujourd’hui intégré au vocabulaire du SEO.

C’est une très bonne chose ;-).

Le but du billet d’aujourd’hui va être d’aller chercher ce qui peut mettre un site en phase avec les intentions de l’internaute…

Sans toutefois tout dévoiler, je vous propose quelques pistes et tests pour faire réagir un site aux recherches personnalisées.

Pour aller plus loin, venez au Teknseo 2015 où je fais un atelier sur ce sujet.

Le terme Corpus étant parfois mal compris, je commencerai par apporter quelques précisions sur ce qu’est, et sur ce que n’est pas, un corpus.

J’ai fait de nombreux efforts pour être synthétique, seulement 1100 mots, ça se fête !

1) Corpus, définition

« Ensemble fini d’énoncés, de textes, d’enregistrements réunis pour servir de base à l’étude d’un phénomène linguistique ».

Que rajouter à cette définition (officielle) ?

Donc, un corpus n’est pas un ensemble de mots-clés, mais un ensemble de textes.
Si votre bibliothèque comprend une étagère complète traitant de la gravitation relativiste (que du bonheur !), vous avez là un corpus : une base de documents traitant de ce sujet particulier.

Vous pouvez aller faire un tour sur le site de la revue « corpus » . Il y a de nombreux sujets intéressants.

Dans le cas du web, Google est le bibliothécaire. Il a classé des pages selon une multitude de sujets et s’en sert comme « base de connaissances » (au sens littéral) pour identifier le sujet de nouvelles pages qu’il ne connait pas.

Notez que j’ai bien dit « identifier » et non pas « comprendre ». Google ne comprend rien à rien, mais il a une grosse puissance de calcul et beaucoup de data.

2) Différence entre empreintes extraites de corpus et mots-clés connexes

Je vais vous proposer quelques réflexions en vrac ici :

a) On a beaucoup trop tendance en SEO à toujours tout ramener aux mots-clés, mais le mot n’est pas la seule entité exploitable dans un texte…

b) Dire que dans 100 textes, on a trouvé très souvent x termes précis ne veut pas dire que ces x termes puissent se trouver ensemble dans un MÊME document… Certains termes peuvent aussi être des rivaux.

c) Je préfère parler de metamot, c’est-à-dire un groupe de mots pour telle page, un autre groupe pour une autre, etc. Ainsi, à l’échelle d’un corpus, on constitue des ensembles diffus. Comme je ne veux pas vous embrouiller la tête avec la théorie sous-jacente, on va passer à la réflexion suivante.

d) Si vous êtes encore en état de respirer une fois arrivé ici, vous avez fait le plus dur. Il est probable alors que vous puissiez tirer le meilleur parti de ce billet 😉

3) Le véritable enjeu

Lors de mon premier billet sur les corpus, j’essayais de vous inciter à inscrire cette démarche dans le cadre de la recherche personnalisée.
Mais dans la pratique, beaucoup ne s’en servent que pour trouver les mots-clés d’une thématique donnée (ou d’une requête donnée). C’est un peu dommage, car le principal intérêt n’est pas là.

Constituer des sacs de mots en requêtes non personnalisées est nécessaire, mais pas suffisant.

Il faut trouver ce qui fait l’âme de pages qu’aime Google avec une intention particulière et identifiée de l’internaute.

S’arrêter à la constitution d’un sac de mots sur les 50 ou 100 premiers résultats de recherche, c’est un peu comme acheter une Lamborghini et se contenter du premier rapport de la boite de vitesse.

Donc, nous allons voir comment utiliser les corpus en recherche personnalisée.

4) Des corpus non personnalisés aux corpus personnalisés

On va ici se contenter d’un seul sac de mots pour les besoins de l’explication qui suit.
Donc, vous avez fait une collecte de pages répondant à une requête. Comme vous avez fait cela sans cookies et sans historique, le résultat que vous obtenez est celui que personne n’aura ;-).

Mais imaginons que vous recommenciez l’opération après avoir gavé votre navigateur d’informations pour que Google perçoive une intention. Cette intention pourrait être, par exemple, de vouloir acheter, plutôt que de louer, je ne sais quel objet de votre convoitise et plutôt en haut de gamme. Bien sûr, votre requête ne contient pas les termes « louer » ou « acheter » ni aucun autre indice.

Là, vous récupérez un nouvel ensemble de pages. Vous faites l’extraction d’un autre sac de mots.
Comparez avec les versions avec et sans intention. Les sacs de mots seront en partie différents.

Si vous êtes peu habitué à taquiner Google pour qu’il perçoive une intention, vous pouvez faire l’expérience sur la base de la géolocalisation de votre IP.
Entre un réglage « neutre » et un réglage « localisé », vous aurez d’assez nettes différences sur certaines requêtes.

Dans tous les cas, avant de récupérer un corpus, nourrissez votre navigateur avec ce qu’il faut pour qu’il vous identifie comme ayant l’intention que vous avez identifiée comme favorable au site de votre client.

5) Existe-t-il une fonction de transfert ?

Si on nomme C un corpus non personnalisé et C’ un corpus personnalisé, existe-t-il une fonction qui permettrait de passer de C à C’ ?

Plus généralement, si on nomme GC l’ensemble des corpus issus d’un ensemble de requêtes non personnalisées et GC’ l’ensemble des corpus issus de ces mêmes requêtes, mais personnalisés, peut-on trouver une fonction de transfert permettant de déduire l’un de l’autre ?

Évidemment, vous aimeriez que je vous donne la réponse, mais les meilleures expériences sont celles auxquelles on a participé, n’est-ce pas ?

Donc, je vous laisse faire quelques tests, vous ne devriez pas être déçus des résultats et vous apprendrez plein de choses très intéressantes.

6) Perspectives

Évidemment, de nombreux sites ont plusieurs cibles d’internautes.
Il est possible de créer un contenu reproduisant à la fois les différents profils possibles, mais aussi les différents stades dans lesquels un internaute peut se trouver avant un achat.

On peut, grâce à une approche par étude de corpus-multiple, arriver à former divers parcours sur un site…
Je vous propose la suite de ce paragraphe au Teknseo 😉

7) Conclusion

Google n’est certes qu’un robot assez primaire, malgré tout, le contenu de votre site ne doit pas se contenter d’être un blabla fait à l’aveugle.

De nombreuses techniques sont utilisables par un moteur de recherche pour « cibler » des documents qui peuvent satisfaire les internautes.

Un bon contenu n’est pas qu’un ensemble de mots, mais plutôt des mots rencontrés ensemble…

 

Mots-clefs : , ,

Commentaires (7)

  • Avatar

    Mathieu

    |

    Je l’attendais cet opus !
    Du coup, je m’aperçois qu’il va falloir que je relise les precedents pour en tirer l’essentiel…
    Pfff.

    Reply

  • Avatar

    Laurent Bourrelly

    |

    La dernière démo du Peyronnet Show dans leur ix labs était très intéressante pour se fabriquer un micro corpus perso.
    Déjà avec Visiblis et maintenant avec la possibilité de customiser des corpus, on est capable de fabriquer une page réellement profilée pour être miam miam au niveau pertinence.

    Le plus important est vraiment d’appuyer sur ta notion de meta-mot car c’est vrai qu’on résonne encore trop sur des mots clés.

    Pire encore, on focalise sur le texte, alors que les documents de recherche les plus passionnants sur le sujet concernent les modèles acoustiques. Les progrès sont phénoménaux, alors que pour l’image et le texte c’est encore bof bof.

    Reply

  • Avatar

    Référencement web

    |

    Et oui, tout se rapporte au contenu puisqu’il occupe une place prépondérante dans le marketing d’aujourd’hui et parce qu’il constitue l’un des facteurs permettant à Google d’analyser la qualité d’un site. Et les internautes veulent que les sites leur offrent des contenus pertinents répondant à leurs attentes. L’approche « corpus » est un procédé très astucieux.

    Reply

  • Avatar

    Christophe Hilmoine

    |

    Laurent, si tu « résonnes » au lieu de « raisonner », tu vas fausser le corpus de Christian sur son sujet… 🙂

    Reply

    • Avatar

      Christian Méline

      |

      comment tu le cherches 😀

      Reply

  • Avatar

    ziad allani

    |

    tout ceci est super intéressant d’un point de vue recherche et SEO, mais je doute fort qu’on puisse appliquer cela de manière industrielle (dans le sens dans tout les cas de figure et non d’automatiser cela avec un tool)
    en tout cas j’ai hâte de voir la suite

    Reply

    • Avatar

      Christian Méline

      |

      La suite est publiée de ce soir !

      Reply

Laisser un commentaire