METAMOT, Sémantique et Corpus, Opus 1

Nous avions consacré une série d’opus sur les structures en SEO. Nous entamons aujourd’hui une nouvelle série : les opus « sémantique et corpus ». Il y a tant à dire, malgré les apparences !

Les mentalités ont évolué dans le SEO depuis la date de l’ouverture de ce blog.

Certes, cela ne se voit peut-être pas encore dans les pratiques de tous.
Pour autant, l’ouverture d’esprit est là. Ce sujet n’aurait pas eu d’audience il y a seulement 3 ans. Pourtant, ce n’était pas hors propos, même à l’époque…

On va donc pouvoir commencer à se lâcher !

Le présent billet, qui ouvre donc cette série, parlera de corpus élaborés sur requêtes. Je rappellerai plus loin ce que cela signifie.
Nous aborderons en particulier des METAMOTS.

J’ai parlé de cette bizarrerie chez Laurent fin mai.
Les METAMOTS ont aussi servi de base à mon atelier au Teknseo 2015 qui vient de se dérouler.

Le metamot peut redonner de la vie à vos pages web. Il permet aussi de faire des calculs de distances sémantiques entre les pages.
Cela permet de dresser les plans d’une vraie stratégie de maillage interne « rationalisé ».

Nous découvrirons ses multiples vertus au travers des prochains billets.

Pour le moment, je vous propose de découvrir la bête…

Ce billet peut être lu en plusieurs fois. Vous n’avez pas l’obligation de tout comprendre tout de suite.
Vous pouvez aussi relire les billets corpus et qualité sémantique objective.

Note : Je ne vous cache pas que cela me fait aussi plaisir d’écrire à nouveau sur le blog. Cela finissait par me manquer ;-).

1) Introduction

Avant d’aborder la notion même de metamot, je vais vous parler un peu de l’histoire de cette « rencontre ».

Je passe beaucoup de mon temps libre à aller sur internet pour dévorer mes sujets favoris. La plupart d’entre eux n’ont rien à voir avec le SEO ou le développement. Comme beaucoup le savent, je compose un peu de musique à mes heures (!). De nature très curieuse, j’ai retourné ce sujet sur le web. Et quand je retourne un sujet, je ne le fais pas à moitié.

La musique est une thématique particulière avec de nombreux avantages. Les pages comportent de nombreux termes spécialisés. La plupart de ces termes sont fortement reliés à leur thématique sans déborder sur d’autres. Qui irait parler de « Mode HypoLydien » ou de « cadence plagale », par exemple, dans d’autres thématiques ?

Certes, toutes les thématiques ont des termes spécifiques mais celle-ci en regorge. Cela est dû à l’étendue de sa propre histoire démarrée il y a si longtemps. Le besoin d’une notation pérenne a aidé les termes à traverser les siècles.

Ma porte d’entrée sur internet est notre ami, devenu ennemi. Je parle, bien évidemment, de ce très cher Google (jeu de mots inside). Les pages remontant dans les SERPS sont pleines de termes spécifiques. Que je le veuille ou non, il est difficile de passer à côté. Et comme je suis un affamé, je les lis toutes…

Toutes ces pages ont quelque chose de remarquable. Elles ont un « quelque chose » les reliant à leur requête de départ. C’est comme un motif, une empreinte. « Bon sens ! mais c’est bien sur ! » (jeu de mots à la noix que seuls les vieillards comprendront).

Certes, la thématique musique a un autre avantage vis-à-vis du SEO. Elle n’a pas été faussée par une avalanche de liens. Ce qui remonte est ce qui semble « pertinent » du point de vue du contenu. Cela concerne surtout le contenu (ou presque) pour un moteur, aussi idiot soit-il.

Cela m’a sensibilisé à repérer l’apparition de différents motifs. Ceux-ci se répétaient dans les pages de requête en requête… Par la suite, je suis allé fouiller d’autres thématiques. Il y avait pratiquement toujours des empreintes identifiables « à l’œil nu ».

Certains diront que je m’attendais à ces résultats. Ils diront que je les ai trouvés car je les cherchais. Ils n’ont pas forcément tort. Cependant, il faut toujours vérifier et rester objectif si les espoirs se confirment. Par ailleurs, nous ne sommes pas ici dans des théories quantiques. L’observateur n’influe pas sur ce qu’il observe… Ici, c’est là, c’est factuel.

Depuis j’ai développé des outils me permettant de vérifier ce phénomène. Je voulais voir si on pouvait trouver ces metamots grâce à un algorithme. La conclusion est, qu’effectivement, c’est possible.

Il se confirme que les metamots sont bien présents dans les pages remontées par Google. Cette présence est indépendante de la thématique, si la requête n’est pas en longue traine.

J’en vois certains qui se disent : « Google l’utilise déjà pour le search de l’intelligence artificielle »… Désolé, mais non, toujours pas. Ce n’est pas avec la méthode mega-bourrin « big-data + algo » qu’il y arrivera !!
C’est juste, assez probablement, une conséquence de sa façon de fonctionner et de scrapper les sites.

« Bon, et les metamots, c’est quoi alors ?? »
« J’y viens, j’y viens… ».

2) Metamot, description

Voici deux metamots, chacun sur 2 requêtes qui semblent proches :

Exemple MetaMot

Un metamot est donc une liste plus ou moins longue de lexies. Chaque lexie a une note révélant l’attirance qu’exerce le corpus sur elle.

Comment calculer cette note est quelque chose que vous pourrez rechercher. Je peux vous donner un indice : ce n’est pas du tout basé sur la pondération desdites lexies dans les pages du corpus.

Deux choses importent quand on ne fait que de l’optimisation on-page. D’une part, il faut trouver les lexies. D’autre part, il faut trouver leur ordre de priorité dans le traîtement. Celui-ci joue un rôle primordial comme nous le verrons par la suite.

Remarque sur la longueur d’un metamot : peu de lexies = requête trop générale.
Quand un metamot contient peu de lexies (ou peu d’entrées si vous préférez), cela indique, le plus souvent, que la requête est trop générale. Il va être difficile d’aller chercher un internaute en quête de propositions sur ces requêtes.

3) Comment trouver le Metamot d’une requête

En préalable, vous devez déjà avoir récupéré des données. Vous avez donc les urls des 50 ou 100 premières pages répondant à la requête.
Dois-je vous expliquer comment faire cela ? 😉

L’objectif est de se débarrasser du langage généraliste pour ne garder que l’essence sémantique du corpus.

Pour cela, il va falloir examiner le contenu rédactionnel des pages remontées. Vous laisserez de côté les pages au contenu trop court. Elles n’apportent rien, quelle que soit l’analyse sémantique visée.

Certes, vous devez vous constituer un gros dico de filtrage (vous devez donc ne pas trop mal connaître la langue française.) Une fois ce travail préalable réalisé, on peut attaquer autant de requêtes que l’on veut !

Vous avez abordé les étapes dans le bon ordre. Quelques secondes vous suffiront alors pour faire ressortir l’essence sémantique d’un corpus de 100 pages.

4) Constitution du filtre sémantique

Prenez l’ensemble des lexies possibles de notre langue (non, lexie n’est pas une maladie). On peut les classer en 2 catégories :
  • les lexies généralistes, utilisables dans n’importe quelle thématique,
  • les lexies sémantisées, non utilisables dans toutes les thématiques, du moins, au premier degré.
Êtes-vous d’attaque ?

Rassurez-vous. Inutile de vous taper 100.000 lexies avec accords et conjugaisons pour les classer une par une ! La pratique du français fait que les lexies généralistes sont toujours un peu les mêmes.

Finalement, la taille du filtre va comporter moins de 5000 entrées en incluant accords et conjugaisons. Le reste, le logiciel saura le retirer de lui-même…

5) De l’essence sémantique au metamot

Le contenu de votre corpus a été filtré. Il ne vous reste donc que l’essence sémantique de celui-ci.

Pour le transformer en metamot, posez-vous une question de fond : toutes ces lexies peuvent-elles se retrouver toutes ensemble dans une même page ? Cela pourrait-il faire sens ?

Vous devrez bien regarder pour voir une chose fondamentale : souvent, les principales lexies ont des potentiels ennemis dans le jeu des autres lexies candidates.

Pour pouvoir traiter cet aspect, on se sert des espaces diffus. Ces espaces ont été expliqués lors du Teknseo. Je ne l’expliquerai pas ici en détail, ce serait trop long, mais l’idée est de mesurer une « certitude » pour chacune des lexies.

Notons qu’une certitude diffère du sens habituellement rattaché à une probabilité. Une certitude, ici, s’attache à la confiance qu’a l’observateur en ce qu’il choisit ou obsèrve.

L’observateur dans notre cas est notre logiciel.

Finalement, on a récupéré une suite de lexies qui sont un minimum compatible entre elles. On a donc une suite ordonnée de lexies flanquées de leur attirance (intégrant la certitude).

//début mode Olivier D. 😉
 {Si
        vous ne savez pas comment faire pour récupérer les metamots de vos requêtes,
  Alors,
        n’hésitez pas à nous consulter, on peut le faire pour vous !
 }
//Fin Mode Olivier D.

6) Utilisation du metamot pour une optimisation on-page

Pour ma part, j’associe d’autres calculs et relevés pour utiliser au mieux les metamots :
  • Je récupère les termes utilisés dans les balises TITLE retenues.
  • Je calcule le TF + TF*IDF de chaque lexie composant un metamot, dans le cadre de la requête appelée.
  • Je récupère l’odeur de la SERP…
  • Je consigne aussi la longueur moyenne des contenus.
Muni de tout cela, optimiser une page devient un jeu d’enfant. On est sûr de coller, sur cette partie, à ce que Google attend sur la requête.

7) Conclusion

Les metamot ont plusieurs autres applications, y compris des applications non évoquées lors du Teknseo (il m’aurait fallu la journée entière pour cela.)

Nous allons, au cours des prochains billets, aborder d’autres facilités que ceux-ci nous offrent.

Nous aborderons aussi d’autres notions sémantiques, dont d’autres « objets intangibles » utilisables en sémantique web.

Mots-clefs : , ,

Commentaires (30)

  • Avatar

    Regis de Rennes

    |

    Bonjour Christian,

    c »est intéressant et le concept général est finalement simple à comprendre, encore fallait-il que quelqu’un nous donne l’idée…

    Après c »est plus compliqué à mettre en pratique.
    La Méthode intellectuelle, ok. La méthode concrête…euh… je vais relire.

    Sinon, pardon, c’est quoi l’IDF déjà ?

    Par odeur des SERPS, c’est savoir si elles sentent le SEO ? (j’avais plusieurs idées à ce sujet mais il faut bien posée une seule de ces questions).

    A+

    Reply

    • Avatar

      Christian Méline

      |

      Salut Régis,

      – IDF = Ile-De-France… pardon : Inverse Document Frequency 😉
      – Odeur de SERP (terme cher à Laurent), produits Google, présence de Wikipédia, pdf, home-page, etc.

      Pour la mise en œuvre, tu as ton tableur Excel et tu sais quelles expressions mettre et en quelle quantité, ça va, ce n’est pas trop dur… 😉

      Reply

  • Avatar

    Regis

    |

    Merci Christian.
    Pour l’odeur, c’était une de mes interprétations possibles.

    Reply

  • Avatar

    katseo21

    |

    Bonjour Christian.
    Cette méthodologie, pour la composition de contenus optimisés, est réellement efficace, comme vous l’avez dit au #teknseo.
    D’ailleurs merci encore pour ces échanges plus qu’enrichissants.
    Il faut toutefois noter, juste pour en avoir conscience, que si le process produit des résultats extrêmement efficace pour « ranker », se positionner, il repose sur un scrap ( dragage de données ) de résultats déjà existant dans les serp. Il n’est donc pas forcément pertinent d’un point de vue sémantique « académique », vu que les résultats sont déjà filtrés par les algorithmes des moteurs de recherche.
    Mais oui, en terme de positionnement par le contenu, les meta-mots, avec le volume de mots du contenu, et la fréquence à laquelle ils doivent apparaître, sont vraiment le nerf de la guerre pour se positionner avec un contenu pertinent pour les moteurs.
    Pour le linking, les contenus composés selon votre méthodologie sont doublement optimisés. Il y a donc les expressions clés principales, dans un premier temps, pour faire les liens traditionnellement. Les meta-mots ( les lexis « périphériques » des expressions cl{é|ef}s ) offrent des ancres diversifiés parfaitement pertinentes pour les moteurs afin de mettre en place les liens. Une fois de plus, comme vous l’avez explicité, il convient de hiérarchiser les textes et le linkinking sur le plan sémantique.
    Merci pour cette belle méthodologie,
    Bye.

    Reply

  • Avatar

    Regis

    |

    Salut Christian,
    c’est encore moi…
    Question : tu récupère le contenu des title pour avoir ta base de contenus ?
    Question 2 : et les balises alt, tu les récupéres aussi ?

    Bien entendu, si c’est déjà écrit dans l’article, bah je relierai entre les lignes…

    Reply

    • Avatar

      Christian Méline

      |

      Yes, pour la TITLE, No pour les ALT (peu utilisée en pratique).
      Par contre je lis les pdfs.
      Par ailleurs, pour que cela ait du sens, je décompose les phrases en propositions, sous-phrases, etc.

      Reply

  • Avatar

    gotcha5832

    |

    Merci Christian pour vos articles fort interessant même si cela ne me parait pas si semble à mettre en pratique.

    Une question allant dans le sens de celle de régis.
    Loursque vous analyser le corpus, exploiter vous l’ensemble de la page ou seulement la partie « redactionnelle » en excluant les menu, footer, sidebar, pub, liens croisé…

    Reply

    • Avatar

      Christian Méline

      |

      La partie rédactionnelle ET la TITLE sont valorisées par rapport au reste, mais je n’élimine pas totalement menu, footer, etc.

      Reply

      • Avatar

        gotcha5832

        |

        Tu sous entend que quand tu analyse le contenu, tu va pondéré le poids selon leur emplacement?

        Si on prends la thématique de mode, certain mode clé sont souvent domininé par la presse féminine, ou le contenu est souvent dilué par énormément de menu, pub, liens…
        Donc si on fait une moyenne à partir de cela, cela sous-etendrais qu’il faudrait que son propre site en fasse autant?

        Reply

        • Avatar

          Christian Méline

          |

          Oui et non, car je ne prends que les pages qui envoient une certaine forme de signal que l’on sait recherché par Google…

          Reply

  • Avatar

    Seoxis

    |

    Pour ceux qui veuillent s’initier à l’analyse des méta-mots j’utilise Rapidminer il est vraiment accessible et possède des tutos pour la prise en main rapide 😉

    Il géré en natif le texte fr sinon il y a aussi AutoMap (ne prend pas en charge le fr)

    Reply

    • Avatar

      Christian Méline

      |

      Ce n’est pas vraiment la même chose non-plus 😉

      Reply

  • Avatar

    Seoxis

    |

    Rapidminer c’est une suite complet mais tu peux analyser des corpus et générer un arbre décisionnel et en fonction des mots tu auras une liste de mots en rapport au précédant

    C’est pas la même chose ?

    Reply

    • Avatar

      Christian Méline

      |

      Non, car ici on analyse la réaction de Google, requête par requête.
      On fait de la sémantique, mais de la sémantique à géométrie variable aux vertus SEO 😉
      La dimension « limites de Google » est donc intégrée dans la démarche.

      Reply

  • Avatar

    Jérôme

    |

    Bonjour Christian,

    Sur l’article, le concept et la méthode, rien à dire, chapeau l’artiste, c’est top 😉 (d’autant que je fais à peu près de la même façon avec Visiblis)

    Par contre, pour ce qui est du scrap des résultats de Google (ou autre) je ne pense pas qu’il faille automatiquement 50 ou 100 URLS pour faire un bon Corpus, souvent une vingtaine suffit. Personnellement, avant d’ajouter un document au corpus, je teste un certain nombre de paramètres tels que le nombre de nouveaux n-grams, les modifications de changement de position des n-grams principaux et à partir d’un certains seuil, j’arrête l’ajout de documents.

    J’utilise un algo assez simple qui mesure ce que j’appelle la « convergence » du Corpus, c’est un mot savant, mais je n’en ai pas d’autre 😉

    Reply

    • Avatar

      Christian Méline

      |

      Salut Jérôme,

      Bah, je fais plus ou moins cela aussi, mais je récupère quand même ~100 urls au départ chez l’empereur, mais je ne prends ensuite que ce qui m’apporte des infos.
      En même temps, je vais quand même un peu plus loin que 20 pour d’autres raisons 😉

      Reply

  • Avatar

    Largeron

    |

    Bonjour Christian et merci pour cet article..lu avec attention en cette matinée estivale 🙂

    Toute chose étant égal par ailleurs, d’ailleurs cela veut dire quoi ici ? La « pure » sémantique Googlelienne est-elle l’unique clef du Graal ? D’autres paramètres rentrent en ligne de compte non ? Je pense notamment à 2 items. La « storyline » du site à positionner, et l’instabilité de certaines serps : le contexte de la requête (ex lambda : parfois certaines requêtes sont subitement sensibles à l’algo. Google actus), la présence d’un « Os » (page spammy sporadique) etc…Merci pour tes éclaircissements !

    Reply

    • Avatar

      Christian Méline

      |

      Bonjour Maurice,

      Bien d’autres facteurs existent, mais peu de ceux-ci permettent de faire fonctionner ne serait-ce que le page-rank thématique.

      Reply

  • Avatar

    Création Oueb

    |

    Et il faut appliquer cette méthode non seulement on-site mais également sur les contenus externes que l’on produit pour optimiser la puissance de son netlinking !

    Reply

  • Avatar

    Mehdi Coly

    |

    Merci Christian pour cet article inspirant. J’aimerais vous faire essayer l’algo d’Optimiz.me. Je décris dans l’article ci-dessous les résultats auxquels nous parvenons avec la requête « compositeur musique orchestrale », ce sont les mêmes à 75%; mais nous en avons d’autres en plus, j’aimerais votre avis sur ces termes additionnels : http://optimiz.me/optimiz-me-notre-moteur-de-suggestion-de-corpus-semantique/

    Ah oui et au passage, utilisez-vous Elastic Search pour votre algo ?

    Reply

    • Avatar

      Christian Méline

      |

      Merci Mehdi d’avoir apprécié cet article.

      Dans le cas des meta-mots, il y a un traitement particulier de chaque lexie de telle sorte qu’elles soient liées entre elles LORSQUE les pages répondent à une requête donnée… On est plus loin que la simple cooccurrence ou d’un champ lexical « neutre ».

      Sinon, pour répondre à ta question, je n’utilise pas Elastic Search.
      L’algo repose sur les ensembles diffus. Ces ensembles sont une modélisation mathématique très personnelle de la propagation des certitudes (basée, comme tu dois t’en douter, sur de la logique floue)… Je ne me vois pas expliquer ici comment fonctionne l’algo lui-même, sauf si je veux faire fuir tout le monde ! 😉

      Quoi qu’il en soit, le résultat quelque chose qui est facilement utilisable et qui fonctionne bien : c’est cela qui importe le plus !

      PS : je veux bien tester ton outil 😉

      Reply

      • Avatar

        Mehdi Coly

        |

        Ok merci pour ces précisions.
        Envoie moi ton adresse mail et un site que tu veux tester, je te t’ouvrirai un compte sur Optimiz.me 🙂

        Mehdi

        Reply

  • Avatar

    Ludovic

    |

    Merci pour ton partage Christian.
    A propos des urls que tu prends en entrée, ne faudrait-il pas pondérer en fonction du spectre des ancres de chacune d’elles ?
    Ca complique un peu mais chaque page ayant acquis sa place par le biais d’un grand nombre de facteurs (200 si ma mémoire est bonne) ca semble important non ?

    Reply

    • Avatar

      Christian Méline

      |

      Hello Ludovic,

      Tant que l’on est sur du maillage interne et DANS le rédactionnel, aujourd’hui, il n’y a pas de soucis.
      … Et on ne va quand même pas faire le maillage en nofollow non plus, c’est bon là !! 😉

      PS : content de relire 🙂

      Reply

  • Avatar

    Cyril Thibout

    |

    Bonjour

    Je ne comprends pas bien encore la différence entre une cooccurrence et un méta mot si ce dernier n’est qu’une liste de mots associés sémantiquement au mot clé principal.

    merci de ton explication.

    Reply

  • Avatar

    Patrick DUHAUT

    |

    Super passionnant. Nous sommes sur le développement d’un outil interne qui a pour objet l’identification des lexies à partir des datas crawlées sur Web, et cet article m’a donné quelques idées que je vais tester. Merci.

    Reply

    • Avatar

      Christian Méline

      |

      Ce billet est ancien et cela va en effet bien au-delà de la récolte de data, récolte qui montre rapidement ses limites !
      Nous avons travaillé depuis l’approche prédictive au-delà de tout ce que l’on pourrait imaginer.
      Gagnez du temps et rendez-vous directement ici http://cocon.se/metamots/

      Reply

Laisser un commentaire