Le grand défi des metamots : quelques informations sur notre R&D

Je parle R&D aujourd’hui…

Curieux peut-être, car ce n’est pas dans mes habitudes ! Mais nous avons mis le doigt sur quelque chose d’assez intéressant et je me propose de vous en parler.

Ce billet a plusieurs sujets, une fois n’est pas coutume.

Je vous dirai aussi quelques mots sur le nouveau cursus que je vais démarrer dès la semaine prochaine sur la sémantique SEO.

1) Préalable

Après avoir constaté dès 2012-2013 que quelque chose se passait dans les serps au niveau des contenus, j’ai tenté dès cette époque de trouver comment reconstituer ces observations.
J’ai une requête ou un sujet pour une page et je veux calculer son metamot.

Le souci est qu’une partie des calculs se fait sur l’analyse des pages déjà positionnées.

J’ai donc créé au départ de cette aventure ce que j’appelle « le modèle parfait ». Parfait doit être compris de la même façon que le « gaz parfait » en chimie : un modèle théorique qui permet de faire des calculs avec une base « idéale et stable ».

Dans le cas des metamots, à l’évidence, je ne pouvais pas partir des pages HTML, car la plupart des pages partent dans tous les sens et sont envahies de parasites (menus, pubs, etc.). Par ailleurs, les liens faits à foison faussent l’analyse puisque nous ne savons pas quelle part le contenu a apportée aux résultats dans les serps. J’avais d’ailleurs parlé de ce souci avec les liens lors de ma conférence au SMX en 2014. Je proposais à l’époque de regarder les pages placées qui en recevaient peu…

J’ai donc trouvé une parade : certaines requêtes, ou sujets, ne sont pas polluées par des pages creuses et ne comprennent pratiquement que des pdfs.
Là, pas de menu, un PDF reste dans le scope du sujet. J’ai rarement vu des pdfs spammy (mais j’en ai vu quand même). C’est donc, un objet sur lequel on peut bâtir quelque chose de solide.

Une fois trouvée la bonne formule, il reste à revenir à la réalité : le web concurrentiel avec tout son arsenal de tout et n’importe quoi en résultat, du HTML mal écrit, du spam, etc.

2) Les solutions existantes pour l’extraction de contenu et les parasites

Vous vous êtes sans doute déjà rendu compte que, dans tous les outils « sémantiques », apparaissent souvent des termes « étranges », hors sujet. De notre côté, nous avons un algo qui les évite plutôt bien, car les metamots ne reposent pas sur TF-IDF et, en plus, nous avons ajouté des filtres volumineux… Mais il n’en demeure pas moins vrai que des parties complètes des textes étudiés intègrent des éléments faussant la qualité, même si nous filtrons a posteriori.

De ce que j’en sais, même s’ils n’ont pas fait de R&D en amont avec des textes purs (*), nos confrères ont essayé des bidules comme les différentes variantes de « readability » et d’autres approches disponibles en open source… Mais en pratique, ces outils ne sont pas fiables et souvent renvoient des textes vides ou charcutés. Même l’outil de Moz n’est pas satisfaisant : pour vous en convaincre, faites des tests dans Firefox avec leur extension, essayez sur des pages web telles que des e-commerces, forums, sites d’actus…

*concernant les autres aspects que l’extraction de contenus « readables », par exemple les algos de calculs eux-mêmes, la plupart des autres services dits sémantiques utilisent des scripts open source emballés dans une belle interface, même ceux qui ajoutent des termes pompeux tels que IA et autres, pour le marketing. À ma connaissance, seul YTG utilise des scripts bien à eux, tout comme nous-mêmes.

3) Comment fait Google ?

Google a acheté, d’après mes informations, le code de readability et a tenté de le faire évoluer vers quelque chose qui tienne la route… D’autres et moi-même les soupçonnons aussi de faire du « template matching » ou « template delta » (prenez deux pages d’un même site avec le même gabarit et retirez les parties communes, il vous reste le contenu… et la pub).

Économiquement, je doute que cela soit viable pour autre chose que de très gros sites listés par GG.

C’est pourquoi je recommande à mes clients de faire en sorte de faciliter la tâche à Google en rendant leurs pages « readables » en toutes circonstances. Testez-les avec les différentes extensions disponibles pour FF, Safari et Chrome. Cela leur donne de meilleures chances de mettre en avant leurs contenus.

Utilisez aussi les microdata pour délimiter des zones des pages, les bonnes balises HTML5, etc. Ce ne sera certes pas toujours suffisant, mais ce sera déjà ça.

4) Revenons aux metamots et à la résolution de ce problème

Ne voyant que d’un seul œil, cela m’oblige à lire d’une façon un peu spéciale les pages : pas de lecture rapide pour moi, pas de vision en 3d de l’espace qui m’entoure, malheureusement. (À l’époque où j’avais du temps pour voler en ULM 3 axes, cela m’a valu quelques atterrissages « pittoresques » !) Revenons aux pages web. Quand je lis un texte pourtant bien foutu, certaines parties peuvent n’avoir aucun intérêt pour moi, internaute. Je suis condamné à faire le tri et à sauter certaines parties sans intérêt flagrant. Par ailleurs, nous sommes  dans un contexte différent de celui qui veut juste imprimer la partie « contenu » d’une page web, ce pour quoi les « readability » and co ont été conçus, il me semble, au départ.

J’ai donc essayé de transposer ma propre façon de lire une page web dans un algo, et ce, en partant d’une page blanche comme à mon habitude (pas la page HTML, mais le code bien sûr ;-).
J’ai démarré ma réflexion il y a environ 2 ans, mais sans trouver le temps d’écrire le code. Le 20 décembre 2018, je m’y suis mis. À présent, le code est écrit. Je l’ai testé sur un dataset de 6,7 millions de pages HTML diverses, et ma foi, on est très proche de la qualité 100 %… Non, je ne fais jamais de machine-learning, c’est un des trucs les moins créatifs qui existent selon moi. Mais faire un test grandeur nature a plus de valeur que tester sur quelques pages seulement.

Ce vendredi 8 mars 2019, j’ai passé la nouvelle version à Sylvain Deauré de cocon.se pour qu’il la teste en préprod. S’il n’y a pas de mauvaises surprises (?), cela sera déployé sur l’ensemble des serveurs. Dès que c’est opérationnel en production, je vous en avertirai. En tous les cas, ici, sur mes machines, c’est au-delà de mes espérances.

Note : nous pensions mettre en ligne un peu plus tôt, ce qui explique que la nouvelle grille de tarifs, plus agressive, a été mise en ligne au mois de février 2019.

5) Est-ce la fameuse V6 de l’algo des metamots ?

Et oui !
Bien sûr, dans l’algo lui-même, certains filtres ont pu être retirés puisque la data est « purifiée » et validée comme étant dans le scope du sujet de la page. Mais il y a aussi quelques avancées dans l’algo lui-même.

Par contre, ça va être saignant ! Parfois, mais ce sera très rare, les metamots pourront être vides, car votre requête est trop imprécise : c’est aussi à ça que servent les metamots : tester vos requêtes. En même temps, les tarifs ont tellement baissé, ce n’est plus très coûteux de tester vos requêtes maintenant. Cela vous évitera de rédiger des textes sur des requêtes qui, de toute façon, ne seront pas jugées « suffisantes » par Google. Pensez « sujet de pages » et non pas « mots-clés ». Google se chargera de reformuler ce qu’a tapé l’internaute pour lui remonter les pages qui auront fait l’effort de comprendre ce que l’internaute voulait.

6) Un nouveau cursus Sémantique SEO démarre

Les prochains billets traiteront de stratégie en fonction de la taille de votre site et de sa typologie.

Il existe des systèmes plus simples à mettre en œuvre que les cocons sémantiques, moins coûteux, bien plus performants aussi, mais qui ne fonctionnent que sur certains sites bien précis. Je me propose donc d’aborder une problématique différente à chaque prochain billet de ce nouveau cursus.

Je ne m’interdis toutefois pas de compléter le cursus « sémantique SEO » avec un cours 14, 15 ou + le moment venu…

7) SEOCAMPUS 2019

Je fais une conférence au seocampus cette année. Devinez quoi ? Je vais parler sémantique, mais comme jamais je ne vous en ai parlé.
Révélation de secrets maison en perspective. « Viendez » nombreux !

8) Conclusion

Comme vous le voyez, on ne s’arrête jamais.

C’est ce qui rend cette aventure passionnante au-delà de vous rendre service pour votre SEO.


Mots-clefs : ,

Laisser un commentaire