Qualité sémantique objective, les structures en SEO, opus 4

Vous avez eu plusieurs mois pour vous distraire, maintenant, il faut se remettre au boulot…

On reprend les opus.
 
Celui-ci, l’opus 4, va peut-être vous faire trembler (ce sera moins dur que le supplice de Tantale, rassurez-vous !).

Je vous présente aujourd’hui une heuristique pour estimer la qualité sémantique objective d’un texte, rien que cela !
 
Cette qualité sémantique objective est un préalable incontournable pour un moteur qui espère pouvoir « noter » la qualité d’un texte. Ce critère, à défaut de pouvoir « décider » définitivement de la qualité globale d’un texte, lui permet d’éliminer tous les textes bidon ou sans intérêt flagrant.

La partie des textes qui arrivent à passer ces tests pourra toujours être apprécié par son environnement et par espionnage (vous savez, les trucs que l’autre pose sur nos ordis et qui sont faits pour nous rendre service). La boucle est alors bouclée.

On commencera déjà par définir ce que, ici, je nomme qualité sémantique objective, afin de donner les limites et cadres de cette méthode.
 
Fait exceptionnel : il y a un croquis !!!

Note 1 : ce billet ne fait pas doublon avec les « Master Class » des frères Peyronnet.
 
Note 2 : on n’aborde ici QUE les critères IN-TEXT, on ne traite pas du site, de son environnement, des liens. Malgré tout, ce qui est proposé peut-être généralisé à nombre de facteurs OFF-TEXT.
 
Note 3 : si vous lisez ce billet juste à votre lever, revenez plutôt quand le café aura fait son effet (poke Sandrine)

1) Différence entre sémantique et thématique

On va commencer par démolir cette confusion entre les deux notions.

La sémantique s’intéresse à la langue, au sens qu’elle prend.
Une thématique est une organisation, souvent assez arbitraire, de thèmes. Un thème n’est pas forcément du domaine de la linguistique. Un corpus est un référentiel d’autres textes qui sert pour appréhender des thématiques.

Ici, par exemple, la sémantique objective permet de déterminer le taux d’appartenance à une thématique sans être pour autant synonyme de la thématique elle-même. C’est davantage un moyen de l’appréhender.

Pour autant, ce billet n’est pas un cours d’analyse componentielle (ça jette, y’a pas à dire !). Donc, non Yann tu n’auras même pas un paragraphe là-dessus !

2) Qualité sémantique objective, définition

Tout d’abord, n’allez pas chercher sur Wikipedia ce que cela veut dire, cela ne s’y trouve pas.

Ici, je tiens à faire une différence notable entre deux notions : la qualité sémantique objective et la valeur d’un propos.

La qualité sémantique objective ne juge pas le propos de l’auteur, mais seulement qu’il aborde tel ou tel sujet plus ou moins profondément via le contenu de son discours. Cette qualité est, a priori, du premier degré.
Dit autrement : on peut toujours avoir un discours avec une qualité sémantique objective élevée, si on s’attache à rester concentré sur un sujet précis et que le vocabulaire est riche et varié, mais cela ne préjuge pas que ce ne sont pas des âneries : cette dernière notion n’est pas une question de qualité, mais une question de VALEUR du propos.
La qualité n’est pas synonyme de valeur…

J’ai ajouté le terme « objective » pour préciser justement qu’il n’y avait pas de jugement, c’est factuel : « quels sont les termes utilisés ? », « Comment on est par rapport aux autres documents du corpus ? ».

« Objective » se rapporte ici à « calcul » et « valeur » se rapporte à une « appréciation humaine » ou un jugement si vous préférez.

Un algorithme peut calculer la qualité sémantique objective, mais il faut être un humain pour juger de sa vraie valeur (laquelle est par ailleurs subjective)…

Encore en vie ?

3) Masquage sémantique et conséquences

Là, j’emprunte sciemment l’expression « Masquage sémantique » à Sylvain Peyronnet.
Je vais même lui piquer une partie de son exemple (merci Sylvain ;-).

Je prends le terme « Jaguar ». Je fais un texte là dessus, OK. Un moteur saura-t-il savoir si je parle de la voiture ou bien de l’animal ?

J’ajoute le terme « jungle » dans le texte, donc, c’est que mon texte parle de l’animal. Si j’ajoute au contraire le terme « essence » dans le texte, ce serait plutôt de la voiture dont je parle.

Maintenant, je prolonge l’idée de Sylvain. Prenons la phrase :
« Je n’avais plus assez d’« essence » pour aller voir le « jaguar » dans la « jungle » ». Boauais, moins facile à trancher quand on est un robot.

Inconsciemment, on sème des ambiguïtés comme cela de partout dans nos textes. Et on est souvent convaincu que celui-ci n’est pas ambigu alors que le moteur ne peut rien en faire !

D’où l’importance de ce qui va suivre…

On va avoir 4 tests à faire pour parvenir à nos fins.
Les pourcentages seront calculés par ratio sur les quantités de mots.

4) Détermination du taux de sémantisation

La première note est le taux de sémantisation. Ce taux est un peu la matière sèche du texte. Tout ce qui est remplissage et termes généraux sera la partie humide… Le propre de l’eau pure (i.e. déminéralisée) est de ne pas avoir de goût.

Si 95 % de mon texte utilise des termes qui pourraient être utilisés dans n’importe quel contexte, alors je n’ai que 5 % de taux de sémantisation. Cela ne préjuge pas que cette sémantique soit la meilleure pour déterminer par la suite que l’on est dans celle recherchée. C’est juste que les termes comme « voici donc », « d’autant plus », « je fais », « il y a », « besoin de », etc., n’appartiennent à aucune classe sémantique particulière. Les stops words font bien sûr partie des termes humides.

Pour ce test, pas de petit dessin, on fait juste le rapport : 100 – (nombre de mots généraux/nombre de mots du texte).

5) Comparaison du taux de sémantisation dans le corpus

Il faut ensuite comparer le pourcentage précédent à un référentiel : votre corpus, chaque thématique ayant des valeurs « attendues » différentes.

Eh oui, bien sûr tout est relatif en ce bas monde. Le taux de sémantisation n’est exploitable que si on le compare avec un ensemble de textes de référence dans la thématique qui nous intéresse, le fameux corpus.

Le niveau d’expertise supposé des textes va également jouer.
Par ailleurs, chaque langue a une quantité plus ou moins vaste de termes généraux et de termes plus marqués.

Vous pouvez parser quelques pages de votre corpus pour vous faire une idée du taux habituel de sémantisation dans votre thématique. Sachez, par ailleurs, que les termes généralistes se rencontreront très rarement dans les diverses bases de corpus disponibles en ligne.

Attention, pour ce test, on compare le taux de sémantisation entre votre texte et votre corpus. Pour cela, vous devez tenir compte du fait que le taux de sémantisation dans votre texte et dans votre corpus sont l’un et l’autre toutes thématiques confondues.

Ce taux de sémantisation est en fait une sorte de « dissipation ».

De là, à quel pourcentage êtes-vous ? À quel pourcentage est le corpus ? Si vous êtes inférieur à 50 % de la moyenne habituelle, c’est mort.

6) Détermination du taux d’écart thématique

Subtilement, c’est également là que l’on glisse des notions sémantiques aux notions thématiques.

Dans le paquet de l’ensemble des mots « secs », qui ont un sens, on va avoir 4 cas bien distincts :
– Le terme est hors thématique quand on le prend au premier degré.
– Le terme est, en partie, POTENTIELLEMENT hors propos, car il a des homonymes ou a plusieurs sens (le cas de « jaguar » par exemple).
– Le terme ne peut pas être hors thématique, par sa nature (ce cas est rare).
– Le terme est une entité nommée.

Donc, vous avez votre liste de termes et allez mettre des notes à chaque terme.

Pour le premier cas, coller la note de -1.

Pour le deuxième cas, c’est plus délicat. Est-ce qu’à courte distance du terme en question l’ambiguïté est levée grâce à une précision, voire augmentée à cause d’autres termes ? Si l’ambiguïté est renforcée par l’environnement immédiat du terme, c’est -1 aussi.
 
Si, au contraire, l’ambiguïté est levée et que l’on est dans la thématique, on met 0,8.
Si aucun terme ne vient confirmer ou infirmer l’ambiguïté, vous pouvez vous baser sur la proportion des recherches et faire varier la note entre -1 et 0.8.

Dans le troisième cas, celui où le terme ne peut pas être hors thématique, mettez 1.5.

Dans le quatrième cas, soit l’entité nommée est hors thématique et on lui attribut une note de -10, soit l’entité nommée est dans la thématique et on lui attribut une note de 2 à 10. Attention : on n’est plein pot dans la thématique que si le sujet du texte parle précisément de cette entité.

La somme de toutes ces notes est-elle positive ou négative au final ? Si cette note finale de ce test est négative, arrachez la tête de votre rédacteur et qu’il refasse son texte ! Oui, je sais, ça va être difficile d’écrire la tête arrachée. Bon, alors, arrachez-lui la tête après qu’il ait d’abord refait le texte ;-).

Si elle est positive, on peut aller plus loin.

7) Certitude thématique

Le poids d’un terme n’est pas le même (dans les langues occidentales) selon que le terme a pour fonction d’être le sujet d’une phrase ou un autre rôle.

Si un texte est composé de phrases qui ont comme sujet Cléopâtre, il y a de fortes chances que le texte a, lui-même, comme sujet Cléopâtre. (C’est vraiment vrai qu’elle était canon d’après vous ?)

Il s’agit plus ici d’un amplificateur du test précédent.

8) Couverture du champ thématique

Là, il s’agit de savoir quelle proportion du champ lexical disponible on utilise et on la compare à d’autres textes du corpus.

Si de nombreux textes de la thématique utilisent 5 % du vocabulaire de cette thématique et que vous faites, vous, du bourrinage, la couverture du champ thématique va dégringoler.

Si un texte a une couverture à la moitié de ce qui se fait, votre texte devient une anomalie dans son corpus => -100, car on a plus le droit de bourrinner.

9) Conclusion

On a donc 4 notes permettant d’apprécier la qualité sémantique objective, quand on s’intéresse à une thématique précise :

– Taux de sémantisation
– Écart thématique
– Certitude thématique
– Couverture du champ thématique

On ne fait pas d’opération globale sur les notes comme cela. La moindre note négative fait envoyer le texte à la poubelle.

Pour le taux de sémantisation notamment, si un texte n’a que des termes sans saveur, le pourcentage de saveur va être trop bas pour avoir la moindre autorité. Cela arrive surtout parce que le rédacteur rallonge à l’envi toutes ses phrases avec des mots inutiles. Dans ce cas-là, on tombe dans l’anecdote ou la citation, c’est sans intérêt.

Si les notes de chacun des tests sont positives, on peut attribuer des coefficients à chacun des tests et multiplier (ou additionner, cela dépend de la quantité de doigts que vous avez) les diverses notes pour avoir une note globale. On a alors le pourcentage d’appartenance à son corpus.

Question : si je parle de cette heuristique ici, serait-ce parce que les moteurs l’utilisent au moins en partie ?

10) Apartés

Écrivez toujours vos textes à la voix active et soyez positif. Il y a des choses en préparation pour savoir si un texte parle en bien ou en mal d’une chose et c’est une des façons de le détecter… Moi, je n’ai rien dit ;-).

Aparté qui n’a strictement rien à voir cette fois-ci : un deuxième lien sera ajouté dans le billet précédent ; ceci en toute fin de we, si tout va bien.
 
.
 
.
 
.
 
.
 
Oups, j’oubliais le croquis…
Le voici :

Il n'est pas beau mon panda à colorier ?

 

Mots-clefs : , ,

Commentaires (29)

  • Avatar

    Régis

    |

    Salut Christian,

    Toujours intéressant.

    – Taux de sémantisation –> Ok, pas compliquer à comprendre.
    – Écart thématique –> Ok, ça peut se faire. J’ai au moins compris qu’il était preferable de dire que La reine d’egypte était jolie plutôt que dire qu’elle était canon.

    Après, je n’ai pas trop compris comment calculer ceci
    – Certitude thématique
    – Couverture du champ thématique

    En outre, l’aparté est elle un petit bijou d’information. Mais, du coup, pour certains articles crtiques, il va falloir parvenir à dire du mal, tout en restant positif dans l’écriture !
    (Pas évident tout ça, surtout lorsqu’on sait que l’inverse de petit n’est pas grand, mais plutôt “pas petit”. ) Cette dernière parenthèse est de trop, je te l’accorde, d’autant plus que nous savons tous que la taille importe peu.

    Reply

    • Avatar

      Christian Méline

      |

      – Certitude thématique :
      Cléoparte est belle => tu parles de Cléopatre
      La beauté, c’est un peu comme Cléopatre => tu parles de la beauté
      En fait, un robot va se contenter de donner plus d’importance au terme s’il est en début de phrase ; statistiquement, ça marche suffisamment bien.
      Il ne faut pas raisonner comme un humain (et faire un analyseur grammatical) : il suffit de comparer à ce qui se produit le plus souvent…

      – Couverture du champ thématique :
      Si tu as, dans une thématique donnée, 500 termes non ambigus (le champ thématique donc, ou lexical si tu veux).
      Si dans ton corpus les textes empruntent en moyenne 20 de ces termes (pas forcément les mêmes) et que toi tu n’en utilises que 2, il y a un soucis.
      Si tu as passé les tests précédents, cela implique que tu as bourrinné, car avec seulement 2 termes, pour ne pas être ambigu c’est que tu as du sacrément les répéter [ou alors ton texte est très court, mais les textes courts sont de + en + ignorés par les moteurs].

      Reply

  • Avatar

    REGENT

    |

    le jaguar étant par essence un félin de la jungle sud-américaine, il faut en plus que l’écrivain ai une culture générale énorme pour avoir une certitude sémantique sur la couverture de son champ thématique !
    @+
    Emmanuel

    Reply

    • Avatar

      Christian Méline

      |

      Salut Emmanuel,
      Cela fait plaisir de te lire ici :-)
      Bon, si l’écrivain, qui parle de Jaguar, ne sait pas de quoi il parle, il peut aussi s’abstenir 😉
      S’il ne sait pas de quoi il parle, on est bien d’accord qu’il n’y aura pas de qualité à attendre.

      Reply

  • Avatar

    Yann

    |

    Merci pour le lien, et j’ai tout compris ! Notamment (c’est mon constat propre) qu’à parfois vouloir atteindre une taille minimale de texte donné, j’ai parfois tendance à donner dans l’envolée lyrique quand il ne s’agit pas tout bonnement de verser dans la logorrhée, donc à diluer… Je vais tâcher de rectifier ça, merci ! C’est un super complément à la super formation des frères Peyronnet en tous cas :-)

    Reply

  • Avatar

    Sylvain

    |

    Tu abordes là la partie que j’aurais aimé voir durer 4 fois plus longtemps dans la Masterclass SEO.
    Et la question que tout le monde se pose derrière ton fantastique article comme après la Masterclass est : Mais comment extraire avec quel outil le corpus sémantique des 20 premières pages sur une requête pour m’assurer d’utiliser les bons mots dans les bonnes proportions ?

    Encore bravo pour cet article.

    Reply

    • Avatar

      Christian Méline

      |

      Merci Sylvain d’avoir apprécié :-)
      Cela prolonge aussi un peu notre conf au SMX de juin dernier.

      Je ne devrais peut-être pas le dire, mais il y a une base de données fantastique : Wikipedia.
      Tu parses une centaine de thématiques totalement différentes, les termes transversaux sont les termes généraux, ceux qui ne sont que dans certaines thématiques sont propres à leurs corpus respectifs. Cela peut être un bon début.
      Tu as aussi les documents scientifiques, dispos sur les sites des universités par exemple, avec des termes savoureux qui sont, parfois, utilisables. En ces lieux, le langage est plein de vitamines…

      C’est beaucoup moins compliqué qu’il n’y parait.

      Reply

  • Avatar

    Vince

    |

    Salut Christian

    Si on rentre directement dans le concret, ma question serait :
    Quel outil utiliser en local (avant de publier) pour ces mesures ?

    Ensuite je suppose que c’est du lourd pour aller sortir les data/thématique sur le net…
    Tout ça se complète, au fil des articles et s’éclaircit, mais il manque la pelle et le râteau, ou le tool qui va bien pour analyser/mesurer.

    Merci pour ces connaissances partagées.

    Reply

      • Avatar

        Ludovic

        |

        Bonjour,

        Pour faire vite un dictionnaire des synonymes + description des résultats GG en première page; ça devrait le faire non ?

        Reply

        • Avatar

          Christian Méline

          |

          Salut Ludovic,
          Les descriptions de GG…
          Les synonymes peuvent dériver hors champ et on peut aussi rater d’autres possibilités sans même savoir ce que l’on a raté ;-).

          Reply

  • Avatar

    Vince

    |

    Merci Christian, je trouve qu’il manque pas mal de ce genre d’outils, ou je ne sais pas les chercher/trouver..

    En tout cas ça doit être des mois passés à analyser/tester tout ça pour en ressortir ces conclusions, encore merci pour ces “résumés” 😉

    Reply

    • Avatar

      Christian Méline

      |

      Dans le flux rss, j’ai dis qu’il y avait eu 12 siècles de R&D; bien sûr, c’est moins ! 😉

      Reply

  • Avatar

    Emile

    |

    Tu te rend compte que j’ai réussis à garder assez de concentration pour réussir a tout lire et comprendre… et comme la plupart des gens, un tool est nécessaire pour “noter” le taff de mes rédac. Laurent avait parlé d’un tool bien sympa textalyser … Sauf que depuis 2 jours le site est down… et il y a de ça une semaine… j’étais entrain de me dire que d’ici peu le site ne serait pas dispo que ca ne m’étonnerai pas… va savoir pourquoi ^^

    Reply

    • Avatar

      Christian Méline

      |

      Si tu recherches : “software|freeware|logiciel” “corpus”, en fouinant un peu, tu vas trouver 😉

      Reply

  • Avatar

    Vince

    |

    Christian a tout dit,
    bon c’est certain que pour nous aider il pourrait nous sortir ses tools lol…

    Encore une petite question Christian : là on est plus sur du texte rédigé pour le moteur ou alors il faut mesurer moteur et utilisateur, ouch…

    On est plutôt moteur là non ?

    j’attendais cet article avec impatience et suis pas déçu, mais va falloir que j’emploi un ou deux ingénieurs là…

    sinon sans plaisanter, c’est très intéressant (si j’ai tout compris[presque,peut-être])
    dans trois ans GG n’a plus besoin de “pseudo quality.R humain” et il fera comprendre à son algo (ce qu’il veut), ce qui est optimisé sémantiquement (pour lui/selon sa bonne volonté)? de la façon dont il l’aura décidé (ce qui ne sortira pas du jus de cerveau humain mais d’une combinaison mathématique/algorythmique) …

    Reply

    • Avatar

      Christian Méline

      |

      Déjà qu’il y a très très peu d’être humains chez Google… (pour peu qu’ils soient encore humains d’ailleurs ;-))

      Reply

  • Avatar

    Carine

    |

    Bonjour Christian,

    Toujours aussi {agréable|enrichissant|éprouvant mentalement ;-)} de lire tes explications. Merci pour tes éclairages algorithmiques.

    Les points 4 et 5 me désespèrent un peu. En les lisant — et pour autant que je les aie compris correctement — je n’ai pu m’empêcher d’en déduire que des textes correctement écrits mais un peu spammy ou des textes courts ont davantage de chance d’avoir un taux de sémantisation plus élevé (puisqu’on parle bien de “taux” et non de “nombre absolu” de sèmes).

    Ce qui, par ailleurs, me paraît un peu en opposition avec le critère “in-depth article”. Ces derniers seront forcément plus longs, écrits avec plus de soin, dans un niveau de langage souvent plus élevé, avec comme corollaire (le plus souvent) une plus grande quantité de “mots humides”. Comment imagines-tu que les deux notions s’articulent ?

    Encore une petite question : qu’appelles-tu “entité nommée” ?

    Reply

    • Avatar

      Christian Méline

      |

      Salut Carine,

      Les textes courts ont peu de chance de passer… parce qu’ils sont courts et que ça n’intéresse pas les robots. En outre, avec un texte court, comment passer le test de la couverture thématique ?

      Pour les entités nommées, on va faire honneur à des voisins : http://www.info.univ-tours.fr/~antoine/Termino.html

      Reply

      • Avatar

        Carine

        |

        Hello Christian,

        Merci pour ta réponse. En disant “court”, je ne pensais pas à des textes succincts au point que Google n’en tiennent pas compte. Je comparais plutôt un texte “standard” de 400 à 500 mots à un texte fleuve de 1500 à 3000 mots comme nous sommes quelques uns à en “commettre” parfois.

        Dans les deux cas, ce sont potentiellement des textes de valeur (pour conserver ta distinction entre valeur et qualité) mais il me semble que les premiers ont plus de chance d’être de qualité objective parce que généralement plus concentrés en “mots secs”. Par contre, les seconds sont souvent plus “in-depth”.

        Merci pour ta référence concernant les entités nommées. C’est ainsi que je l’avais compris.

        Bonne journée.

        Reply

  • Avatar

    Laurent Bourrelly

    |

    Bravo c’est limpide !
    Pour ceux qui cherchent un tool, vous allez être satisfaits très très prochainement.

    Reply

  • Avatar

    Sacha

    |

    Bonjour Christian,

    Merci pour cette très bonne réflexion.

    Est-ce que tu regroupes les mots de la même famille (lémmatisation) avant de calculer ton score pour le calcul du taux de sémantisation ?

    Reply

    • Avatar

      Christian Méline

      |

      Bonjour Sacha,

      Oui le plus souvent, pour le genre et le temps par exemple, mais pas au point de consédérer que chiot = chien.
      Pour le genre, dans certains cas, il faut faire la différence (ce que l’on ne ferait pas pour la détection de DC).
      On le sait si le centre du thème est plutôt féminin ou plutôt masculin.

      L’important reste surtout d’utiliser les mêmes règles pour régler les curseurs du corpus et ceux du texte étudié.

      Reply

  • Avatar

    Manon

    |

    Article fort pertinent. J’avoue que j’ai un peu décroché sur la partie 6: l’écart thématique, mais sinon, ça va.
    Bref, si on devait toujours rester positif, les articles de critiques, l’humour, etc. ne vont-ils pas finir par disparaître?

    Reply

  • Avatar

    jd

    |

    Un grand merci pour cet article qui fait un bon rappel rapide de la formation des frères Peyronnet.

    Cependant au même titre que les masterclass, si celà est passionnant d’un point de vue, scientifique, savoir, comprehension, je me pose des questions sur l’applicabilité de tels concepts au travail d’optimisation SEO, et en particulier pour des petites structures.

    Il me parait fort difficile, d’imaginer de developper un robot, qui scrap et constitue un corpus de la thématique, puis analyser toutes les pages du sites à optimiser, pour en déduire qu’il faut rajouter 10% en plus de mot “example1″, supprimer 7.5% de stopword…

    Finalement est ce que celà n’est il pas seulement utile à connaitre lorsque l’on developpe du spin?
    Car finalement, ce sont des calculs qui permettent de dire qu’un texte est de qualité sémantique? alors pourquoi ne pas directement prendre un rédacteur qui rédigera avec une bonne qualité sémantique?

    Enfin, comme lors des masterclass, le concept de thematique reste tout aussi abstrait.

    Si, je cherche à ranker une page sur les t-shirt de sport, quels sera la thématique qui permettra de constituer le corpus référenciel?
    – les t-shirts
    – les vetements de sport
    – les vetements
    – le textile
    – la mode

    Car dans ces cas les corpus seront fort différents?

    Enfin à partir de quoi est constituer le corpus de GG.
    Si l’on prend le cas de la mode/textile, les analyses de corpus serotn for différentes si l’on se base sur:
    – les blogs de mode (de qualité sémantique faible)
    – articles de journaliste de mode (de qualité sémantique plus elevé)
    – articles scientifique sur le textile (de qualité sémantique encore plus elevé)

    Reply

    • Avatar

      Christian Méline

      |

      Pas de spin via la méthode décrite ici, de grâce !!

      Reply

  • Avatar

    Christian Méline

    |

    Le tool dont parle Laurent est présenté ici.

    Reply

  • Avatar

    Witamine

    |

    Cet article rank sur “valeur objective cléopâtre” :)

    Reply

    • Avatar

      Christian Méline

      |

      j’en rêvais, GG l’a fait 😉

      Reply

Laisser un commentaire