Détection algorithmique de la qualité des contenus

Ecrit par Christian Méline sur 10 octobre 2013. Publié dans blog-seo

: Peut-on décider Google à aller enfin vers une détection algorithmique de la qualité de contenu ?

La question de la qualité du contenu rédactionnel se pose de plus en plus depuis que Google a affirmé vouloir que les webmasters en fassent.

Mais que fait-il au juste pour mettre cela en pratique ?

Il est vrai que, venant de Google, c’est surprenant : on ne peut pas dire que le sapin de Noël que sont devenues les SERP soit guidé par une démarche qualité… Je ne sais pas pour vous, mais personnellement, je ne trouve pas ça très « inspiré »…

Une vraie question se pose donc : qu’est-ce que la qualité ? Comment Google pourrait-il détecter qu’un texte est rédigé avec talent ?

Peut-être qu’en fait, la question est mal posée.

Pendant que je préparais ce billet, prévu initialement pour dans 15-20 jours, un non-billet publié cette semaine m’a fait bondir tant on peut dire que si la qualité n’existe pas dans l’absolu, la « nullité », elle, existe dans cet absolu !

Du coup, le billet arrive en avance pour le placer dans un contexte d’actualité.

La qualité au quotidien
Qu’est-ce que la qualité ?
Cette semaine, un non-billet, un TROLL s’est présenté sur un plateau
Détection algorithmique de la nullité
Le mot de la fin de ce billet (mais pas la conclusion)

Besoin d’un référenceur ? D’un coach ? D’un audit ? Contactez-nous, il parait que l’on est super 😉

1) La qualité au quotidien

Sans doute, chaque jour, lisons-nous tous quelques billets de blogs.

De ces lectures, nous attendons vraisemblablement un petit quelque chose…
Nous espérons sans doute, en arrivant sur un billet, lire un contenu qui représente, pour nous, une certaine forme de qualité.

Mais encore cette question : qu’est-ce que la qualité ?

Et si nous regardions dans ce cas-là, la qualité sous l’angle de l’utilité ?
Peut-on classer ce qui est utile sur le web et ce qui ne l’est pas ?

Je ne sais pas pour vous, mais, globalement, j’ai toujours un peu de regret quand, à postériori, je m’aperçois que j’ai perdu du temps sur la lecture d’un billet, billet qui se révèle totalement inutile pour moi.

Pourtant, nous avons tous du temps que l’on accepte parfois de perdre, parce que ce moment, celui que l’on s’offre ainsi, constitue une détente ou un plaisir.
Quand c’est volontaire, notre démarche est alors bien inscrite dans l’idée de perdre un peu de temps. C’est NOTRE choix, dès le départ.
En fait, inconsciemment, une de nos raisons est de nous donner l’illusion que nous avons du temps que l’on PEUT perdre… C’est cette confirmation dans l’acte qui va constituer un des enrichissements que nous en tirerons.

En somme, perdre son temps dans certains cas, oui, mais finalement, pas sans raison.

Revenons à nos lectures régulières de billets.
Nous trouvons de nombreux billets inutiles sur certains blogs qui « pissent du contenu », souvent quotidiennement, contenu qui est fait vraisemblablement dans l’objectif d’alimenter le blog sans aucun respect de l’internaute (notez que j’ai dit « vraisemblablement » et pas « probablement »).

Un internaute qui vient sur un blog cherche un enrichissement de valeur.
Si le blog est professionnel, il ne recherchera pas une information totalement plate ou déjà diffusée de partout. Il va chercher quelque chose qui est propre au blogueur, information qui éventuellement n’existe nulle part ailleurs. Cela peut être une idée, un point de vue, une vraie info nouvelle, de l’humour aussi, mais dans tous les cas, il faut qu’il y ait quelque chose qui soit « enrichissant » quelque part pour lui, lecteur.

Le blogueur doit transmettre de la valeur à ses lecteurs.

Le blogueur ne doit pas penser qu’à sa petite personne, ni seulement à son trafic, il doit aussi respecter ses lecteurs, qu’ils soient occasionnels ou non.

Oui, OK, pondre du billet à la chaîne, chaque jour, ça marche côté trafic.
Mais si c’est pour ne rien dire, le blogueur VOLE du temps à l’internaute, or, ce temps ne lui appartient pas.
Selon moi, soit le blogueur tente réellement d’apporter quelque chose dans un billet, soit il écrase et ne fait pas de billet…

Selon moi encore, un blog qui pond du contenu sans intérêt, à la chaîne, SPAMME le web.
C’est du webspamm, rien d’autre.
D’accord, la mise en page peut être soignée, les phrases avec peu de fautes de français… mais où se trouve l’enrichissement de valeur qui est due à l’internaute ?

Est-ce que Google peut virer de son index ces billets sans saveur ?
Peut-on trouver une solution algorithmique pour dégager ces billets insipides ?

Cela nous renvoie encore une fois à ces notions de qualité, questions tellement impalpables et/ou subjectives.

Pourtant, je vous propose mon approche de la qualité et je vais vous montrer ici qu’il y a un espoir pour qu’un robot puisse détecter un texte sans intérêt. Dès lors que l’on pourra apprendre de ces blogs, on pourra généraliser à d’autres cas de figure.

2) Qu’est-ce que la qualité ?

Mon point de vue sur le spam varie quelque peu de celle de Google. Cela me gêne moins, au fond, qu’un spam existe quelque part sur le web où personne ne va jamais, sauf Google. Mais les blogs, eux, sont lus. C’est très ennuyeux quand le contenu produit ne vaut rien.

Sur la forme d’un contenu, Google peut déjà détecter beaucoup de webspam.
Mais une fois le webspam écarté, comment définir ce qu’est un contenu de qualité dans ce qui reste ?
Cela devient compliqué, en apparence du moins.

En effet, à défaut de caractériser ce qu’est un contenu de qualité, est-ce qu’un algo peut détecter des cas de « nullité » ?

On pourrait émettre le postulat, par exemple, que tous les contenus du web sont de qualité, sauf :

le webspam (déjà combattu par Google),
tous les contenus nullissimes et dénués du moindre intérêt.

Cette première définition me semble bien.
On fonctionne en mode « tout sauf », cela peut déjà servir de base de départ.

Pourquoi cela pourrait-il marcher ?

Cela résoudrait un problème crucial puisque, pour juger de la qualité d’un contenu, on n’aurait plus à porter de jugement sur l’internaute qui le lit.

En effet, un contenu, bien construit et bien développé, sur la logique du premier ordre, peut être de qualité pour quelqu’un qui s’intéresse à ce sujet, mais il ne sera pas perçu ainsi pour ceux qui se moquent totalement de ce sujet.
Donc, si on décrète que ce contenu est de qualité, on porte un jugement de valeur sur ceux que ce contenu n’intéresse pas, puisque cela revient à dire qu’ils ne s’intéressent pas à la qualité finalement. C’est vexant.

Si, au contraire, on dit que tout contenu est de qualité, pourvu qu’au moins quelques personnes le trouvent intéressant, on change l’approche et on ne porte plus de jugement sur les internautes que le sujet n’intéresse pas. On sait que cela en intéresse certains, cela nous suffit.

Proposition :
Est de qualité tout contenu qui n’est pas classé « inintéressant » par tout le monde.

3) Cette semaine, un non-billet, un TROLL s’est présenté sur un plateau

Le voilà le truc qui m’a fait sortir cet article avant l’heure…

Un non-billet, que j’ai trouvé particulièrement nul, cette semaine portait sur une pseudo-critique de 4 annuaires.

Pourquoi je pense que ce non-billet est nul :

Le non-billet démarre par une mise en valeur de l’auteur qui a fait mieux que tout le monde dans le domaine abordé. Il se vante, mais ne donne plus ensuite le moindre élément permettant de vérifier ses dires.
Il parle de critique, mais, au fond, à peine 250 mots par annuaire, c’est maigre. Il n’y a pas de quoi développer la moindre analyse. On pourrait s’attendre à plus d’éléments et d’arguments. Là, c’est juste bâclé.
Les titres des paragraphes reprennent les URL des annuaires, pourtant, on ne trouve pas de liens vers ceux-ci. Il y a pourtant plusieurs liens vers d’autres articles du même auteur sur le même site. Cela ressemble tellement peu à l’esprit du web !
Les commentaires du non-billet sont verrouillés par un système où il faut un compte dédié, freinant ainsi l’interaction avec l’internaute, sans doute que, finalement, les avis de ceux-ci n’ont pas d’importance pour l’auteur de ce non-billet puisqu’il cherche seulement à être le seul à donner son avis.
A aucun moment l’auteur ne donne la moindre métrique sur les 4 annuaires, rien.
A aucun moment l’auteur n’aborde la question du trafic réel de chacun de ces annuaires.
L’auteur nous précise qu’il pourrait nous fournir une pléthore d’exemples de critères SEO, mais n’en donne aucun.
L’auteur n’aborde pas la question des publicités sur les annuaires, question épineuse pourtant…
L’auteur censure tout avis trop contraire au sien (voir mon échange avec lui sur Google plus).
En pratique, on se rend compte que ce non-billet est finalement un règlement de compte avec certains annuairistes, un vrai Troll. Le Troll est la façon la plus méprisable de faire de l’audience sans avoir besoin du moindre neurone….

Mais pourquoi ne pas profiter de ce non-billet pour transmettre quelques petites choses importantes au lecteur ? Le gars veut juste une tribune et tant pis pour les lecteurs ?

PS : En plus, il ne parle même pas de notre super annuaire à nous Human Directory (www.ociwen.com), c’est suspect, non ? (je plaisante ;-))

Quel que soit le type d’internautes (propriétaire de site, référenceur, annuairiste), on ne peut rien tirer de cet article, prétendument critique.

Le gag, par rapport à notre propos, est la phrase finale du non-billet : « Inciter les webmasters à fournir du contenu engageant. » LOL

Je répare une injustice, voici les liens vers 4 annuaires (le Troll en question ne partage rien) :
El-annuaire.com
Webrankinfo.com/annuaire/
Infinisearch.fr
Costaud.net

Malheureusement, ce non-billet n’est pas un cas isolé…

4) Détection algorithmique de la nullité

Un ordinateur peut-il détecter un contenu si celui-ci comprend des éléments caractérisant les billets nuls ?

Peut-on utiliser, par exemple, les classifieurs pour arriver à nos fins ?
Les masterclass des frères Peyronnet peuvent vous donner quelques pistes de réflexion sur les façons dont on peut traiter les choses.

Bien sûr, dans tous les cas, classifieurs ou pas, on dispose d’un bon paquet de modèles de nouilleries en tout genre. Cela est d’autant plus facile que les auteurs de billets insipides ne sont pas, par définition, intéressés par ce qu’ils écrivent. Du même coup, leur propos n’est pas défensif de ce point de vue, puisqu’ils écrivent sans vraiment réfléchir… Ils laissent ainsi de nombreux indices derrière eux, c’est pratique 😉

Mais, et c’est là une notion importante à appréhender, on n’a pas besoin qu’un ordinateur puisse comprendre quoi que ce soit. C’est un faux problème. On veut juste qu’il arrive aux mêmes conclusions que nous.

Ceci est vrai en IA, mais d’une manière générale, en algorithmique.
Ainsi, si tant est que, humainement, on puisse distinguer de façon absolue ce qui est de non-qualité ou pas, il nous suffit de refourguer ces modèles à un algorithme pour qu’il apprenne à détecter d’autres cas de non-qualité. L’algorithme ne comprend rien à ce qu’il fait, mais est « taillé » pour donner les mêmes résultats que ceux de l’homme.

On ne manque pas d’algos en stock. Il reste juste à sélectionner celui qui est le plus praticable dans ce cas-là, c’est tout. J’exagère un peu, mais pas tant que ça :

Il faut savoir qu’avec un énorme masse d’exemples et un algorithme peu développé, on arrive à plus de résultats qu’avec un algorithme très bien conçu, mais qui a un peu moins d’exemples.

La nullité étant assez bien répandue sur le web, cela nous laisse pas mal d’espoir !

C’est juste une question de volonté de la part de Google.

5) Le mot de la fin de ce billet (mais pas la conclusion)

Les 3 messages que je souhaite faire passer dans ce billet (qui, j’espère, n’est pas nul ;-)) :

Le web mérite mieux que des billets, sans intérêt, débités au kilomètre : apportons de la valeur aux lecteurs.
La question de la qualité des contenus peut s’appréhender sous l’angle « Est de qualité, tout ce qui n’est pas inutile pour au moins quelques lecteurs ».
Un algorithme peut détecter diverses situations, mais n’a pas besoin de fonctionner comme nous pour y arriver. Un algorithme ne pense pas, il n’en a pas besoin. Mais il peut réussir à faire les mêmes « déductions » que nous, sans avoir besoin de la moindre forme de pensée…

Bonus pour la route : un algorithme (ou agent dans certains cas) peut aussi agir et s’adapter à un milieu en mouvement ou incertain… un peu comme les virus biologiques. Et, avec les progrès qui sont faits, de plus en plus souvent c’est l’algo qui gagne !
Pourtant, les algorithmes sont idiots puisque non conscients de leur « intelligence »…

Je vous laisse méditer…

Commentaires (27)

El-annuaire

10 octobre 2013 à 16 h 01 min | #

Merci bien pour le lien vers l’annuaire Christian 🙂 Tes réflexions m’intéressent beaucoup, il y a énormément de monde qui cherche comment fabriquer un algorithme de la qualité, un programme capable de penser à notre place. Lorsque j’ai commencé a gérer l’annuaire, il a bien fallu que je définisse au mieux les critères de qualité pour l’acceptation d’un site, et effectivement une fois enlevé toutes les causes techniques de refus comme : hors règlement, 404, texte dupliqué, etc, il me restait à préciser la nature de la qualité du contenu attendu, et j’en suis rapidement arrivé à la même conclusion que toi : « Est de qualité, tout ce qui n’est pas inutile pour au moins quelques lecteurs ».

Reply
Sylvain

10 octobre 2013 à 16 h 22 min | #

J’ai médité…

En fait j’avais déjà médité il y a quelque temps ici http://blog.axe-net.fr/qualite-du-contenu-pour-google/ et la seule chose qui a changée, c’est l’arrivée de hummingbird.

Peu de gens savent vraiment ce que fait cet oiseau dans le détail, mais on peut dire que globalement, il comprend mieux les recherches et peut-être un peu mieux les contenus.

On sait aussi qu’il a été mis en oeuvre pour mieux comprendre les recherches vocales qui sont souvent plus longues car elles ne sont généralement pas composées de mots-clés, mais de vraies phrases, avec une majuscule au début et un point à la fin, d’ailleurs, ce point est souvent d’interrogation.

Quoi qu’il en soit, j’adhère particulièrement au premier message que tu souhaites faire passer, et c’est le cas de ton billet.

Reply
Simon Tripnaux

10 octobre 2013 à 16 h 25 min | #

A mon humble avis ce n’est pas dans le contenu que ça se passe : la tâche de détecter la qualité à été déléguée … aux internautes ! C’est à mon sens l’un des rôles des réseaux sociaux. On ne « like » pas un article qui nous a fait perdre du temps, tout bonnement ! Cela dit il est vrai aussi que certains internautes relayent et plussoient un peu tout sans lire réellement ce qu’ils partagent. Quant à l’AuthorRank dont tout le monde parle, il est bien là pour ça : déterminer qui sont les leaders, soit ceux qui publient de la qualité.

Reply
Lionel - Yooda

10 octobre 2013 à 16 h 37 min | #

Ca me fait penser que chez Yooda, on avait pensé un algo pour évaluer les annuaires qu’on avait appelé le « Chelou Rank ». 😀
Si je me souviens bien, c’est un algo qui apprenait de l’évaluation faite par un humain. Il déterminait les points communs des « mauvais » sites. Dans l’idée, cela permettait de surveiller d’abord les annuaires avec un ChelouRank élevé.

Finalement, je sais qu’on a une personne qui qualifie la base d’annuaires Submit; mais je vais mener l’enquête en interne pour vérifier si on utilise un algo pour cibler. 🙂

Reply
- Christian Méline
  
  10 octobre 2013 à 16 h 47 min | #
  
  Pour arriver à faire quelque chose qui permette de ne pas se tromper de trop de façon algorithmique, il faut au moins avoir plusieurs millions d’exemples de billets « nuls » et de billets « lus et approuvés »… On parle vraiment en million, voir en milliard…
  Plus ta base est petite, plus l’algo devra être sophistiqué.
  
  Reply
Julien

10 octobre 2013 à 16 h 56 min | #

Pour moi les indicateurs de qualité pertinents et encore non (ou peu) pris en compte par Google sont disponible dans un outil d’analytics : Taux de rebond, Pages Vues, Temps moyen…
Sinon j’ai lu l’article dont tu parles en .3 et c’est vrai que Y….. aurait du mettre des liens au moins 🙂
PS : Ca fait deux fois que je tombe sur ton site en deux jours !

Reply
- Christian Méline
  
  11 octobre 2013 à 23 h 01 min | #
  
  -> PS : Ca fait deux fois que je tombe sur ton site en deux jours !
  
  J’essayes de faire un billet par semaine, mais pas forcément à jour fixe.
  Tu es le bienvenu ici Julien.
  
  Reply
www.Omnireso.com

10 octobre 2013 à 22 h 43 min | #

Tiens, serait-ce la semaine des articles « nuls » ?

Malheureusement je pense que le critère suivant « Est de qualité tout contenu qui n’est pas classé « inintéressant » par tout le monde. » est biaisé par le fait qu’il y aura toujours des internautes pour voir l’intérêt de poser un BL sur un site pas très populaire, et donc pas déjà pris d’assaut par la blogosphère…

Reply
yann

11 octobre 2013 à 0 h 20 min | #

bonjour , Avant tout merci pour ce billet de qualité 😉

Je connait rien en développement et j’ai du mal a saisir comment fonctionnerait un tel algorithme ? Analyse de la mise en page, le taux d’adjectifs ou des termes qui indiqueraient la présence d’une information comme « est de », ou carrément une évaluation de l’orthographe ? Quels sont les facteurs qui pourraient être pris en compte pour évaluer la qualité, hormi l’interprétation humaine reflétée par la viralité des posts de l’auteur ?

Côté Hummingbird, j’ai fait une analyse de ce que j’en avait compris dans un billet sur l’authorrank, je sais pas ce que vous en pensez ? -http://leconnard.fr/limpact-de-lauthorrank-sur-le-monde-du-contenu/

Je me pose juste une question, hummingbird pourrait a priori interpréter une phrase dictée normale mais les utilisateurs vont-ils changer leur méthodologie de recherche aussi rapidement ? Perso même avec la reconnaissance vocale j’ai tendance à formuler mes demandes comme je formulerait une requête de recherche.

Merci à bientôt

Reply
ranty

11 octobre 2013 à 1 h 12 min | #

Bonsoir,

Il faut quand même prendre conscience que chaque individu est différent, perçoit les choses différemment, qu’un contenu d’un site peut changer simplement parce qu’avec du recul, le créateur de ce contenu s’est rendu compte que justement cela n’apportait rien.

De la même manière, malheureusement, les fautes d’orthographes voire même plutôt de grammaire dépendent aussi du rédacteur, est ce une raison pour l’écarter?, cela se substitut il à une qualité d’information ?

Les « pisseurs de contenus », je me suis fait la réflexion il y a quelques jours, dans mes cercles (je prend l’exemple de google +) et bien sur une centaine je vais avoir au moins 20 fois le même partage dans mon flux de ces 20 personnes, visuellement j’arrive maintenant a vite repérer les x doublons, en même temps tu vas me dire que je pourrais éjecter de mes cercles certaines personnes mais comment savoir que demain une de ces 20 personnes ne va pas me balancer un super article que j’aurais loupé si je ne l’avais pas suivi? Et encore je n’utilise plus facebook mais il y a des CM (Community Manager) qui balancent le même contenu sur facebook, twitter, google+,scoop.it… et j’en passe, mais que dire, la personne qui n’est que sur un seul média social profitera de l’information, dans mon cas je prend au minimum 4 fois l’infos * x partageur = prise de tête.

Le pire s’est qu’il y a des plateformes développées juste pour diffuser la même information sur plusieurs réseaux sociaux et on peut même les programmer, ça par contre c’est désolant, si les « partageurs » ou rédacteurs devaient le faire à la main je pense qu’on en aurait beaucoup moins.

Donc un algo pour trouver du contenu de qualité comme tu le suggères et sur ta base, vu ce que je viens de dire précédemment ne serait pour le coup, pas très « social », et se fier à quelques ‘+1’ pour dire qu’un site est de qualité je pense que c’est une chimère si tu ne prend pas d’autres paramètres en compte car dans la pratique notamment sur facebook c’est plutôt « ha oui lui s’est mon pote donc ‘+1’ direct » et je ne parle pas des fraudes par achat de cliques!

A mon avis l’intelligence artificielle peut faire beaucoup mieux sans pour autant sanctionner ce qui ne l’est pas forcément. Exemple tout bête, mon site est français, si s’est Google qui le traduit en anglais ou chinois là je suis dans les choux! (traduire => dans les plus que nuls!)

Pour finir : l’information la plupart du temps tu la trouves où et quand ? pas à ton réveil dès que tu ouvres les yeux, une idée peut-être mais de là à ce qu’elle soit révolutionnaire ou inconnue des autres …. donc tu trouves cette info sur l’AFP, dans les journaux, mais à part si tu es sous l’avion qui est en train de s’écraser (pas génial comme exemple!) et bien tu le sais grâce à d’autres support donc au mieux tu vas ajouter ta plume à cette info mais dans tous les cas tu vas diffuser une info qui n’est pas la source.

Pour ma part la qualité viendrait plutôt de la réaction à un événement, une info, et là y en pour tout les goûts… au fond c’est peut être ça qui est intéressant, qu’en penses-tu ?

Quand aux blogs qui rabâchent toujours la même chose, beaucoup ne sont que des blogs qui servent de support pour avoir un revenu des publicités ou récupérer ton email (perso je haie les auto-répondeurs!). Et ça c’est pas demain qu’ils vont disparaître, faut être réaliste!

Sur ce, bonne soirée
Olivier

Reply
Galliez Bruno

11 octobre 2013 à 3 h 11 min | #

Bonjour,

Je suis tombé un peu ici par hasard et par curiosité. Mais je m’interroge quand à cet article.

Vous le dites vous même : « […]questions tellement impalpables et/ou subjectives.[…] ». Alors comment diable peut-on avoir un résultat « sérieux » sur la qualité d’une page lorsque celle-ci est analysée par un algorithme ?

Étant débutant dans mon domaine, je lis et suis beaucoup d’autres personnes qui comme moi partagent ce qu’elles découvrent et testent. Et parfois c’est casse tête, mal mis en page ou carrément à côté de la plaque 😀
Et pourtant, il y a toujours un détail qui éveille la curiosité et qui permet d’apprendre quelque chose de nouveau.
Comment un algorithme pourrait-il bien déceler ces détails ? ( Qui seront évidemment aussi subjectifs 😀 )

Reply
- SylvainP
  
  12 octobre 2013 à 11 h 33 min | #
  
  Il faut bien voir qu’un algo cela peut être beaucoup plus que le simple « matching » de critères déterminés objectivement. Je t’invite à t’intéresser au concept de classifieur (plein d’infos ici) et notamment à ce que l’on appelle l’apprentissage non-supervisé, tu verras qu’un algo peut catégoriser des contenus sans qu’on (=l’humain) ne connaisse les critères qu’il utilise.
  
  Reply
  - Mathieu JANIN
    
    25 octobre 2013 à 11 h 15 min | #
    
    Je n’ai pas encore eu l’occasion de suivre une Master Class, donc je n’ai qu’une idée rapide sur ce que recouvre le terme de classifieur, mais je compte bien corriger ça dés qu’une master class aura lieu prés de Caen. 😉
    Quoi qu’il en soit, dans une explication que je ne retrouve malheureusement plus, D.J. Matt Cutts expliquait le fonctionnement de panda grossièrement de la manière suivante:
    – des humains font des révisions de pages/sites échantillonnés et sensés être représentatifs de l’état du web, et ils donnent des notes subjectives à chaque site concernant la qualité perçue sur une longue une liste de critères « humains » (achèteriez vous sur ce site ? trouvez vous le site beau ? reviendriez vous sur ce site y chercher de l’information ? etc.).
    – Chaque évaluation humaine est associée à une série d’éléments techniques objectifs (quantité et position des pubs, menu répété ou non à plusieurs endroits, lourdeur du footer, longueur des pages, richesse du corpus, etc.), et le résultat des évaluations rapproché avec l’état des critères objectifs constitue une base de donnée de signatures, auquel l’algo n’a plus qu’à comparer un site ou une page pour avoir des « indices » de sa qualité (l’intervention n’indiquait pas comment le filtre exploitait cette bdd de signatures).
    
    Tout ça pour dire qu’il existe des manières de qualifier par voie algorithmique ce qu’un humain considère subjectivement comme qualitatif ou non, sans être obligé de coder >en dur< des critères objectifs de qualité. Panda en est un exemple et il "apprend" au fil du temps ce qui est apprécié par les uns ou les autres.
    
    Sinon, oui, sauf que le taux de rebond n’est pas un critère de qualité. Un site de conseils de bricolage trés bien référencé sur ses fiches techniques (pages profondes) peut avoir un énorme taux de rebond parce que les visiteurs arrivent pile poil sur des pages qui répondent directement à leur préoccupation.
    Je suis sur que marmiton a un trés fort taux de rebond par exemple.
    
    Reply
    - Christian Méline
      
      25 octobre 2013 à 13 h 12 min | #
      
      Pour ma part, je ne crois pas non plus au taux de rebond
      
      Reply
    - Tom
      
      8 novembre 2013 à 15 h 35 min | #
      
      Bonjour,
      
      Je ne partage pas votre avis concernant le taux de rebond. Matt Cutts dit effectivement qu’il n’est pas prise en compte (comme le temps sur site d’ailleurs) dans le référencement. Mais je n’y crois pas vraiment :
      
      ==> J’ai effectué un test sur un de mes sites pendant un mois en « manipulant » avec un petit script le taux de rebond et le temps sur site mesuré par Analytics (En réalité j’ai juste corrigé l’erreur de mesure de Google). Résultat : >10% de trafic en plus (toute chose égale par ailleurs, le site étant même sur une pente descendant en terme de référencement).
      Les détails et la preuve dans cet article au point 4: -http://www.ujustdoit.com/referencement-de-bon-sens-le-vrai-visage-de-google/ (aujoud’hui le site est lent… problème serveur, désolé).
      
      Concernant l’exemple « fiches techniques »: Je ne vois aucune utilité de créer un site de conseil qui offre une multitude de fiches techniques de qualité sans vouloir inciter le visiteur d’effectuer une action supplémentaire (acheter, s’inscrire, participer, …) ou le gérant du site est simplement un philanthrope. Dans ce cas il y a un deuxième clic et le taux de rebond n’est pas impacté négativement.
      
      –Tom–
      
      Reply
Christian Méline

11 octobre 2013 à 16 h 33 min | #

@yann @ranty @Galliez Bruno
Globalement, il est très différent d’apprécier que quelque chose est vide, alors que, s’il est rempli, il est difficile de comprendre avec quoi il est rempli.
Le vide peut se détecter, en tous cas sur des billets de blogs…

Reply
Galliez Bruno

11 octobre 2013 à 17 h 17 min | #

Oui je suis bien d’accord sur le principe qu’un algorithme peut très bien identifier certaines choses. Exemple : l’orthographe, les mots clés ( parlent-on bien du sujet ? ) etc…

Mais ça ne reste qu’un indice non fiable à mon avis sur la qualité.

Reply
hebergement web maroc

12 octobre 2013 à 13 h 32 min | #

Je pense que la qualité ne peut être détecté que par des humain pro & est intègres.
A moins de trouver, mais on ne sait jamais tout est possible à l’avenir.

Reply
- Christian Méline
  
  12 octobre 2013 à 13 h 48 min | #
  
  Si bien sûr, lis mieux l’article mais aussi les échanges en commentaires
  
  Reply
Victor Lerat

13 octobre 2013 à 14 h 42 min | #

J’aime beaucoup le dernier commentaire et l’ancre utilisé pour le petit BL.

Trêve de critiques et je vais parler de cet article. C’est beau c’est propre et c’est bien écrit. J’ai cru un moment que j’allais abandonner pourtant (certaines tournures m’ont prise la tête).

J’émet un doute sur ce ça : « Est de qualité, tout ce qui n’est pas inutile pour au moins quelques lecteurs ». Je pense qu’un contenu peut toujours (ou presque) plaire à un lecteur ou un groupe de lecteur. L’internaute n’est d’ailleurs pas très intelligent donc il n’est parfois pas nécessaire de faire des contenus « de qualité ». En claire le sujet est épineux.

Comment Google arrivera t-il à faire la différence entre un contenu de qualité pour un internaute de 15ans, pour un étudiant en bac+5, pour un philosophe des temps modernes, …

Quand à l’article que tu cites ciblant les 4 annuaires, j’ai pensé exactement la même chose que toi. D’ailleurs, un annuaire à l’inscription lourde (je pensais au tiens).

En tout cas, l’arrivé de Hummingbird relance le débat du contenu et de la qualification de l’expression « Qualité ».

Reply
- Christian Méline
  
  13 octobre 2013 à 14 h 54 min | #
  
  Désolé pour certaines phrases, c’est écrit en groupe sémantique, j’essaye d’être le plus précis possible 😉
  Quand je dis « à au moins quelques lecteurs », cela peut être quelques lecteurs « moyens », on ne fait pas d’élitisme !
  L’idée principale étant de faire du ménage dans l’index d’un côté et de pousser les blogueurs à écrire des choses intéressantes s’ils veulent être indexés (quand cela sera en place).
  
  Reply
Farid

14 octobre 2013 à 9 h 42 min | #

Un algorithme ne pourra jamais connaitre les différences de nuances ou l’ironie dans un texte. Cette nuance de qualité est à prendre avec des pincettes .

Reply
- Christian Méline
  
  14 octobre 2013 à 12 h 41 min | #
  
  Il n’a pas besoin de comprendre les nuances ou l’ironie avec ce qui est dit là…
  
  Reply
vincent-brossas.com

15 octobre 2013 à 11 h 29 min | #

Déjà d’une: ce billet est loin d’être nul… 😉
De deux, personnellement je pense que la qualité du texte va être déterminé par la grammaire, la syntaxe et l’orthographe des contenus dans un futur proche, si ce n’est pas déjà fait ? Il devient tellement facile d’utiliser un correcteur orthographique, pourquoi Google s’en priverait en rachetant une société de ce type et en poussant les choses un peu plus loin (si ce n’est pas déjà fait bis) et bien sur en l’intégrant à son algo…
Le deuxième point selon moi pour juger de la qualité d’un contenu: les signaux sociaux avec les partages. Si possible en analysant les profils qui partagent et en donnant plus de poids à des auteurs bien followés ou likés par exemple.
Bien sûr, en tant que référenceur, on pourra toujours trouver des parades, mais ce sera déjà un peu plus compliqué…

Reply
Jeremy

24 octobre 2013 à 17 h 25 min | #

Parfois, la qualité d’un article est rentre en contradiction avec d’autres facteurs SEO. Par exemple le taux de rebond. Disons que le mec cherche des news sur le dernier smartphone à la mode, il arrive sur l’index d’un blog, il y a un titre d’article du style « L’iPhone 7 dispo à moins de 300 euros 48 avant sa sortie dans le monde ! », le mec clique dessus, et vois qu’en faite c’était un titre racoleur qui, entre quelques centaine de mots qui décrivent le smartphone et qui spéculent sur les dernières fonctionnalités de celui-ci, envoi vers un site de contrefaçons de smartphones. La qualité est vraiment à chier. Pourtant le blogueur à diminué sont taux de rebond (et entre temps perdre en légitimité).

Reply
Gabriel

22 novembre 2013 à 19 h 04 min | #

Mais je ne comprends pas ce n’est pas déjà ce qu’il font avec le LSA ?
latent sematic analysis ( http://lsa.colorado.edu )

Reply
- Christian Méline
  
  22 novembre 2013 à 20 h 04 min | #
  
  Ici, on pose un problème que l’on aimerait voir résoudre/traiter par GG (et par les autres moteurs); on ne prétend pas le résoudre, on dit juste que c’est faisable.
  Par contre, le LSA ne résoudrait pas tous les cas, et il ne faudrait pas l’utiliser tel quel : le vide a quelque chose d’infini…
  
  Reply