Les graphes du web, structures en SEO, opus 2

Nous continuons sur les structures en SEO, et allons faire de la « géographie thématique ».

Nous allons donc nous promener dans le(s) graphe(s) du web et terminer par une introducton au graphe de votre site.

Une boussole et on y va !

PS : Le billet précédent sur les cocons sémantiques vous a beaucoup plus, j’en suis heureux.
Merci à tous.

1) Introduction

Le web, dans son ensemble, n’est qu’un seul site.

Oui, je sais, c’est bizarre, et c’est faux d’ailleurs, mais je veux dès le départ vous amener à voir le web comme un tout : un ensemble de pages web et de médias web reliés dans un immense graphe par des liens.
Tout ce qui est dans ce vaste « bazar » est composé de multiples sous-graphes, qui comprennent à leur tour de multiples sous-sous-graphes.

Votre site n’est qu’une minuscule zone de ce vaste « site » web…

Eh oui, les graphes ne s’arrêtent pas subitement à la porte de votre site. Pour un peu, s’il n’y avait pas des noms de domaine différents, Google verrait tout cela comme un tout et ne détecterait même pas qu’il vient d’entrer dans votre zone à vous (votre site)…

Ces graphes et sous-graphes sont des structures.
Si nous prenons tous les liens, sans les caractériser, il n’y a qu’un seul graphe et un seul web. Tous les liens sont « neutres », sans aucune couleur et, du coup, tout est relié ensemble, à plus ou moins de degrés de proximité.

Mais, les liens ne sont plus neutres…
Il existe donc de nombreuses dimensions qui cohabitent… ou pas, et donc, de nombreux graphes et sous-graphes.

2)  Le degré de proximité et le graphe des origines

Quel que soit le graphe que l’on veut construire, il y a une « initialisation » de départ : des pages (ou des parties de sites) qui ont été manuellement désignées pour être le départ des itérations pour construire les premiers graphes et sous-graphes.

La distance la plus courte qui sépare une page d’une page d’entrée dans le graphe est le degré de proximité de son origine (je connais quelqu’un qui connait quelqu’un qui connait quelqu’un, etc.).
 
Ce degré de proximité est rarement évoqué, pourtant…

Note : rien ne dit que Google ajoute aujourd’hui beaucoup d’entrées au graphe des origines. Du coup, c’est une chance pour les très vieux domaines qui ont bénéficié de cette proximité avec les premiers sites d’autorité (les sites des universités étaient parmi les premiers arrivés et ont naturellement beaucoup d’autorité). Cette distance est parfois la même aujourd’hui. Vers 1996, en quelques jours, malgré les débits très faibles de l’époque, vous faisiez le tour de l’ensemble des sites du monde entier. Cela en dit long sur la potentielle proximité des sites de cette époque.

3) Les sous-graphes de l’autorité

Un cas particulier est l’autorité, des pages de confiance si vous préférez.
Clairement, même sur un site gouvernemental, des parties peuvent être faibles, car reconnues « peu fiables ».

Plus étonnant, des parties de pages peuvent être hors autorité du site. Par exemple, des zones de commentaires sur des sites gouvernementaux valent bien moins que dans le contenu rédactionnel de cette même page, et peut-être même que, parce que cette page propose des commentaires, son autorité est, elle, affaiblie.

Revenons au sous-graphe de l’autorité à l’échelle des sites.
Dans ce sous-graphe, certaines zones sont craignos aux yeux de Google (ensemble de sites reliés entre eux et franchement spammy par exemple).
D’autres zones reçoivent presque une confiance aveugle. D’autres zones encore sont presque neutres, presque sans aucune existence.

Ce zonage est à peine délimité par les noms de domaine, mais plutôt délimité par les liens entre pages.
Dans cette nébuleuse, vous avez donc des groupes de pages et de sites reliés par une même autorité…

De ce qui précède, on peut penser qu’il existe plusieurs zones « colorisées » supports SEO par exemple (autorité surfaite, mais conservée partiellement)…

Ces multiples sous-graphes d’autorité proches peuvent, ou pas, être reliés entre eux.

Quelque part, c’est un peu comme avec les classes sociales : il y a les nantis et les autres, avec de multiples nuances entre les deux, mais tout le monde ne se mélange pas. Certains VIP ont leurs cercles et d’autres VIP ont les leurs, et les cercles ne se connaissent pas forcément.

4) Première question à 100 balles

À votre avis, l’autorité d’un domaine existe-t-elle ?

Peut-être que l’on a cette impression uniquement parce que le maillage d’un site amène toujours à une page précise : l’accueil ?

Il est possible que parler de la valeur d’un domaine soit une aberration, qu’il faille davantage parler d’un ensemble de pages qui sont étroitement liées ensemble et qui ensemble reçoivent et émettent de l’énergie de liens et en particulier la page d’accueil… à chacun de se faire son idée ;-).

5) Les sous-graphes des thématiques

On a vu qu’il y avait un graphe global.

ATTENTION : le terme « thématique » est différent du terme « sémantique ».
Mais on peut ne s’intéresser qu’à une thématique précise, ou une autorité particulière, en mettant tous les liens qui ne nous intéressent pas hors-jeu pour le tracé de ce graphe.

Par exemple, si vous voulez apprécier le graphe des pages traitant du bizness des chaussures en béton armé, vous ignorez totalement les liens appartenant aux graphes d’autorité ou traitant d’une autre thématique. Les liens qui ne sont pas dans le champ que vous étudiez n’existent donc pas : les graphes et sous-graphes de couleurs différentes sont indépendants entre eux.

Dans l’ensemble de ces sous-graphes, il y a les sous-graphes thématiques.
Ici, tous les liens n’appartenant pas à une thématique précise sont simplement ignorés. Les sous-graphes du web qui sont ainsi formés gagnent en pertinence si au moins un des sites le composant est un site important dans la thématique. La simple perte de ce site dans ce sous-graphe peut entraîner le recul progressif de l’ensemble des sites composant ledit sous-graphe thématique.
Je nomme ce type de site : l’influant de la thématique, mais chacun nomme cela comme il veut.

Rappelez-vous que vous pouvez avoir plusieurs sous-graphes avec exactement la même thématique, mais qui ne sont pas reliés entre eux (tous les sites traitant des animaux ne sont pas obligatoirement liés tous ensemble). Vous avez donc plusieurs zones « géographiques » de la grande nébuleuse où on parle la même langue, mais situées sur des continents différents du web.

6) Incompatibilité autorité/thématique

Les thématiques ont été choisies manuellement. Certaines thématiques sont incompatibles avec la notion de forte autorité.
On peut penser, par exemple, que les sites marchands, à part s’ils truandent souvent leurs clients ou innovent beaucoup, n’ont aucune raison d’avoir des liens à partir d’un site de l’état.

Dans ce cas, je pense qu’un lien peut être plus nuisible qu’autre chose et que c’est un signal fort pour se faire vérifier…

Quoi qu’il en soit, toute thématique a un majorant qui ne peut avoir une autorité « plus que x » (x en fonction de la thématique). Si un grumeau a un site d’autorité trop forte le liant, cela sera sans doute repéré comme une anomalie qui sera au mieux ignorée, au pire inspectée.

Je parle bien du sous-graphe, pas seulement d’un site particulier.

7) Particularités des graphes thématiques

Vous l’avez compris, il y a un immense graphe avec tous les sites reliés, sans notion de thématique. Si l’on se focalise sur une thématique précise en mettant à 0 les liens hors-thématique, on a alors de multiples « grumeaux » sur le web plus ou moins volumineux, sur cette thématique. Ces « grumeaux » (que Sylvain Peyronnet appellerait sans doute des clusters) ont quelques aspects remarquables :
  • Entre plusieurs grumeaux d’une même thématique, il peut n’y avoir aucun lien d’un grumeau à l’autre, même dans une thématique voisine comme vu plus avant. On n’a donc pas un graphe d’une même thématique, mais un ensemble de graphes à l’échelle du web.
  • Tout grumeau a son « majorant » qui sera le site le plus fort de cette thématique dans CE grumeau précis.
  • On peut penser qu’il existe aussi un minorant…
  • Le grumeau a plus ou moins de dispersion hors de sa thématique (les sites le composant ont d’autres thématiques), la thématique étudiée pourra être vue comme moins pertinente au global parmi toutes les autres thématiques des sites de ce grumeau.

8) Un réseau fictif de sites thématiques ?

Tiens, c’est à la mode cela…
Selon moi, c’est le truc le plus facile à repérer.

Pour ceux qui ne le savent pas, les réseaux de sites et les liens en pagaille bouffent trop de ressources à Google (raison pour laquelle il est entré dans la guerre que vous connaissez).
Quand il repère un réseau de sites qui ne semble pas clair, c’est l’ensemble qui est regardé comme si c’était un seul site, et là, tout est pénalisé en une seule passe !

Plus une empreinte est vaste, plus il est difficile de la rendre « naturelle ». Il faut casser son rythme (répétition des mêmes séquences) en tous ses points, et, finalement, déconstruire le réseau !
Toute une tartine de micro-empreintes spammy se trouvant dans le même ensemble de sites, c’est très peu discret, surtout comme, si par hasard, ils traitent tous de la même thématique (en résumé, c’est trop beau pour être vrai [poke à Christophe]).

Si vous croyez que le réseau sera caché parce que vous avez fait attention au registrar des domaines, vous vous illusionnez ;-).
Un lien peut se parcourir dans les deux sens, en le suivant ou en le remontant… à vous de voir.

9) Du web à votre site

Comment faire abstraction de la notion de graphe une fois que l’on considère votre site ?
Les pages de votre site peuvent appartenir chacune possiblement à des graphes thématiques différents.

Selon moi, il faut faire un cloisonnement de chaque partie du site pour éviter les collisions dues aux dispersions thématiques.

Si vous vendez, par exemple, des machines à laver sur votre site, pourquoi voit-on sur le côté des liens vers la rubrique voyage ? Faites plutôt un portail avec des sites séparés, un par thématique, ou bien, au minimum, modifiez la navigation pour que seuls les liens en rapport avec votre thématique locale soient présents. Tout mélanger de partout sur un site est une vraie connerie, au final, votre site perd en pertinence.

Pour mieux me faire comprendre, transposons aux personnes. À part quelques individus rarissimes, qui peuvent être experts dans plus de deux ou trois domaines ? Si vous êtes experts en tout, vous n’êtes simplement pas crédible. C’est pareil pour un site, si vous parlez de tout, il sera difficile pour Google de vous catégoriser de façon fiable.

Vous connaissez la construction de sites en silo par exemple ? (poke à Laurent)
Je vais vous aider : regardez vos paniers, vous verrez que certains produits ne sont jamais achetés ensemble. Peut-être parce que, tout simplement, derrière chaque thématique se cache une intention d’achat et parfois un internaute différent.

10) Deuxième question à 100 balles

On parle souvent de liens entrants ou de liens sortants.
On peut s’interroger à l’échelle d’un graphe si certains liens sont vraiment entrants…

Chacun se fera sa propre idée de la question posée et de sa réponse ;-).

11) Conclusion

Finalement, on aura sans doute davantage que 3 opus…
Aie aie aie… je ne sais pas si c’est une bonne nouvelle pour vous ;-).

 

Mots-clefs : ,

Commentaires (26)

  • Avatar

    Thomas Cubel

    |

    Salut Christian,

    Je me demandais si tu allais utiliser le terme cluster à un moment. Je le sentais venir, mais finalement tu as préféré faire le lien avec Sylvain Peyronnet 🙂
    En tout cas, il est très bien cet article, comme à ton habitude d’ailleurs. Je pense qu’il peut vraiment donner des idées à ceux qui le liront, et surtout une visualisation de ce qu’est vraiment le web : un gros bazar avec des limites floues qu’on interprète comme on le souhaite.
    A tout hasard, tu utilises NodeXL pour faire tes graph ?

    Bonne continuation et à très bientôt !

    Reply

    • Avatar

      Christian Méline

      |

      Salut Thomas,
      Je n’utilise que mes propres tools, ou presque…

      Reply

  • Avatar

    Sandrine Khou

    |

    Bonjour Christian, merci pour la suite de cette aventure ! En somme, on pourrait comparer le web à une maison (ou un magasin), plus les choses, objets et mobilier communs (les pages et les liens qui les unissent) seraient regroupés, plus l’organisation et la structure seraient idéales.
    Et c’est d’ailleurs le regroupement de ces objets et mobilier qui permettrait de définir à quel ensemble, groupe, ils appartiennent. Certains objets, meubles multifonctions (les pages appartenant à plusieurs thématiques) pourraient être utiles à plusieurs groupes à la fois. L’objet/mobilier le plus important pourrait être le site majorant, et le moins important pourrait être le minorant. Est-ce une bonne comparaison ?
    Pour les graphes d’autorité, cela signifie donc que l’autorité naîtrait essentiellement de la force des liens qui lient étroitement chaque page. Pour la 2ème question, tu veux dire qu’au sein d’une même thématique, un même graphe, Google raisonnerait plus en termes de liens sortants et non entrants ?

    Reply

    • Avatar

      Christian Méline

      |

      Bonjour Sandrine,
      Je trouve qu’une maison est un « univers » un peu clos pour représenter le web, mais pourquoi pas…
      Pour l’autorité, ce n’est pas la quantité de liens qui importe, mais la présence d’un lien, ou d’une cocitation, et bien sûr l’emplacement de ce lien/cocitation.
      Pour la deuxième question, j’attends un peu pour voir ce que proposent les autres, du moins, ceux qui ne sont pas timides 😉

      Reply

  • Avatar

    Stéphane

    |

    Bonjour,

    Merci pour ce beau billet (comme toujours). J’ai désormais une notion un peu moins floue concernant les graphes. D’après ce que je lis, la mise en place de réseaux de sites est plutôt déconseillée ? Pourtant, de nombreux prestataires SEO se targuent de posséder un réseau de sites. Aujourd’hui, ils ne devraient donc plus s’en réjouir ? Un argument qu’ils n’arrêtent pas de baratiner à leurs clients pour le linking.

    PS : On attend toujours avec impatience les prochains opus, alors en avoir plus de 3 nous réjouit évidemment.

    Reply

    • Avatar

      Christian Méline

      |

      Stéphane, les agences avec un réseau de sites (pour leurs clients) font ce qu’elles veulent, et Google aussi…. mais je me pose une question : si les liens sont retirés quand le client arrête la « prestation », n’est-ce pas que c’était en plus de la vente de liens ?
      Pour ma part, je n’aime pas que l’on se serve de réseaux de sites pour ses clients, je trouve cela inconscient : quand le réseau tombe, tous les clients le prennent dans la figure.
      Il faut avoir un bien curieux sens moral pour faire cela aujourd’hui !
      En outre, ce n’est pas nécessaire pour rendre visible un site, mais bon, que chacun prenne ses risques en prenant une assurance chômage avec, pour lui, ses employés et ses clients 😉

      Reply

  • Avatar

    Christophe

    |

    LOL 😉 J’en étais sur que tu allais me citer 🙂
    Je suis tout à fait d’accord avec toi que c’est facilement repérable les réseaux de sites ayant la même thématique ! Mais Google peut aussi considérer que le réseau en lui même est un grand site internet et vaut mieux qu’il le voit dans ce sens sinon il y aura une pénalité. Pour le resgistar c’est le même nom, les dns identiques avec juste des ip différentes et déclaré sous le mm nom dans GWT. Donc je ne n’essaie pas de biaiser Google mais juste faire des tests qui d’ailleurs fonctionnent dans une thématique donnée. Mais c’est quand même fou qu’avec 3 liens sur un site ancré comme un cochon et aucun contenu le site se place en 2 ème place … Ça prouve bien encore que les ancres ont un poids terrible !
    Merci encore pour tes bons articles Christian pour moi tu es le roi du linking 😀

    Reply

    • Avatar

      Christian Méline

      |

      Christophe, ce n’est pas parce que tu joues la transparence avec GG qu’il ne te flinguera pas… n’attends pas de sa part la moindre reconnaissance pour cela à ce niveau.

      Tu peux toujours placer, aujourd’hui, n’importe quel site (ou presque) en première position de n’importe quelle thématique, la question est : pour combien de temps avant de se faire laminer ?
      Ce temps où tu restes en tête est de plus en plus court et ce type de bizness va inévitablement tourner court, c’est juste une question de temps.

      Comprends-moi bien, je ne portes aucun jugement; je constate juste que le bizness va de moins en moins pouvoir fonctionner comme ça, même pour les sites jetables.

      Reply

  • Avatar

    Douglas

    |

    Hello l’artiste,

    peu de maths aujourd’hui, qu’est-ce qu’il t’arrive tu redescends dans le monde de John DOE ?

    J’attendais une citation de MajesticSEO qui nous gratifie désormais d’une vision thématisée mais tu as sans doute voulu éviter la redite avec un article du « mangeur de cigogne », non ?

    A ta connaissance y-a-t-il d’autres outils pour les webmasters qui apporte cette aspect là sur l’autorité des pages du web ?

    Pour conclure, un simple MERCI pour ton nouveau partage sur la toile.

    Reply

    • Avatar

      Christian Méline

      |

      Salut le grand voyageur devant l’éternel 😉

      Je ne sais pas si seul Majestic le propose…
      Je ne regarde plus trop les autres fournisseurs, ils m’ont usé.
      C’est la mentalité des dirigeants de Majestic SEO qui les rend si forts… ça ne se copie pas comme ça !

      Note qu’il y a quand même quelques bugs dans le « tRopical » trust flow de Majestic (par exemple de nombreux sites font dans les sports équestres en France [??]), mais cela sera corrigé bientôt j’imagine.

      Reply

  • Avatar

    David

    |

    Graphes, autorité et thématique sont étroitement liés c’est vrai. C’est pour ça que les réseaux de sites dont vous parlez se sont fait si vite repérés : liens entre sites complètement fourre-tout, et sans maillage interne, et sans grand crédit à part celui de l’éditeur (et voir parfois ceux des sites mis en avant, ou des blasts – ce qui était la pire chose à faire – ).
    Merci pour ce très bon article sur la nécessité de cloisonner sa structure pour un meilleur référencement ! Vivement la suite.

    Reply

  • Avatar

    BrunoT

    |

    Salut Christian,

    Ta « petite » démonstration est peut-être le signe qu’il faut vraiment à la fois varier son linking (sources, techniques, ancres, …etc… types de sources) et en même temps lui donner moins d’importance dans sa stratégie de visibilité/d’acquisition de trafic, tu ne crois pas?
    Ne crois-tu pas qu’il faut donner de plus en plus d’importance au « on site »?

    Amicalement,

    Bruno

    Reply

    • Avatar

      Christian Méline

      |

      Yo Bruno,
      Le « on-site » oui et d’ailleurs, pourquoi un site nunuche recevrait des votes des internautes ? Cela n’a rien de crédible…

      Reply

  • Avatar

    Christophe

    |

    Je trouve cette série intéressante car elle permet de lever un peu le nez du guidon des micro-optimisations appliquées sans réelle vision d’ensemble. Faire un peu de théorie, tenter de voir « the big picture » comme disent nos collègues anglais permet d’avoir un angle d’attaque nouveau du métier et in fine de progresser.

    Reply

  • Avatar

    Laurent

    |

    tout ceci me rappelle la théorie des graphes, ainsi que les cours de recherche opérationnelle que j’ai tant aimé détester.
    Pour ma part, j’ai 2 sites nouveaux à développer ces jours-ci (un ecommerce et un de contenu), et je vais m’aider de toutes ces informations pour me représenter ce que Google aimerait consommer.
    Le graphe général, je l’ai dans la tête et par écrit. Je vais tâcher de construire ces sites en fonction de ce graphe et non pas adapter un site au graphe envisagé.

    Reply

    • Avatar

      Christian Méline

      |

      La RO, c’est génial dis… tu connais le travail du Groupe Roseaux ?

      Reply

      • Avatar

        Laurent

        |

        Non, j’ai vu qu’ils avaient pondu des bouquins pour le CNAM mais rien d’autre.
        Oh la la … j’ai ouvert un cours de RO rien que pour me remémorer cette saloperie 🙂 et pourtant, j’écris saloperie mais j’ai dû/pu utiliser la RO pour certaines de mes missions professionnelles… m’enfin bref.

        Reply

  • Avatar

    Anthony Degrange

    |

    Le point 9 ne ferait-il pas référence à l’architecture en silo ? 😉

    Reply

    • Avatar

      Christian Méline

      |

      disons que l’architecture en silo est une façon de traîter ce problème 😉

      Reply

  • Avatar

    Aurélien

    |

    Au rendez-vous comme prévus pour le second billet 🙂

    C’est très intéressant, pour la seconde question je me permets d’ajouter qu’il existe une notion de nœud pour un graph et qu’il y a bien un sens pour le nœud et que je ne pense pas que Google ait « oublié » ça.

    PS: Au prochain billet je serais surement convaincu !

    Reply

    • Avatar

      Christian Méline

      |

      piste : ici, on en parle des noeuds…

      Reply

  • Avatar

    Monica Médias

    |

    Une vision allégorique et cubiste du web global… Une géographie qui change selon le point où l’on se place, avec ses trajectoires, ses trous noirs ses comètes et soleils. Bref une version astrophysique du web dans lequel thématiques et cocons, liens sortants et sémantique, semblent offrir au SEO sa révolution copernicienne. Clap clap!

    Reply

  • Avatar

    Mickael

    |

    A mon sens, le mot fondamental dans ton article est le « cloisonnement ».

    Est-ce qu’une maillage cloisonné qui va du général à des pages de plus en plus précises sur la même thématique est un bon schéma ?

    Le modèle du cloisonnement est intéressant pour des sites multi-thématiques, mais qu’en est-il des sites de niches ?

    Merci et au plaisir de lire l’opus 3 😉

    Reply

  • Avatar

    Greg

    |

    Salut,

    Merci pour ce super article. C’est le genre de billet qui donne matière à réfléchir.

    J’ai une petite question sur la notion de cluster. J’essaie d’évaluer le niveau de précision qu’applique Google. Si on parle d’un site qui traite de sport, le cluster le plus précis serait au niveau des sports en général, d’une discipline ( ex gymnastique), d’une specialité (cheval d,arçon) ou encore plus précis ?

    Merci d’avance

    Par exemple si on traite du sujet de la mode. Est ce que le « topic » serait de l’ordre du vêtement

    Reply

    • Avatar

      Christian Méline

      |

      Réponse dans l’opus 3 (qui arrive dans quelques heures ;-))

      Reply

Laisser un commentaire