Améliorer son site avec Gephi, les structures en SEO, opus 5

Ce très beau billet est l’œuvre de Guillaume Peyronnet avec qui nous nous étions promis de faire un billet passionnant.

Ce billet mérite sans discussion d’entrer dans la série des Opus de ce blog.

Je passe la parole à Guillaume..

C’est avec grand plaisir que j’interviens sur le blog de Christian.

Vous me connaissez peut-être grâce aux Masterclass (Moteurs+SEO, Stats+WEB, Perfs+WEB), voire grâce aux live des ix-labs qui commencent prochainement (dépêchez-vous de vous inscrire :-)).

Aujourd’hui je vais vous parler du logiciel indispensable pour tout référenceur : Gephi.

Après cette introduction digne des meilleurs copywriters, rentrons dans le vif du sujet.

1) Introduction

Gephi.

Une entité nommée qui en fait frémir plus d’un. La bête, un logiciel open source permettant de faire de la visualisation de graphe, est, en effet, réputée pour être assez difficile à dompter. Logique, quand on sait que la version beta que l’on aime utiliser n’a pas été mise à jour depuis janvier de l’an dernier. Une éternité quand on voit tous les bugs qui ponctuent chaque session de travail.

Pourtant, malgré la haine régulière qu’on lui voue, parce que ça plante, que ça replante, qu’on a cliqué là où il ne fallait pas, qu’il n’y a pas d’option d’annulation, que l’on a du mal à faire de gros graphes sans beaucoup de mémoire vive et une énorme puissance CPU, on ne peut s’empêcher aussi de le chérir pour tous les services qu’il rend.

C’est d’ailleurs pour expliquer comment j’utilise Gephi que Christian m’a proposé d’intervenir sur son blog. Merci à toi, cher Christian, j’espère que je parviendrais à donner quelques idées aux lecteurs qui n’auraient pas encore sauté le pas. Il faut s’intéresser à Gephi, c’est un formidable outil, aussi bien pour planifier des impacts SEO que pour auditer l’existant.

2) Calculer et représenter le PageRank

Le principal intérêt de Gephi, le plus accessible et intéressant pour moi en tant que référenceur, est sa capacité à faire du calcul de PageRank. L’idée est de pouvoir déterminer quelles pages de mon site sont boostées – du point de vue popularité – par le maillage interne.

Si jamais des pages que j’ai beaucoup travaillées en terme d’optimisation on-page se révèlent être peu poussées par le maillage, je perds une partie de mes chances de les positionner correctement. De même, je vais souvent trouver des pages qui recueillent beaucoup de PageRank alors même que je ne souhaite pas du tout les faire ranker.

Alors, comment faire pour ne pas envoyer le PageRank ailleurs ?

Pour parvenir à faire cette représentation, je commence par utiliser un logiciel me permettant de récupérer tout le schéma de linking du site étudié. Peu importe lequel (script maison, scrapy, screaming frog, xenu, etc.), l’essentiel est de récupérer le fichier CSV qui va bien.

Ensuite, j’importe le fichier de liens dans Gephi via le laboratoire de données, j’appuie sur le bouton de calcul de PageRank (oui, c’est aussi simple que cela), et j’ajoute un peu de visualisation pour que tout soit plus clair.

Le graphe qui s’affiche alors me donne de belles indications – même si le tableau de données est généralement plus facile à lire, il est souvent moins percutant.

Gephy PageRank Vue 1

Voilà, plus les cercles, qui représentent les pages, sont gros, plus le PageRank est élevé.

Dans le cas présent, ici un site de e-commerce, les trois plus gros cercles sont :
–    la page d’accueil,
–    la page principale du blog compagnon,
–    la page de présentation de la philosophie de la boutique.

Si on imagine bien que la dernière page évoquée est rassurante pour l’internaute lorsqu’il visite la boutique, on est moins sûr que, d’un point de vue SEO, ce soit la panacée. Mais pourquoi pas, tout dépend des intentions de référencement. Chaque stratégie de référencement est unique…

Les tout petits points en haut à droite du site représentent les pages produits, tandis que le cercle de points de tailles moyennes correspond à des billets de blogs.

Encore une fois, on doit se poser des questions : est-ce qu’on préfère booster le blog au détriment des fiches-produits ? Dans les conditions actuelles, avec un travail on-page identique, on aura plus de facilité à positionner correctement les billets.

3) Ajouter des poids aux liens

Le calcul de PageRank fait précédemment était basique : tous les liens ont la même valeur, je me suis contenté de dédoublonner, car on peut admettre sans difficulté qu’un seul lien d’une même page vers une même ressource est pris en compte (certainement le premier).

Mais je peux faire mieux avec Gephi.

Si je prépare mon fichier CSV et que j’identifie des caractéristiques particulières, par exemple le fait qu’un lien est en bas de page ou fait partie de la navigation, etc., je peux facilement donner un poids aux liens. Par exemple, je peux imposer qu’un lien en bas de page vaut 0, tandis qu’un lien de navigation vaut 1 et qu’un lien plein texte vaut 10 (les valeurs sont là seulement pour l’exemple, il faut tweaker pour obtenir des choses pertinentes ;)).

Je pourrais alors faire le calcul de PageRank en cochant la case demandant de prendre en compte le poids des liens. La représentation sera alors plus réaliste.

4) Prendre en compte l’alignement sémantique des pages entre elles

De même, je peux travailler mon fichier CSV de façon à ajouter une colonne dans laquelle j’indique une valeur de similarité de contenus entre chaque page cible et chaque page source. Cette valeur peut, par exemple, être le cosinus de Salton.

De retour dans Gephi, je peux alors faire un truc un peu bourrin, mais qui fonctionne plutôt bien. Cela consiste à supprimer tous les liens qui sont faits entre pages qui n’ont pas grand-chose à voir entre elles d’un point de vue similarité. Pourquoi ne pas supprimer tous les liens qui ont un cosinus de Salton en dessous de 0.75 ?

Banco. Je relance le calcul du PageRank et je compare la version avec tous les liens et la version avec la sélection de liens.

Gephy PageRank Vue 1

Avec la prise en compte de la similarité des contenus, sur ce site, je peux voir que le PageRank des billets de blogs a tendance à augmenter légèrement, mais que, sinon, globalement, rien ne change. Il faut croire que le site est déjà plutôt bien thématisé !

5) Utiliser Gephi pour l’aide à la rédaction

Un autre de mes dadas, vous le savez si vous avez assisté à l’une de nos Masterclass Moteurs+SEO étendue, est la constitution de corpus. En connaissant les statistiques d’utilisation des mots pour une thématique particulière, on peut repérer les termes déterminants. Par conséquent, on peut fabriquer un beau guide d’aide à la rédaction.

Ici, ce qui va m’intéresser, c’est de savoir quels sont les termes qu’il faut associer entre eux dans des contenus. Cela se calcule, c’est la notion de cooccurrence. Je ne vais pas entrer dans les détails, mais il y a plusieurs façons de la calculer, et à chaque fois des résultats différents. Peu importe, l’essentiel est que j’ai analysé des textes et que j’ai fini par obtenir un fichier CSV avec pour chaque mot la façon dont il est lié à d’autres (la notion de poids est à nouveau présente).

J’importe le CSV dans Gephi puis je lance le calcul de degrés dans Gephi. Hop, après une petite représentation, me voici en possession d’une carte des blocs de 2 termes qui sont généralement trouvés ensemble dans mon corpus.

Gephy PageRank Vue 1

Par exemple, ici, « Saint Raphael » est très présent. Si je souhaite introduire ce terme dans un nouvel article, j’ai intérêt à regarder ce que je trouve autour : « sentier littoral », « office de tourisme », « massif esterel », « cote azur », etc.

Cette représentation est très pratique : elle parle à tous, bien plus qu’un tableau avec des valeurs.

De cette façon, tout rédacteur un tant soit peu averti est capable d’aller à la pêche aux termes qui vont bien ensemble.

6) Tests de structures

Le dernier point fort de Gephi que j’aimerais évoquer ici est la capacité du logiciel à faire des tests de structures. Grâce aux outils présents dans la barre d’outils, je peux créer des nœuds (c’est-à-dire des pages) et des liens entre ces derniers.

Je n’ai plus qu’à calculer le PageRank. Je sais ainsi dire si mon petit schéma amène un boost ou une répartition intéressante de popularité.

Un avertissement préalable : avant de lancer les calculs de PageRank sur de petites structures, pensez à placer dans un coin de votre espace de travail un « petit web ». Je ne développe pas plus ici, mais c’est essentiel.

Allez, on se lance. Ici, je souhaite voir comment optimiser un de mes silos. Est-ce que je dois lier les pages de même niveau quand le silo se divise lui-même en sous-silos ? Est-ce que je dois lier réciproquement ou non les pages les plus lointaines du silo ?
Gephy PageRank Vue 1
Gephy PageRank Vue 1

 
En ajoutant un lien non réciproque en bas de silo, je fais varier le PR des deux pages de niveau inférieur. L’une profite du lien, l’autre voit sont PR partir.
Gephy PageRank Vue 1
En rendant le lien réciproque, les choses s’équilibrent davantage, et le niveau le plus lointain voit son PageRank augmenter.
Gephy PageRank Vue 1
Je décide de généraliser les liens réciproques à tous les fonds de silos. Je me retrouve avec des pages lointaines prenant toutes du PageRank tandis que la page d’accueil gagne elle aussi en popularité.

Quelle est la bonne structure à adopter ? Celle qui va faire monter le plus les pages que vous souhaitez positionner. Il n’y a pas vraiment d’autres arbitrages, d’un point de vue SEO, à adopter.

Maintenant, je m’attaque à quelque chose d’un peu différent à tester. Depuis ma page d’accueil, je souhaite ajouter progressivement des contenus, en faisant une sorte de cocon sémantique.

Mon site, lors de sa mise en ligne a peu de contenus, il n’a que 3 niveaux de profondeurs.
Gephy PageRank Vue 1

Ma structure initiale n’est pas favorable à la page d’accueil : ce sont les pages de premier niveau qui sont les plus populaires.

Après quelques heures de travail, j’ai étendu le site. L’ajout de nouvelles pages a permis à l’ex-dernier niveau de profondeur du site de prendre du PageRank. C’est une bonne nouvelle.
Gephy PageRank Vue 1

J’ajoute encore un nouveau niveau de profondeur.
Gephy PageRank Vue 1

Le même phénomène se produit : les derniers contenus mis en ligne ont toujours peu de popularité. J’ai donc un problème : il faut attendre d’avoir mis plusieurs niveaux supplémentaires en ligne avant de voir un effet visible sur la popularité d’un niveau donné. C’est peut-être un souci selon ma stratégie SEO.

Un autre problème est que la page d’accueil est presque la page la moins populaire du site. Plus j’ajoute des niveaux de profondeurs, plus la homepage se voit isolée.

Je réfléchis donc à une autre approche, consistant à faire davantage de liens à l’intérieur des mini-silos et à toujours lier la page d’accueil du site.
Gephy PageRank Vue 1

Gephy PageRank Vue 1

De cette façon, la page d’accueil récupère la popularité des pages. C’est peut-être satisfaisant pour moi ? Si je souhaite aider au positionnement de chaque page du site, c’est sans doute une structure peu idéale.

Maintenant je prends un peu de recul et je vais essayer de trouver une façon de booster bien plus la page d’accueil, et possiblement une autre page, qui jouerait le rôle de landing page. Idéalement, donc, mon site a deux pages très populaires par rapport aux autres. Je lance des tests.

D’abord, je repars de ma structure initiale et j’ajoute une page en bas de site.
Gephy PageRank Vue 1

Les liens vers la nouvelle page ne sont pas réciproques, c’est la nouvelle page qui récupère le PageRank, mais ce n’est pas folichon, on le sent bien.

Alors, j’ajoute, tout simplement, un lien réciproque entre la nouvelle page et la page d’accueil (Note de Christian : lien non représenté sur la figure qui suit). Aussitôt, il se passe des choses très intéressantes.
Gephy PageRank Vue 1

L’accueil et la landing page prennent du galon.

Exceptionnel non ?

Bien sûr, on pourrait dire que cela devient alors difficile d’ajouter de nouveaux contenus sur le site.

Mais non. Je vous montre !
Gephy PageRank Vue 1

7) Conclusion

J’espère que j’ai pu mettre en évidence des utilisations intéressantes de Gephi pour le référencement web, et surtout que j’ai pu susciter une envie irrépressible de s’amuser un peu avec ce logiciel.

Il y a des utilisations, comme la mise en image de la cooccurrence, qui nécessitent des calculs préalables. Le passage par la brique théorique est alors indispensable.

Mais pour savoir quelles sont les meilleures structures à adopter pour optimiser le PageRank de pages d’un site, on peut mettre de côté toute la théorie. On lance Gephi, on trace le maillage à évaluer, on clique sur quelques boutons et on peut rapidement savoir si on a eu une bonne idée. L’intuition se transforme en preuve par l’exemple.

C’est exceptionnel pour un référenceur opérationnel.

Mots-clefs : , ,

Commentaires (32)

  • Avatar

    Regis

    |

    Cette fois impossible de se plaindre de l’absence de dessin à colorier !

    J’ai entendu parlé de Gephi il y a peu et cet article donne encore plus envie d’essayer. Super article.

    Le prochain tool de Christian ne serait pas un Gephi sans bug avec intégration du travail préalable de repérage des associations de mots fréquents de la thématique ?

    Reply

  • Avatar

    jessyseonoob@love seo stvalentin

    |

    Donc si je commente tous tes articles et qu’on est dans l’avant dernier schema il y a des chances que mon lien ici présent puisse avoir plus de visibilité

    Reply

  • Avatar

    Juju

    |

    La structure idéale est quand même difficile à mettre en pratique, ne pas lier toutes les pages à la page d’accueil….

    Reply

  • Avatar

    victor

    |

    Merci Guillaume et Christian pour ce beau billet. Au delà de l’utilité évidente pour le référenceur, je trouve en Gephi un atout supplémentaire : des graphiques faciles à comprendre qui justifient visuellement nos choix auprès des clients.

    Reply

    • Avatar

      Christian Méline

      |

      Là pour le coup, c’est uniquement à Guillaume que le mérite revient 😉

      Reply

        • Avatar

          Christian Méline

          |

          Pourquoi un plugin ? 😀

          Reply

  • Avatar

    Sylvain

    |

    Un super outil ce géphi, qui met en évidence des choses auxquelles on n’aurait pas pensé avant.
    Après la formation Master Class SEO des frangins, j’ai mis en application sur notre e-commerce, et bonjour la fuite sur les pages paniers/cgu/etc… Sur notre site éditorial cela m’a permis de mettre en évidence certains problèmes, les corriger, et contrôler avec Gephi que mes modifs ont bien eu l’effet escompté ! Par contre ça prend du temps, alors pondérer les liens selon s’ils sont nav ou sitewide, j’imagine même pas sur un gros site 😀

    Reply

    • Avatar

      Christian Méline

      |

      Justement, pour un gros site, il y a tellement de bon jus à récupérer, que ce serait dommage de ne pas le faire !

      Reply

      • Avatar

        Sylvain

        |

        A quand une formation Gephi ? 🙂

        Reply

  • Avatar

    Marc

    |

    Voilà un article exceptionnel car on comprend tout sans relire dix fois (poke Christian). Merci pour les nombreux graphes qui permettent de bien voir l’usage et la répartition du PR selon la structure du maillage interne, un BA-BA au niveau SEO du référencement naturel.

    Reply

    • Avatar

      Christian Méline

      |

      T’avais des images, c’est pour ça 😀

      Reply

  • Avatar

    Empuria

    |

    Intéressant, je ne connaissais pas Gephy, suis tombé sur cette article après une petite veille seo sur twitter.

    Il y a un truc que je ne comprends pas par rapport au schéma de lien d’un site, que faites-vous de votre fil d’Ariane ? N’est-ce pas la solution empirique pour linker correctement et LOGIQUEMENT les pages d’un site ? Il me semble que oui.

    Après si vous voulez ajouter un lien vers une landing qui elle-même renvoie vers la page d’accueil alors ça donnera le résultat le meilleur pour booster la landing et plus encore la page d’accueil, non ?

    En conclusion j’ai l’impression que ce logiciel est un merveilleux outil pour perdre son temps.

    Reply

    • Avatar

      Christian Méline

      |

      Si on a un site de deux pages qui se battent en duel, cela ne vaut pas la peine effectivement.
      Mais dès qu’un site prend de l’ampleur, il faut avoir des mesures objectives afin de guider ses actions…. Mais libre à chacun de faire n’importe quoi… ou pas ! 😉

      Reply

  • Avatar

    Laurent

    |

    hello

    Merci pour cet article 🙂 C’est clair comme de l’eau de roche qui ruisselle sur le menton d’une demoiselle dans une publicité (exemple assez éloigné : https://www.youtube.com/watch?v=qS4yytlt53w)

    Avec Gephi, je suis gêné par le menu lorsque je lance un crawl.
    d’une, je me demande si ça peut gêner la puissance d’un lien s’il est aussi bien dans le menu que dans le contenu. Théoriquement non, mais j’ai tendance à vouloir « tuer » le menu ou le castrer au maximum.
    de deux, je suis obligé de bidouiller pour supprimer le menu lors du crawl avec un useragent personnalisée.

    Reply

  • Avatar

    Aurélien

    |

    Je pense qu’il faudrait faire une règle avec tous les matheux et surtout chez les Peyronnet c’est d’arrêter les équations et mettre des images, c’est quand même bien plus compréhensible 🙂

    En tout cas, les exemples sont intéressant, j’avais pas du tout accroché au soft à cause de la difficulté de rendre les graphiques lisible mais ça donne de bonnes idées, je vais m’y remettre.

    Reply

    • Avatar

      Christian Méline

      |

      En même temps, les équations sont souvent au format image dans les pages web 😀

      Reply

    • Avatar

      Sylvain

      |

      Faut faire la MasterClass, tout y est bien expliqué et la partie Gephi peut être gérée très rapidement. Au final c’est la partie tri des données du crawl qui peut être trèèèèèèèès longue.

      Reply

      • Avatar

        Aurélien

        |

        @Christian C’est bon, d’un coup je comprends tout ^^

        @Sylvain C’est pas faute d’avoir envie mais c’est jamais tombé au bon moment pour les dates.

        Reply

  • Avatar

    Christophe

    |

    Merci Guillaume et à Christian pour ce beau billet 😉
    Je me fais rare en ce moment sur les réseaux mais lorsque l’on parle de Gephi je prends la parole 🙂
    C’est grâce à toi Guillaume qui m’a fait découvrir ce très bel outil dans ta formation masterclass et je t’en remercie !
    D’ailleurs juste après la formation j’ai retourné le logiciel dans tous les sens pour bien comprendre et être à fond sur ses possibilités et je peux dire qu’elles sont énormes !
    J’utilise pour un tas de truc comme biensur le maillage interne qui est obligatoire sur un site Web mais aussi je calcul le poids de liens venant de l’extérieur et je fais un mixe avec les 2.
    On peut également autour d’une page regarder qu’elle ancre revient le plus souvent
    Et qu’elles sont les occurrences autour de cette page.
    Ce logiciel est très utile également pour faire des réseaux de sites et calculer son poids et du coup y faire juste un bon lien.
    En tout cas j’ai mis 1 mois à fond tous les jours dessus pour qu’il n’ait plus de secret 😉
    Petite pub si vous voulez faire une formation pas chère et de très haut vol allez faire la Master class 😀

    Reply

  • Avatar

    Agence Référencement Nantes

    |

    Outils que je ne connaissais pas mais que je vais essayer sans attendre après avoir lu cet article!
    Merci pour cette explication très détaillée, et bonne continuation!

    Reply

  • Avatar

    Le Bordelais

    |

    Je ne connaissais pas du tout Gephi, et je vous avoue que l’article est assez dur à « digérer ». Du coup je viens de tenter sur un site e-commerce d’environ 5000 pages.

    Effectivement, le logiciel manque de stabilité, j’ai du retenter plusieurs fois l’import de mes données en provenance de Xenu ! Assez chronophage donc, par contre le temps est rentabilisé je viens de m’apercevoir d’une bévue concernant le linking interne de l’un de nos tops produits.

    Il va falloir que je me motive à participer enfin à l’une de ses masterclass j’imagine 🙂

    Reply

  • Avatar

    Jedfolio

    |

    Je ne connaissais Gephi que de nom, et il est vrai que niveau stabilité, ce n est pas toujours ça. Je n’ai pas assez expérimenté le tool par manque de temps, mais j’avoue qu’après l’article, ca donne un peu + envie de consacrer un peu d’énergie

    Reply

    • Avatar

      Guerin

      |

      Salut Jed,
      J’avais essayé de le faire tourner quant on était encore chez 1P, mais j’avais vraiment galéré à faire marcher l’outil. Si tu y arrives, n’oublie pas de faire un tuto pour les potes 🙂

      Reply

  • Avatar

    OlivSEO

    |

    L’outil a l’air super intéressant. Par contre je souhaiterai savoir s’il peut même marcher sur les très gros site (genre plus d’un million de page) ?
    Autre point comment voit-il les liens selon leur position (nav, contenu, footer, etc.) ?

    Reply

  • Avatar

    Charles

    |

    Bonjour et merci pour l’article.
    J’ai un petit soucis avec le logiciel. Lorsque je l’installe tout va bien, mais impossible de le lancer.
    Je lance le logiciel, j’ai le laucher qui s’ouvre avec le message : « Chargement des objets, mis en mémoire cache ».
    Mais ensuite, tout se ferme et il n’apparait plus dans mes taches.

    Le problème est récurent sur plusieurs machines (3 PC). J’ai tenté l’ouverture en tant qu’admin ou encore de le désinstaller/réinstaller mais rien …

    Une idée ?
    Merci

    Reply

    • Avatar

      Christian Méline

      |

      Pour ma part, sorti du Mac… 😉

      Reply

    • Avatar

      Sylvain

      |

      Un problème de Java sans doute ?

      Reply

      • Avatar

        Charles

        |

        Effectivement, j’ai oublié de mentionner que je bossais sur Windows 8. J’ai malheureusement pas de Mac à dispo.
        Et j’ai aussi pensé à Java que j’ai désinstallé et réinstaller + mis à jour. Malgré cela, RIEN…

        Je n’y comprend rien

        Reply

    • Avatar

      Nico

      |

      Bonjour,

      le problème provient de la version du Java Dev Kit utilisée. La version 1.8 n’est pas supportée par Gephi, il faut revenir à la version 1.7 JDK en suivant exactement la procédure expliquée sur cette page

      Modification du fichier gephi.conf en ajoutant le chemin de la version 1.7

      ça a fonctionné pour moi.

      Reply

  • Avatar

    Parfait R.

    |

    Article très pertinent et j’avoue qu’il y a du travail après avoir vu les graphs… Excellent en tout cas, Merci pour ce billet!

    Reply

  • Avatar

    Glen Le Baill

    |

    Merci pour cet article de qualité
    Seulement je n’ai pas saisi cette phrase :  » Un avertissement préalable : avant de lancer les calculs de PageRank sur de petites structures, pensez à placer dans un coin de votre espace de travail un « petit web »  »

    Quelqu’un a comprit ce qu’il voulait dire ?

    Reply

Laisser un commentaire