Empreintes et détection

Quel sujet passionnant que celui des empreintes !

« Les empreintes digitales ? » me demande Philippe Camman sur Twitter.
« Le web étant digital, les empreintes qui y sont laissées sont aussi digitales, donc, oui, on va parler des empreintes digitales ! ».

C’était le tweet de la semaine, assurément 😉

Toutefois, il y a quelque chose de vrai, une sorte de métaphore à un certain degré :

Le point commun avec celle de Sherlok Holmes est que celui-ci faisait ses recherches avec une loupe…

Vous avez compris, le détective est Google, le grand défenseur devant l’éternel de la vie privée… Vous, vous êtes le méchant criminel que Google essaye de coincer 😉

1) Les empreintes spatiales et les empreintes temporelles

Si tant est que l’espace et le temps soient aussi séparés qu’on le pense, une empreinte est quelque chose qui MARQUE une autre chose, grâce à un schéma détecté temporellement ou spatialement… Le propre d’une empreinte est que l’on peut y trouver des points reMARQUables reliés entre eux.

Partant du principe que personne n’a de problème pour comprendre ce qu’est une empreinte spatiale, quelques exemples d’empreintes temporelles :
  • Une mélodie musicale, par exemple, a son empreinte temporelle. Si vous changez l’arrangement et les instruments, vous arrivez malgré tout à reconnaître une mélodie que vous connaissez bien.
  • Votre voix a aussi une empreinte vocale. Et même enrouée, il est probable qu’un ordinateur sache la reconnaître.
Revenons aux empreintes en général.

Dans le billet sur les corpus, le groupe de mots que l’on recherche pour placer sa propre page dans un corpus identifié qui nous va bien, c’est aussi une empreinte.
Le groupe de mots trouvés forme cette empreinte.
Les points remarquables de cette empreinte vont être les mots « remarquables » que l’on a repérés sur la meilleure des pages sans lien. Dans ce type d’empreintes, l’ordre des mots n’a pas trop de force dans le calcul de pertinence.
 
En revanche, dans d’autres types d’empreintes, l’ordre est indispensable. Par exemple, si vous changez l’ordre des notes dans une mélodie, on ne peut plus la reconnaître…

Donc, dans de nombreux autres types d’empreintes, l’ordre des points remarquables fait partie de l’empreinte elle-même. Ce que l’on cherche dans ce cas-là est une MULTI-SÉQUENCE ORDONNÉE.

Dans ce type d’empreinte, même avec quelques points manquants, on peut calculer la correction mathématiquement et retrouver l’empreinte complète…

Si, par exemple, je vous donne les nombres dans cet ordre :
2, 4, 6, 8, 10, ?, 14

À votre avis, quel nombre se trouve à la place du point d’interrogation ?
Comment avez-vous résolu ce problème ?

Vous avez essayé de trouver quelque chose qui définissait les relations entre les nombres. Ici, c’est une FONCTION, j’ajoute +2 à chaque fois, mais cela aurait pu être une IMITATION de n’importe quelle séquence sans aucune fonction : j’ai plein de modèles stockés et j’essaye de voir s’il y en a un qui peut correspondre.

Par exemple, j’ai à comparer :
01110111 et abbbabbb

C’est finalement assez « facile » de résoudre le fait qu’ils sont de même empreinte.

2) Quand Google nous espionne tous

En fait, tout ce que vous faites en référencement, vos habitudes, vos réflexes, jusqu’aux moindres détails, forment une empreinte. Cette empreinte comprend des multitudes d’empreintes qui en comprennent elles-mêmes d’autres….
 
Nous avons en quelque sorte notre code génétique du référenceur. C’est parce que nous avons ce code génétique que l’on ne sera jamais naturel. Nous avons nos habitudes, nos façons de faire, nos contrats types et du coup, nous reproduisons sans cesse des schémas dans lesquels nous appliquons des routines.

Si Google veut repérer du spam ou des actions qu’ils réprouvent, il lui suffit d’observer les empreintes qu’on lui laisse, et on est tous très généreux en cela.

En principe, Google vous foutra une paix royale s’il ne vous prend pas pour un spammeur.
Seulement voilà, comme dans la vraie vie, il y a aussi des innocents en prison !
Il faut donc agir en étant discret à ses yeux, même si vous avez la conscience tranquille…

Pour cela, il faut sembler naturel. Dans notre cas, il faut créer des ruptures pour casser tout ce qui peut être identifiable.

C’est par les empreintes que Google repère tout ce qu’il aime ou n’aime pas…

On va le voir, les empreintes sont multi-scopes…

3) Le référencement fractal

En réalité, les empreintes sont de tous les niveaux : dans le détail comme dans des niveaux que l’on qualifiera de macro.
Le pire, ce sont les cas où des schémas se reproduisent en plus grand.
 
Par exemple, votre client double son budget de référencement, donc, vous faites les mêmes actions, mais en deux fois plus de volume.

D’une certaine façon, vous ne jouez que sur le volume des actions, mais gardez les mêmes actions. Vous faites alors du référencement fractal… Ce qui permet à Google de vous repérer encore plus vite !

Si nous réfléchissons, nous verrons que l’on met du fractal dans beaucoup de nos actes…

D’ailleurs, la prédiction pourrait faire partie des armes de notre ami de toujours… Par exemple, si Google peut avoir une idée de ce qui va être la fin d’un texte en ayant lu le début, c’est que, probablement, c’est un spammeur qui a fait le texte…

Ne soyons pas prévisibles. Créons de la « rupture de séquences » chaque fois que nous le pouvons !
Même si on fait le boulot proprement, quand Google se trompe, on ne peut pas discuter avec lui, il a toujours raison.

4) Comment fait-on pour ne pas être pris pour un vilain par Google ?

Règle 0 :
Vous pouvez déjà ne pas en être un, cela peut vous éviter beaucoup de problèmes. Mais si vos actions de référencement off-site sont assez intensives, il vous faut intégrer les règles qui suivent… Et même si vous avez la conscience tranquille, rappelez-vous qu’il y aussi des innocents en prison, donc, ne faites pas trainer vos empreintes n’importe où, Google peut parfaitement se tromper de coupable.

Règle 1 :
Notez vos habitudes, tout ce que vous répétez systématiquement dans vos actions de référencement.

Par exemple, vous avez décidé de faire du Netlinking :
  • Faites-vous toujours la même proportion CP/annuaire ?
  • Faites-vous toujours des CP de la même longueur ?
  • Mettez-vous toujours un lien vers Wikipedia dans vos CP ?
  • Mettez-vous toujours le même groupe de mots-clés ?
  • Faites-vous toujours le même nombre de diggs vers chacun de vos annuaires et CP ?
  • Traitez-vous toujours dans le même ordre annuaire et CP (ou autre) ?
En fait, tout ce qui constitue vos règles et vos habitudes doit être listé.
Notez donc tous les petits détails et surtout l’ordre dans lequel vous les faites.
Soyez multi-scope dans ce listage : envisagez les détails comme le général.

Ensuite, soyez capricieux par rapport à ces règles et habitudes et désobéissez à ce que vous avez listé. Créez cette rupture qui cassera toutes séquences.

Règle 2 :
Les autres référenceurs, font-ils exactement les mêmes spots que vous ? Ceux de votre agence ou simplement les copains des forums ?
Faites différemment. Ne bondissez pas sur le super nouveau plan découvert dans un forum. N’allez pas sur un plan « plein de spots avec un PR6 ».

Règle 3 :
Ne faites pas à chaque fois les mêmes choses d’un client à l’autre, d’un mois sur l’autre, soyez totalement imprévisible.

Règle 4 :
Ne laissez pas vos identités sur les spots que vous choisissez, changez de pseudo chaque fois que c’est possible.

Règle 5 :
Ne publiez pas toujours à la même heure, le même jour de la semaine…

Règle 6 :
Déconnectez-vous de vos comptes Google avant d’aller déposer. Changez d’adresse IP pour les plus paranos.

Règle 7 :
N’oubliez pas, Google peut apprendre votre propre schéma de fonctionnement. Toute séquence répétée seulement deux ou trois fois est « apprentissable »…

Règle 8 :
Misez beaucoup plus sur la qualité que sur la quantité. Dès lors, moins de points remarquables se créent et c’est souvent plus facile ensuite d’être très naturel.

Règle 9 :
Ce que vous faites à l’identique 3 fois ne doit plus être refait.

Règle 10 :
Ce que vous faites en petit, ne le faites pas en plus grand et inversement.

Règle 11 :
Quand vous avez envie de faire quelque chose, faites le contraire !

Règle 12 :
etc.

5) Conclusion

De la même façon que, si vous aviez un réseau de sites, vous iriez tout faire pour qu’il ne soit pas repérable comme réseau, faites la même chose avec vos actions de référencement.

Un référencement peut être vu comme un réseau d’actions et de sous-actions.
Rappelez-vous peut-être d’une seule chose : une mélodie se reconnaît même si vous changez l’orchestration ou le rythme. La mélodie est toujours là et vous la reconnaitrez si vous l’entendez. Une mélodie est une empreinte et Google stocke chaque mélodie qu’il entend.

Quel musicien ce Google !

Un autre de mes billets sur les empreintes dans le cadre du duplicate content.

Commentaires (14)

  • Avatar

    RenaudMG

    |

    Ouah j’ai l’impression d’être un black hat qui joue au chat et à la souris ! Mais tu as raison, si on applique 2 fois la même méthodologie, ça devient non-naturel, merci pour l’article

    Reply

  • Avatar

    Eric

    |

    Salut Christian, je suis déjà revenu! Ton étude est intéressante, on en parlait à la WebxDN(Tiger) sur les empreintes d’un site au niveau du contenu mais pas d’un point de vue linking, du coup ta réflexion est très pertinente. Enfin de quoi être encore parano mais il y a de quoi.

    Reply

    • Avatar

      Christian Méline

      |

      Salut Éric,
      Il faut en tous points être « improbable ».
      Google n’a pas d’intelligence, mais il a des moyens !

      Reply

  • Avatar

    Rodrigue

    |

    Il faut penser comme un criminel pour pas se faire repérer en laissant nos empreintes. Je suis d’accord pour les plans …ne pas trop se précipiter.

    J’ai tendance à laisser passer un peu de temps, et ça me permet d’avoir des retours sur un « spot ». Je suis donc bien d’accord avec toi !

    Reply

  • Avatar

    Yann

    |

    Yep, sauf qu’on nage en pleine contradiction : à trop rechercher le naturel en agissant de façon « inhabituelle » comme tu le décris, on tombe aussi dans une autre empreinte. Et je pense pour ma part que notre présence sur le web laisse une aura. Je suis persuadé qu’à partir d’une base de 3,4 articles pour lesquels une forme de paternité est publique (Author Rank powa), le travail prédictif est d’une facilité déconcertante pour un algo. Notre façon de communiquer, ici d’écrire, est profondément détectable : quelle est notre moyenne de mots par phase ? le niveau de vocabulaire ? nos tournures grammaticales ? les mots que nous n’employons jamais ? les fautes que nous faisons souvent ? etc

    En se forçant bien, il doit être possible de produire un ou deux articles « indépendants » de notre trame, mais d’une manière régulière les actions que tu préconises (et que j’approuve) ne peuvent assurer l’anonymat.

    C’est aussi pour cela que je ne crois pas en l’utilisation de rédacteurs payés au kilo pour alimenter du CP : leur style laisse une trace qui permet de remonter les linkwheel de leurs commanditaires.

    Ton article est pointu mais se heurte aux même contradictions que ceux qui fustigent Facebook et son utilisation des données personnelles tout en continuant d’y poster des moments de leurs vies.

    En effet, avant d’aller jusqu’à appliquer ce que tu conseilles, il suffirait peut-être de ne pas poster de liens vers les sites « à protéger » sur les réseaux sociaux ?

    Sauf que, passer d’une communication tous azimuts à zéro lien vers ses sites est AUSSI un sacré (non) message…

    Reply

  • Avatar

    SylvainP

    |

    @Yann La détection statistique est super simple (c’est une grande partie de ce qu’on explique dans nos masterclass d’ailleurs), mais une fois qu’on connait les méthodes de détection, on voit qu’on peut passer à travers. L’enjeu est alors très simple : arbitrer entre la furtivité et le gain. Quand on est totalement furtif ou presque, le gain en positionnement dépend d’une seule variable : la taille de son « réseau », et donc il faut une sacré puissance de feu pour faire quelque chose…

    Reply

  • Avatar

    Yann

    |

    @SylvainP : Merci pour ton avis. A force, je vais bien finir par assister à une de vos sacrées formations…

    Reply

  • Avatar

    Adifco

    |

    @SylvainP Le « réseau » suppose un sacré investissement. Mais je pense que la principale difficulté réside dans le « comment » le maintenir, gérer et faire évoluer de façon efficace, plus que dans le fait de le construire.

    Reply

  • Avatar

    Cyril KUHM

    |

    Je vais dans ton sens, en pensant qu’il faut absolument changer de schéma d’un mois à l’autre lorsqu’on fait du netlinking.

    Je ne me donne pas de plan, mais un objectif précis, et j’agis un peu au feeling, histoire de ne prendre aucune habitude détectable. Pour l’instant, ça fonctionne, mais il faudra de toute façon nous adapter au fur et à mesure de l’évolution de GG.

    Reply

  • Avatar

    annuaire inversé france

    |

    Merci, il me semble qu’il est toujours conseiller de faire la meme chose.
    La diversification des liens (Popularité,Pertinence,Confiance) doit etre le coeur du netlinking et du SEO.

    Reply

    • Avatar

      Christian Méline

      |

      c’est un bon début, même si cela ne suffit pas

      Reply

  • Avatar

    tina lamere

    |

    Un excellent article ou on doit vraiment s’attarder. Vous avez évoqué le changement d’adresse IP. Comment cela se fait-il?

    Reply

  • Avatar

    Agence web evenementielle

    |

    Sympa Google de nous faire revenir en 1984 du temps des télécrans et de la police de la pensée… Avec ces sentences définitives telle que « la Guerre, c’est la Paix » et inversement.
    Le Seo qui ranke, c’est tout ce qui ne ressemble pas aux techniques du SEO… et tout ce qui n’est parfumé au SEO est du pur SEO.

    Reply

  • Avatar

    Romain

    |

    @tina lamere tu peux utiliser un VPN gratuit ou payant. Pour un proxy en ligne gratuit, tu peux regarder du côté de hidemyass.
    Quand je commande de la rédaction je donne toujours une moyenne de mots pour éviter que tous les textes fasse 4 ou 500 mots chacun. Par contre, c’est clair que le style reste un peu le même. Le « top » à un bon prix, ce sont les entreprises qui dispatchent la commande de rédaction à plusieurs rédacteurs.

    Reply

Laisser un commentaire