La mort du crawl, l’éveil des signes

C’est l’été, il fait chaud, on a envie de buller, de ne pas réfléchir.
Rien de mieux alors que de venir se rafraîchir sur ce blog pour un billet-détente 😉

Le thème : « Repenser l’infrastructure de la recherche sur le web ».
 
Cela devrait être facile à comprendre et tout à fait apaisant ;-).

Ce billet était prévu depuis plusieurs mois, mais je n’arrivais pas à trouver le ton, la manière d’aborder ce sujet sans faire exploser les lecteurs en plein vol.

Là, je pense avoir trouvé le truc pour que la lecture vous soit plaisante !

1) Introduction

L’objectif :
On va s’amuser à imaginer un système de recherche sur le web qui n’ait pas besoin de crawl et qui n’a pas de bigdata au sens où ce terme est utilisé aujourd’hui.

Nous devons donc imaginer un tout nouveau modèle.

2) Méthodologie

À chaque fois que nous devons construire un modèle, nous nous devons de noter quelque part, bien en vue, les conditions de réalisation de l’objectif que nous allons poursuivre.
Si on ne le fait pas, on aura éventuellement un modèle efficace, mais il ne sera peut-être pas de qualité.

Note : pour ceux qui ne connaîtraient pas la différence entre efficacité et qualité : imaginons qu’on demande à un robot de conduire une voiture du point A au point B, il sera efficace s’il arrive au point B. Mais la qualité ne sera au rendez-vous que s’il y arrive sans avoir tué personne sur son parcours. On peut aussi glisser ici la notion d’efficience qui est le fait d’avoir utilisé un parcours en ayant optimisé les ressources.

Voici ici mes conditions :

  • minimiser le trafic internet nécessaire pour pouvoir répondre aux questions des internautes,
  • minimiser le stockage de data ou d’« autres bidules » apparentés,
  • préparer les infrastructures pour qu’elles soient prêtes à fonctionner en mode intelligent,
  • rendre équitable la compétition entre les sites (règles claires et honnêtes),
  • fédérer le plus possible afin de permettre l’émergence de plusieurs acteurs.

3) Les limites de ce billet

On ne s’occupera pas de l’implémentation dans ce billet, seulement de poser les tout premiers niveaux de l’abstraction.

Je laisse les aspects mécaniques à ceux que cela amuse.

4) Constats sur la situation actuelle

Préalable : vous êtes autorisé à ne pas être d’accord avec tout ce qui est indiqué dans ce paragraphe.

a) Il n’existe aucune infrastructure, actuellement, permettant d’effectuer des recherches sur internet. Ces recherches se limitent à ce que connait le moteur et à ce qu’il veut bien traiter.

b) Pour effectuer les recherches, quelques rares acteurs dérobent le contenu des sites pour pouvoir fonctionner. Le résultat de ce scrap à grande échelle est une sorte de « deuxième web », stocké chez eux, sur leurs serveurs. Et c’est ce « deuxième web » qui est interrogé, via un sous-datamining et quelques méthodes pifométriques pour élaborer les SERPS.

c) Aucun moteur ne peut démontrer que son classement est le meilleur dans l’absolu et qu’un acteur meilleur que les premiers de serp ne se trouve pas hors du top-10.

d) Les moteurs ne procèdent pas par algorithme, mais par heuristique.

e) les résultats de recherche sont influencés par les intérêts propres du moteur.


5) Le fonctionnement actuel est-il efficient ?

Intellectuellement, cette démarche est nulle (désolé, mais il faut appeler un chat un chat).

Pourquoi est-ce nul ?
Imaginons que lors d’un voyage sur Mars, j’ai perdu les clés de ma voiture. Comme je ne sais pas où je les ai perdues exactement, je décide alors d’envoyer 1000 pelleteuses sur Mars pour ramener toute la « matière » du coin où je suis allé sur cette planète, et ce, sur 10 cm de profondeur.
Une fois cette matière ramenée sur terre, je pourrai la fouiller pour voir si mes clés s’y trouvent.

Pourquoi faire simple, hein ?
Quand je dis que c’est nul…

Note : là aussi vous avez le droit de ne pas être d’accord (mais c’est nul quand même !)

Maintenant, on va essayer de rêver à un autre fonctionnement en nous projetant « ailleurs ».

6) Conditionnement mental et premières imprégnations

Pour arriver à partir dans une nouvelle direction, il faut oublier la façon dont cela fonctionne aujourd’hui. Il nous faut être vierge de toute influence. Il faut accepter d’être en mode « naïf » pour ne pas se brider.

Je laisse partir mon imagination pour trouver une situation analogue à celui de la recherche, mais sans technologie.

Je vous propose de faire un tour dans le passé, disons il y a 2 siècles, bien avant toute trace de modernisme. La raison en est que le modernisme influence trop notre manière de penser et nous emmène souvent dans du conventionnel, du prévisible.

Je vais prendre comme modèle celui de la bibliothèque, il y a deux siècles.

Nous avons des livres, un bibliothécaire, des étudiants.
Le silence règne. Les questions trouvent souvent leur réponse grâce au bibliothécaire, et les livres permettent d’approfondir et de rebondir sur de nouvelles interrogations.
À chaque fois, les échanges sont sérieux et circonstanciés.

Si vous entrez dans cette bibliothèque, vous entrez dans l’« univers de MON paradigme ».

7) On change d‘échelle

Dès le départ, on sait que l’on ne pourra pas faire coller ce modèle à la taille du web.
Donc, avant de le projeter dans le réel, on va le redimensionner, tout en restant sans aucune technologie.

On a une immense bibliothèque.
Chaque fois qu’un nouveau livre est apporté dans la bibliothèque, ou qu’une nouvelle édition est disponible, un documentaliste est prévenu (il reçoit un signe) et il intègre les changements dans ses classements.
[EDIT DU 23-07-2015] : Les classements dont je parle sont au sens « documentaliste » : Il s’agit de rangements qualitatifs.
 
Quand un étudiant vient poser une question, il la pose à un bibliothécaire qui va s’appuyer sur le travail des documentalistes pour guider l’étudiant.

On a donc une fonctionnalité supplémentaire : le documentaliste.
Vous noterez que le documentaliste ne recopie pas les livres, les bibliothécaires non plus.
Ce qui est mémorisé, c’est la substance, la connaissance, le rôle, mais pas les livres eux-mêmes.

A priori, ce modèle peut subir une généralisation.

8) Projection du modèle dans le réel d’aujourd’hui

a) Les livres, ce sont les sites web (ou autres) sur le net.

Dans Apache, par exemple, a été compilé une application sécurisée « universelle » qui est capable de transformer une modification ou un ajout de pages en un ensemble de SIGNES. Ces signes contiennent à la fois l’existence de l’événement et sa signification.

[EDIT DU 29-07-2015] : Je parle d’Apache, mais c’est n’importe quel serveur web.
 
Les signes ne sont envoyés QUE s’il y a eu un événement (push). Pas de crawl.

b) Les documentalistes sont des centres PUBLICS qui reçoivent les signes et les transforment en connaissance classée et localisée. Si on sait transformer un signal en URL, on n’a donc plus qu’une résolution à faire.

c) Les bibliothécaires sont des moteurs de recherche qui servent d’interface pour l’utilisateur.
Ils ne stockent rien des sites. Ils ne connaissent pas les réponses, mais ils savent reformuler les questions des internautes en signal, et selon les règles propres au moteur, pourront afficher les résultats provenant des centres publics de documentation.
Le classement s’opère par la façon de reformuler la question de l’internaute en signal.

La triche n’est plus permise.
[EDIT DU 23-07-2015] : Je parle de la triche de la part des moteurs.
 
Comme il faut juste développer une interface qui sache reformuler les questions des internautes, les moyens nécessaires au développement de nouveaux acteurs sont facilités.

d) L’étudiant, vous l’avez compris, c’est l’internaute.

9) Oui, mais c’est quoi un signe ?

Remontez un peu dans ce billet et relisez le 7)… la réponse s’y trouve pour ceux qui savent lire entre les lignes…

À vous de laisser gambader vos esprits, il y a la matière pour tordre dans tous les sens ce qui est ici et faire naître de nouvelles pistes.

10) Conclusion

« L’utopie n’est souvent due qu’au manque de volonté de ceux qui ont le pouvoir de décider. » (ma pomme)
Ce système, comme plein d’autres, est une alternative.

À bons entendeurs 😉
 

Mots-clefs : , , ,

Commentaires (31)

  • Avatar

    KOUKA

    |

    Pas trop compris. Le documentaliste/bibliothécaire ce n’est pas ce que fait déjà Google avec ses SERPS ?
    Reprise d’info et mise a dispo pour la météo/foot/recette (je ne parle pas des box avec un scrap de wiki hein mais bien d’une réorganisation des informations qu’il a récupéré ^^) ?
    A mon avis c’est généralisable.
    L’histoire de triche qui n’est plus permise on y arrive pas déjà ? Avec la prise en compte des synonymes (si on a une page ciblée « vente téléphone pas cher » on ressort très bien sur « achat smartphone pas cher ») du coup on ne peut plus tricher avec du keywords stuffing mais faut, comme on le repete depuis déjà 3 ans, faire du bon contenu, linking etc etc.
    Par contre je pense que quelque soit les systemes il y aura tjs moyen de tricher avec en étudiant l’algo. Si ce n’est pas un algo se sera par la corruption/drague des bibiliothécaires/documentalistes, un peu comme le font les marques avec les influenceurs twitter/facebook/instagram/vine

    Reply

    • Avatar

      Christian Méline

      |

      Il faut peut-être faire une deuxième lecture 😉

      La triche dont je parle, dans le contexte du billet, est celle des moteurs, pas des SEO ou éditeurs de sites.

      Au passage, les SEO auront un sacré rôle à jouer si les sites veulent tirer la quintessence de ce système.

      Reply

  • Avatar

    Régis

    |

    Bonjour Christian,

    à la lecture de ton article, je comprend qu’ici, il ne s’agit plus de stocker:archiver les sites, mais uniquement le classement des sites.
    Et à chaque changement d’un site, ou ajout d’un site, le classement change.
    Lorsqu’une recherche est faîte, le moteur fait appel au classement directement.

    Mais, pour mettre à jour ce classement, il faut des signes… Et ces signes, ils ne peuvent être que passifs par opposition à une action faîte du webmaster vis à vis de ce moteur de recherches. On ne peut pas demander à chaque blogueur de venir signaler au moteur que son site à bouger. Ce n’est donc pas ça.
    Mais alors, comment pouvoir mettre à jour dynamiquement ces classements prêts à être appelés pour chaque requête. That is the WTF question (oups pardon).

    Et comme je suis grand seigneur, et que je ne fait que paraphraser avec doute ton article, je ne pose même pas de BL 😉

    A+

    Reply

    • Avatar

      Christian Méline

      |

      Hello Régis,

      Attention, le classement dont je parle est au sens « documentaliste », pas au sens Google.
      Il s’agit plutôt de multiples rangements qualitatifs.

      En gros : ce site parle de tel sujet. Il propose ceci, cela… Cette page aborde tel sujet, etc. Cela semble intéressant. Elle s’adresse à tel type d’internautes, etc.

      Je vais faire un édit du billet pour que cela soit plus clair.

      Le module « Apache » dont je parle dans le billet se charge de compiler l’extraction qualitative des modifications faîtes au site.
      Pour l’éditeur du site, il fait son boulot normalement, sans changer ses habitudes.

      Dans le système complet (qui n’est pas explicité ici), il y a aussi des serveurs « tiers de confiance » qui valident les signes envoyés.

      Reply

  • Avatar

    Marie-Aude

    |

    L’approche est intéressante, en réalité elle déplace le pouvoir d’un moteur de recherche à un ou plusieurs centres publics. Le documentaliste devient celui qui a le pouvoir, puisqu’il transforme le signe en classement.

    Il s’agit d’un transfert d’algorithme d’un ou plusieurs acteurs (les moteurs de recherche) à un ou plusieurs acteurs (les documentalistes).

    La véritable question est : est-ce que l’ajout d’un intermédiaire va améliorer ou pas la transparence ? Comment garantir qu’un organisme « public » est neutre ? La censure commerciale est-elle meilleure que la censure politique ?

    Puis vient une deuxième question : ok, comment financer ? Tu sais que je ne crois pas au gratuit sur le net, tout ce qui est gratuit se paye de façon invisible. Comment et qui paye l’ajout d’une métastructure ?

    Reply

    • Avatar

      Christian Méline

      |

      1) Non, le documentaliste ne fait pas le classement : ils rangent (mais pas dans un tiroir).
      J’ai fait un edit du post.

      Par contre, la façon dont les interfaces peuvent interpréter (au sens humain, pas au sens machine) les signaux des centres de documentations fera qu’il y aura bien une compétition, mais une compétition sur la pertinence et seulement de la part des bibliothécaires (donc, les « nouveaux moteurs de recherche »).

      Pour compléter ce que je veux dire : les centres de documentation qualifient les signaux et les fédèrent, mais ne donnent pas de RANGS par rapport à de quelconques requêtes. Par contre, les bibliothécaires vont essayer d’interpréter au mieux la demande des internautes et ordonner ensuite les résultats (si c’est ce modèle qui est utilisé pour la réponse, car, là aussi, il existe d’autres modèles que la présentation par classement !).

      2) Comment financer ?
      Ça oui, c’est une bonne question ! Question que tout le monde s’est posée il y a 15 ou 20 ans quand il a fallu faire croître les tuyaux d’internet alors que celui-ci était gratuit… et on a su trouver comment faire, non ?

      Pour ma part, je vois bien un Oracle dans la boucle pour la partie compilée sur les serveurs, Apache leur appartient.
      Ensuite, et là c’est compliqué, il faudrait des décideurs publics pour s’accorder autour de quelque chose de neutre au niveau de centre de documentation. Ou alors, un acteur privé, pas trop idiot, qui échange cette neutralité contre quelque chose d’autre… et ça aussi, cela s’est déjà fait 😉

      Reply

      • Avatar

        Marie-Aude

        |

        Je vais juste te répondre sur le « comment financer » 🙂
        A mon avis, NON, on n’a pas su trouver comment financer de façon efficace et non biaisée par les intérêts des gros opérateurs.
        C’est même l’inverse.

        Des anciens d’internet ont écrit des articles assez noirs sur ce qui s’est produit, et sur cette invasion du « faux gratuit » : parce que la solution pour financer, à part quelques projets « hors normes », ça été une tarification dissimulée, un vol des données privées utilisées ensuite pour nous influencer de façon totalement non-démocratique.

        Le grand public ne s’en rend pas compte, mais c’est une réalité. Et si, pour le financement, ton système « échange » en réalité, il rentre dans le même piège que ceux qui existent actuellement.

        Je doute aussi totalement de la capacité des décideurs publics à s’accorder : regarde déjà comment aujourd’hui l’Europe est impuissante (pour ne pas parler des pays individuels).

        Autrement dit 🙂 je trouve ton idée très intéressante, parce qu’effectivement, le crawl and search n’est pas efficace. Par contre, au delà de sauver de la bande passante (pas négligeable), je ne suis pas certaine qu’elle puisse régler les autres problèmes.

        Par contre, sur le problème de la BP (pour résumer, + les datacenters) tu as parfaitement raison !

        Reply

        • Avatar

          Christian Méline

          |

          Je sais bien que pour tout ce qui touche au financement d’internet, ce n’est pas franchement rose…
          L’être humain fonctionne à l’intérêt, c’est un fait.

          Cela étant, je ne dis pas que ce projet peut se faire avec l’immobilisme des politiques actuels, et les appétits énormes des grands acteurs privés.

          Mais, en même temps, le sujet du billet ne porte pas sur le financement, mais sur une idée d’infrastructure…

          Reply

  • Avatar

    Régis

    |

    Précision : quand je dis classement des sites, je veux dire page de résultats sur le moteur de recherches, donc classement de ces pages de résultats.

    J’en reviens aux signaux, je comprends pas comment ils arrivent depuis le site lambda. Si pas de crawl, le moteur ne sait pas qu’il y a eu mise à jour. Donc il faut signaler au moteur qu’il y a eu un changement. Si c’est un script posé sur le site qui communique avec le moteur, ok, mais pourquoi je le mettrai ce script, je suis blogueur sur le thème des championnats de pêches à la mouche, je ne suis pas sensibiliser à ces choses là.
    Bref, moi pas parler Apache. Si Monsieur pouvait parler langue des visages pâles, moi peut être tutoyer la compréhension.

    Reply

    • Avatar

      Christian Méline

      |

      Regarde déjà ma réponse au commentaire précédent.

      Ensuite,

      Les signaux sont envoyés par les serveurs web eux-mêmes aux centres de documentation.
      Ce sont des signaux qualitatifs, bien plus légers qu’une data.

      Apache est ce qui permet aux machines de proposer des services web comme HTTP, FTP, etc.
      Il est utilisé sur la quasi-totalité des serveurs web de la planète.
      Ça appartient à Oracle depuis quelques années.

      Reply

      • Avatar

        Jérôme ROSSIGNOL

        |

        @Christian, NON Apache n’est pas pas utilisé sur tous les serveurs de la planète, loin s’en faut 😉

        Source NetCraft janvier 2015 :

        Apache : 39,74%
        IIS : 27,52%
        Nginx : 14,61 %

        etc …

        Reply

        • Avatar

          Christian Méline

          |

          OK, ça a un peu baissé effectivement…

          Reply

  • Avatar

    Christophe Maggi

    |

    Hello,
    Mis à part le fait que je ne suis pas sûr d’avoir tout saisi et le fait que Apache n’est pas utilisé sur la majorité des serveurs. Je tiens à souligner que lancer une réflexion sur le fonctionnement des moteurs de recherche en sortant du principe actuel est vraiment une bonne idée. J’y avais déjà réfléchi longuement il y a quelques temps et je ne voyais pas de solutions alternatives mais ce n’est pas pour ça qu’il n’y en a pas. Actuellement, les moteurs font ce qu’ils peuvent et au final, le résultat n’est pas si mal que ça, vu que l’internaute s’en contente.

    Reply

    • Avatar

      Christian Méline

      |

      Bonjour Christophe,
      L’internaute se contente de ce qui existe car ledit internaute n’a pas encore d’autre choix… 😉

      Reply

  • Avatar

    Ikario

    |

    En fait tu ne serais pas en train de réfléchir à l’indexation/partage de l’information basé sur modèle d’un web distribué ? 😉

    Pour reprendre ton exemple 7) c’est plutôt comme si les étudiants s’échangeait entre eux les bouquin (nous sommes en théories à 7 personnes d’Obama – tu connais une personne qui connait une personne qui connait une personne etc. – au bout de 7 personnes on a en théorie fait le tour du monde social).

    Avec un modèle décentralisé, on peut alors « lancé » des chaines bien plus facilement que si tout devait être crawlé :

    1) Hello mes 6 amis! Je cherche le contenu B12, qui l’a sur lui ?
    2) mes 6 amis : « Je ne l’ai pas ! Mais je demande à mes amis et te renvoi la réponse »
    3) etc. etc. -> Amis N(x) : « Hey j’ai ton contenu B12! Je le renvois à mon amis qui m’a demandé qui le renverra à ton ami qui etc.
    4) « Merci pour ce contenu B12, perso, j’en garde une trace pour qui en aura besoin près de moi. Si mes amis qui ont participé à la chaîne veulent le garder aussi, ce sera un bon point pour la visibilité de ce fichier » 😀

    Le problème de ce modèle c’est que politiquement il peut faire mal (aux puissants de ce monde j’entends – politiciens comme financiers/marketeux du 2.0)… Du coup on en parle depuis des années, on sait que c’est la solution technique la plus efficace, malheureusement, trop de bâton dans les roues. En réaction, le web s’est plutôt dirigé vers un modèle en couches : le(s) fameux deepWeb…

    Voila en espérant avoir aidé à la réflexion 🙂

    Reply

    • Avatar

      SylvainP

      |

      C’est effectivement le modèle décentralisé de l’algo distribué qui est sous-jacent au post de Christian. Il y a déjà eu des tentatives de faire ce genre de choses, la plus connu étant gnutella, je pense dans les années 2000.

      Pour plein de raisons, cela n’a jamais fonctionné, mais les principales raisons ne sont pas idéologiques, ni économiques, mais surtout algorithmique.

      En algo distribué asynchrone (et même synchrone en présence de fautes), on tombe très rapidement sur des résultats d’impossibilité pour la plupart des tâches de base (une recherche sur consensus algorithm, snapshot algorithm et le résultat fondamental de fisher, lynch et Paterson de 1982 donne pas mal d’idées sur le sujet). Hors Internet (le réseau) est fondamentalement plein de fautes, et au mieux pseudo-synchrone.

      Par ailleurs, la théorie de l’information, et les expériences réalisées, montrent que la bande passante nécessaire à un système décentralisée de recherche d’information est beaucoup plus importante que celle nécessaire pour un système centralisé. Par ailleurs, la latence en temps de réponse est aussi plus forte.

      Reply

      • Avatar

        Christian Méline

        |

        Il faudra que je fasse un autre billet pour lever cette ambiguité alors 😉

        Ici, on ne stocke pas de data, mais des « représentations », d’où des gains attendus (en dehors des aspects idéologiques)…

        Reply

        • Avatar

          SylvainP

          |

          C’est là où la théorie de l’information entre en jeu : si tes « représentations » permettent d’accéder à toute l’information elles codent forcément toute l’information et donc il n’y a pas de gain. Si tu choisis de pré-filtrer alors tu rentres dans le paradigme temps-espace (temps de calcul convertit en espace de stockage et vice-versa) et donc tu allonges de manière abusive le temps de calcul, pour un résultat moins bon.

          Reply

          • Avatar

            Christian Méline

            |

            Il faut que je fasse un autre billet pour mieux expliquer ce que j’ai en tête et ce que j’appelle des « représentations »…

            Reply

          • Avatar

            Jérôme ROSSIGNOL

            |

            Sylvain, il n’est pas forcement nécessaire de représenter toute l’information en se limitant à ce qui est pertinent (suppression du bruit autour de l’information), le calcul se faisant une seule fois. Ensuite, avec cette « représentation » et l’emplacement de l’information, le tour est joué.

            Reply

          • Avatar

            SylvainP

            |

            Même ainsi ce n’est pas jouable. Par exemple, le modèle vectoriel fourni des représentations (signature des documents et des requêtes) et dégrade l’information, donc est encore plus parcimonieux que juste « enlever le bruit » et pourtant, on voit ce qu’il faut pour que ça marche en terme de complexité en temps (pour le rapatriement de l’information, qui n’est pas en temps constant à ce niveau de volumétrie) et de complexité en espace pour le stockage.
            L’idée de Christian n’est pas inintéressante, mais elle a déjà été explorée plusieurs fois et abandonnée pour ces raisons. Les seules déploiement qui sont faits sont ceux qui ont vocation à maintenir vie privée, anonymité et disponibilité quel que soit le coût.

            Reply

          • Avatar

            Christian Méline

            |

            Cela peut être très efficient Sylvain, cela dépend de ce que tu mémorises d’un site et ce que tu décides d’en faire…
            Il y aura un deuxième billet sur ce sujet à la rentrée, et tu auras les schémas que tu m’as suggérés 😉

            Reply

    • Avatar

      Christian Méline

      |

      Lu ton article.

      Les annuaires ne s’en sortaient plus dans les années 2000 il faut dire, la somme de boulot que cela donnait devenait insurmontable.

      Malgré tout, le « modèle moteur » a aussi une durée de vie.
      Celle-ci est étroitement liée à l’impossibilité de se projeter dans 15 ans et de connaitre à l’avance, les tenants et aboutissants de ce futur. Un modèle qui fonctionne à un moment « t », et qui est « optimisé pour », devient inadéquat si le web évolue de trop.

      On ne peut pas être optimisé ad vitam aeternam, à un moment, il faut tout casser.

      Je pense que les infrastructures sur lesquels repose GG s’essoufflent peu à peu et GG ne fait que recoller les morceaux tant bien que mal…

      Il est sans doute temps d’explorer d’autres voies, que cela soit concrètement, ou simplement pour le plaisir de penser.

      Reply

  • Avatar

    LeMoussel

    |

    Reste à définir « la substance, la connaissance, le rôle » => Les représentations => Quoi mémoriser d’un site ? Suis impatient de lire ton deuxième billet sur ce sujet.

    Tu indique que le documentaliste rangent mais suivant quelles critères ? (Pour info: En bibliothèque, pour les documentaires, il existe la méthode Dewey).

    Et je rejoins Marie-Aude quand au modèle économique …. C’est pas gagné

    Une vérité est ailleurs.

    A trouver cet « espace » pour une meilleur recherche d’information avec (peut être) un niveau de dégradation de l’information acceptable.

    Quand au « temps » tout est relatif …..

    Reply

    • Avatar

      Christian Méline

      |

      Tu as parfaitement compris, c’est là que cela se joue : les représentations, les signes…

      Reply

  • Avatar

    Pascal CCBB

    |

    Je vais redire ce que j’ai dis sur le Slack SEO fr à propos de ton article :

    « Très intéressant cet article ! Il m’a donné plein d’idées, après, je ne suis pas certain que chercher « a tout pris » une sortie du modèle Google soit la solution. On l’a tellement en tête qu’on veut absolument faire « autre chose » et donc on essaye de ne rien y prendre, mais ça ne marche pas !

    Un bon modèle ne répond qu’a une seule problématique et non 500. Là nous en avons trop : la data ? l’ux ? L’impartialité? Le modèle éco?

    Cet article est intéressant mais en même temps tellement « vide » de contenus, il push des concepts sans les décrire et balance à la fin « a vous » et le pire c’est que ça marche ! (vu le nbr de comment)

    Est ce que ça marche parce que vous le connaissez le Christian ? (moi non…) ou parce que c’est réellement top ? (j’ai un doute) Je vais tout de même commenter car ça m’interpelle »

    Maintenant mon commentaire :

    Il y a en effet des choses à faire, je n’ai pas envie de réédite ou critiquer j’ai envie de développer avec ce que ton article a créé (dans mon esprit)

    J’image un moteur qui utilise les signaux qu’utilise déjà google : le contenu, les interactions (social, liens et commentaires), la rapidité, l’apport à l’utilisateur, le design, les médias ….

    Je rajouterais par contre des données très relatives : est ce commercial ou informatif ? y t’il une réponse claire et précise ? Produit ? Service ? Actualité ? Réflexion ? Temporel ou intemporel ? Zone de chalandise si commerciale ?

    Pour le coté technique, j’imagine une bibliothèque sous forme de classes avec de simples notes et un schéma araignée qui combine question et distance entre le contenu et la réponse. En effet le serveur pushera si il y a modification.

    Quand l’internaute pose une requête on l’analyse, la découpe, on cherche les données commerciales et locales et on y répond sous cette forme :

    On sépare les réponses commerciales des réponses documentaires, on regroupe les données type « actualité » qui sont similaires.

    Si un site répond en donnée commerciale son contenu situé sur le même domaine+ssdomaine ne sortira pas sur la même requête. C’est la mort des blogs pourris qui n’ont qu’un but : poussé le business.

    Le regroupement serait donc primordial, comme dans une classe en programmation, sur la question « Google indexation » nous aurions donc une classe « comment indexer sur google » avec que des articles sur ce sujet et bien sur les liens propres à google (informatifs). Une autre classe « recherche autour de l’indexation web » dans laquelle sera surement cet article !

    Et chaque classe est affichée sur la requête principale, quand on rentre dedans on ne voit plus d’autres informations gênantes (mort du adwords ?)

    Pour le modèle éco, pas cherché 😉

    Reply

    • Avatar

      Christian Méline

      |

      Un des buts de mes billets (en règle générale) est de faire réfléchir.
      Il semble que, de ce point de vue, cela soit réussi 😉

      Par ailleurs, il y aura un deuxième article à la rentrée où j’en dirai davantage sur ce que j’ai en tête.

      Reply

  • Avatar

    Ludovic

    |

    Bonjour Christian,

    c’est marrant mais quand je me détend, je suis plus à la recherche d’une bière, de potes ou d’un bouquin plutôt qu’à l’imagination d’une nouvelle infrastructure de la recherche sur le web.
    Mais bon … je dois faire parti des utopistes sans pouvoir 😉

    A propos des signes, ne sont-ils pas déjà présents dans l’infrastructure existante ?
    L’activité des réseaux sociaux, l’apparition de votes « pertinents » ou encore la ré-édition des pages sont autant de signes qui portent une incidence sur le classement du Grand documentaliste.
    Non ?

    Reply

    • Avatar

      Christian Méline

      |

      Salut Ludovic,
      Actuellement, le site-même ne se connait pas.
      Si on lui demande qui il est, ou que lui doit faire « coucou » sur le web, il ne peut se définir…
      En somme, un site web est un corps sans vie.
      Je me propose de lui en donner une (de façon imagée bien sûr).

      Reply

  • Avatar

    hubert

    |

    Bonjour,

    vision intéressante qui a le mérite de faire ressortir la bizarrerie (a laquelle on s’est habitué)
    des moteurs de recherche actuelle.
    L’idée du push au lieux du crawl est intéressante (mais est-ce réaliste?)
    Celle des bibliothécaires aussi, et cela me fait penser à freenet où les internautes
    partagent une partie de leur ressources (stockage et calcul) pour faire l’infrastructure du réseau (au lieux d’avoir des serveurs d’un coté et des ordi de navigation de l’autre)

    Du coup si les données sont déjà réparties on peut imaginer que la recherche le soit
    aussi, naturellement…

    Bref on sortira du modèle de recherche actuel si on sort du modèle d’infrastructure d’internet.

    a+
    H.

    Reply

Laisser un commentaire