Pertinence, tri et recherche de l’information dans le web 2.0

Le web est une formidable base de connaissance. J’en ai parlé dans les articles précédents, le web 2.0 et notamment les blogs apportent une quantité d’information très importante, en grande partie redondante. Elle est extrêmement décentralisée mais néanmoins interconnectée grâce à la technologie fondatrice du web : le lien hypertexte.

Les liens comme critère de pertinence

Pour trouver de l’information dans ce brouhaha électronique, je fais appel, comme des millions d’internautes, au plus célèbre des moteurs de recherche : Google. Google indexe plus de 8 milliards d’adresses URL.

Comment sont présentés les résultats de ma recherche ? Google utilise un algorithme (aussi jalousement gardé que la recette du Coca-Cola) appelé PageRank ou PR. Le PageRank utilise, parmi plusieurs autres critères, le nombre de liens externes pointant vers une ressource pour affecter son score. Ainsi, une ressource vers laquelle beaucoup d’autres pages pointent obtient un score important et sera présentée en tête de liste lors d’une recherche.

Lorsque, au paragraphe précédent, j’ai fait un lien vers la page PageRank de l’encyclopédie Wikipedia, j’ai implicitement recommandé cette ressource comme pertinente sur ce sujet. Ainsi, les liens hypertextes deviennent un critère de pertinence.

Une page est d’autant mieux trouvée et dès lors d’autant plus consultée que son référencement sur les moteurs de recherche est bon. Ce qui a donné naissance à une technique appelé SEO (Search Engine Optimization) qui consiste à faciliter et augmenter le référencement naturel d’un site (il ne s’agit pas ici de payer pour disposer de liens sponsorisés, mais de jouer sur les liens, le contenu et les associations de mots-clés pour s’assurer une meilleure visibilité).

Les acteurs du web 2.0 ont compris la force des liens pour s’assurer une bonne visibilité et par là même augmenter leur influence. En tout premier lieu, les blogueurs sont des aficionados des liens (voir par exemple ce billet de Fred Cavazza) vers les ressources qu’ils commentent ou lorsqu’ils postent des billets en rétrolien.

Qu’un rétrolien ? Les anglophones appellent ça un trackback ; voici le cas d’usage :

  1. je lis un article intéressant sur les ailerons de planche à voile sur un blog,
  2. j’ai moi-même un avis sur la question et souhaite publier un article sur le sujet sur mon blog,
  3. je note, en bas de l’article, l’adresse de trackback,
  4. lors de la rédaction de mon billet, je spécifie cette adresse de trackback,
  5. l’article d’origine est notifié de la publication de mon billet et un lien vers mon billet apparaît à la suite de l’article dans une rubrique “on parle du même sujet ici :”.

On joue donc beaucoup sur l’effet de réseau induit par les blogs pour gagner en visibilité et en audience. D’ailleurs, je vous conseille de jeter un petit coup d’oeil au classement des top blogs francophones.

Classer des ressources : de la taxonomy à la folksonomy

Le web 2.0 a également fait sa révolution dans la manière de classer les données. Je vous avais parlé des CMS dans un précédent billet. Les CMS avaient déjà introduit une classification de type taxonomy, en triant les ressources en catégories, sous-catégories…

Mais que se passe-t’il si une ressource est à cheval sur deux catégories (ou trois, ou quatre) ?

Pour répondre à cette problématique, les sites web 2.0 ont mis en place la pratique du tagging, qui consiste à attribuer à chaque ressource des mots-clés librement choisis, les tags.

Nuage de tag TechnoratiPour mon blog, j’attribue ainsi à chaque billet un certain nombre de tags qui sont fonction de son contenu. Les ressources sont ensuite accessibles via la nuage de tags. J’ai mis en illustration un nuage de tags tiré du site Technorati. Dans les nuages, les tags les plus fréquents sont généralement représentés avec une police de taille plus importante, ce qui permet de se faire une idée très rapidement du contenu d’un site.

Le principe est poussé encore plus loin sur les sites à architecture participative, comme Flickr ou del.icio.us dont j’ai parlé précédemment, puisque ce sont les visiteurs eux-même qui attribuent des tags en texte libre à chaque ressource (ici : des photos et des signets). Le bénéfice apporté est donc double puisque :

  • la classification se fait de manière automatique et en texte naturel puisque réalisée par des humains,
  • on a à la fois une grande diversité de tags, en fonction du point de vue de chacun sur la ressource classée, et une bonne pertinence du classement puisque les tags les plus attribués sont ceux qui décrivent le mieux la ressource aux yeux du visiteur moyen.

Ce processus est appelé folksonomy (la taxonomy du peuple).

Le tri de l’information : rating, filtrage et aggrégation

Face à l’abondance de l’information sur le web et même à la quantité phénoménale de sites renvoyés par une recherche sur un moteur comme Google, il est important de disposer de mécanismes permettant de trier, filtrer et évaluer l’information.

Les exemples les plus récents en la matière sont les sites comme Digg et Wikio. Ces sites diffusent les dernières actualités parues sur l’internet (qu’elles émanent de médias traditionnels ou de blogs) et permettent aux visiteurs de voter pour les meilleurs articles. Ce système de rating permet de pertinenter les meilleurs sources. Le rating est une constante dans le web 2.0, puisqu’il permet de récréer la recommandation par les internautes, comme on le fait par le bouche à oreille (c’est aussi ce qu’utilise eBay pour évaluer les acheteurs – dont je fais partie – et vendeurs).

Un autre outil intéressant est le site Google News, qui regroupe également l’ensemble de l’actualité sur une seule page. Il est possible d’effectuer une recherche dans les sources d’actualités, et surtout de récupérer les réponses par mail (Google Alerts) ou par flux RSS. Dans le cadre de mon projet de création, j’utilise beaucoup ce système pour mener ma veille concurrentielle : je reçois ainsi dans mon aggrégateur RSS les derniers articles parus qui parlent de mon secteur d’activité, grâce à des mots-clés bien choisis.

Justement, les aggrégateurs RSS sont une des applications indispensable pour avoir accès en temps réel à l’information. J’utilise l’application en ligne Google Reader, qui me donne accès au contenu publié sur tous les sites que j’aime (à partir des flux RSS qu’ils mettent à disposition).

Dernière application intéressante pour filtrer l’information sur le web 2.0 : le moteur Technorati. Lorsque je publie un billet, et comme des millions d’autres blogs, mon application prévient Technorati de la parution par un mécanisme de ping. Ainsi, il est possible de savoir ce qui se dit sur la toile en ce moment précis, quels sont les contenus les plus populaires, les vidéos les plus appréciées, etc.

En conclusion

Qu’il s’agisse de web 2.0 ou non, la recherche de l’information sur l’Internet est particulièrement difficile car les résultats pertinents sont facilement noyés dans la masse. Les outils présentés ici ont permis aux contenus 2.0 de se faire une place sur la toile. Ils inaugurent des aspects constitutifs de la prochaine évolution : le web sémantique.

Laisser un commentaire