Jan. 06 31

Version imprimable Questions sur le traitement de l'information provenant du web




Voilà une question qui me trotte dans la tête depuis quelques temps et qui s'adresse peut-être à des chercheurs en sciences de l'information, à moins que ce ne soit à des statisticiens spécialistes du web ou à d'autres que je n'ai pas identifié.
On constate tous que la masse d'information accessible par le web est de plus en plus importante et cela  notamment à cause de blogs comme le mien. Dans le même temps on constate que beaucoup de ces informations "tournent en rond" et qu'elles sont reprises, commentées, développées, analysées,... de multiples fois.
Mon hypothèse (enfin c'est un grand mot) c'est qu'il doit y avoir une règle statistique disant qu'en lisant telle quantité (20%?) de sites, ou fils d'infos sur un domaine on peut être au courant de telle quantité globale (80%?) de ce qui se dit dans ce domaine. Questions:

  • Est-ce que la loi de Pareto est vérifiée depuis l'avènement des blogs et autres wikis ou sites de journalisme citoyen?
  • Est-ce que des chercheurs s'intéressent à ce sujet (j'imagine que oui)?
  • Est-ce qu'ils ont écrit des articles accessibles à un non-statisticien comme moi? Et si oui lesquels?
Se poser une telle question me semble indispensable à l'heure actuelle car on ne peut continuer bêtement à accumuler des fils rss dans nos agrégateurs. Le gain de temps qu'on pouvait y trouver quand on en lisait 50 ou 100 décroît au même rythme qu'on en agrège de nouveaux.
Dave Snowden, chercheur au Cynefin et concepteur d'un modèle particulièrement adapté à ce nouveau contexte, propose de ne pas chercher à vouloir être exhaustif à tout prix. Je suis tout à fait d'accord avec lui pour des raisons exposées dans un précédent billet mais j'aimerai savoir si des sciences "dures" peuvent apporter d'autres éléments allant en ce sens.

Commentaires

Lien croisé

lilina news aggregator : "20:24 Questions sur le traitement de l'information provenant du web» Outils une question qui me trotte dans la tête depuis quelques temps et qui s'adresse peut-être à des chercheurs en sciences de l'information, à moins que ce ne soit à des statisticiens spécialistes du web ou à d'autres que je n'ai pas identifié.On constate tous que la masse d'information accessibl"

 


Anonyme | Le Mardi 31/01/2006 à 22:14 | [^] | Répondre

Re: Lien croisé

encore un lien croisé…
En effet, j'ai écrit un billet au sujet des bookmarks sociaux ou signets sociaux, le filtrage social des news (ou sites communautaires), etc. où je te mentionne.
L'adresse : http://www.ed-productions.com/leszed/index.php?2006/02/02/1404-social-par-ci-social-par-la
Sinon, je suis a peu près convaincu que Pareto est parmi nous !

 


delcroix | Le Jeudi 02/02/2006 à 15:30 | [^] | Répondre

question intérressante

c'est vrai que c'est une question particulièrement intérressante et ca vaut le coup de se la poser (lorsque l'on fait du nettoyage dans son aggregateur par exemple)
mais comment y répondre, quels sont les fils à garder :
- ceux qui lancent les infos et qui sont repris par tous les autres ?
- ceux qui font office de filtre et qui ne font que citer les autres ?
- ceux qui sont entre les deux ?
Je ne sais pas trop s'il y a des analyses qui sont faites là dessus mais je pense que pour comprendre le phénomene ca peut valoire le coup de lire l'article "Authorative source in a hyperlinked environment" de Jon M. Kleinberg (journal of ACM vol.46 n°5 09/1999 accessible librement sur le web) ne serait ce que pour voir quelles techniques pourraient etre employées pour classer les blogs en plusieurs catégories : hub (ceux qui font pleins de liens) et authorité (ceux qui passent leur temps à se faire citer)
Bon l'article date un peu (à l'échelle du net) mais peut etre intéressant quand meme pour comprendre le phénomène des liens (en passant sur les démonstration mathématiques)
ca serait une questions à se poser : combien de sources d'information faut il suivre au minimum (donc on se tourne vers les hubs) pour etre sur de ne rien rater de ce qui se passe ?
Après on peut aussi lire certaines choses pour la qualité de l'écriture ou le style...

 


jahrynx | Le Mardi 31/01/2006 à 23:23 | [^] | Répondre

Cela dépend

Il y a plusieurs points à considérer Olivier. D'abord la notion de web invisible qui veut que les 80% du web sont en fait cachés et très peu accessibles. Sinon cela voudrait dire que l'information qui circule sur les 20% serait toute l'information, ce qui me semble être vaniteux pour les blogueurs que nous sommes. :-)

Ensuite, je crois savoir que c'est justement le rôle du web que d'affiner les réponses personnelles sur un sujet. Wikipedia en est un bel exemple.

Par ailleurs la loi de Pareto est quelque chose de complètement empirique, déduit du bon sens, donc sans fondement scientifique. Enfin c'est une lapalissade ce que je viens de dire. Mais c'est pour dire que je ne pense pas que cela s'applique au web.

 


Balluche | Le Mercredi 01/02/2006 à 00:11 | [^] | Répondre

Re: Cela dépend

Merci de ta réponse.
Pour ce qui est de la loi de Pareto, même si effectivement les premières observations étaient empiriques, il semblerait qu'elle ait été depuis vérifiée :
http://perso.wanadoo.fr/gilles.trehin.urville/distribution_et_loi_de_pareto.htm
http://www.bibmath.net/dico/index.php3?action=affiche&quoi=./l/loipareto.html

 


crid | Le Mercredi 01/02/2006 à 09:36 | [^] | Répondre

Re: Re: Cela dépend

Merci Christophe pour ces liens intéressants. Désolé, je pensais que tu te prénomais Olivier. Ce doit être à cause du titre du blog : OF ;-).

 


Balluche | Le Mercredi 01/02/2006 à 20:05 | [^] | Répondre

Re: Re: Re: Cela dépend

Pas de mal

 


crid | Le Mercredi 01/02/2006 à 21:56 | [^] | Répondre

Je suis assez d'accord avec ton hypothèse (le ration 80/20%), et en terme de gain de temps, la règle "pour un fil RSS ajouté, un fil RSS enlevé" est toujours valable si on veut survivre.

Mais de façon tout à fait empirique, je dirais que cela dépend probablement du domaine de la connaissance auquel on s'intéresse, et de la vivacité de la communauté qui assure la veille de ce domaine à travers les blogs.

Au hasard ;-) pour faire une veille générale sur les bibliothèques, il suffit d'être abonné à une dizaine ou une vingtaine de fil RSS. Par contre, si on cherche des infos très spécialisées sur un domaine transverse (comme l'information sur le Web), ou si on veut être le premier à avoir les nouvelles informations, le nombre de fils augmente considérablement, puisqu'il faut aller chercher l'info à la source (revues, listes d'informations) au lieu d'attendre qu'elle soit relayée par les principaux acteurs de la communauté.

La loi de Pareto intègre-t-elle le facteur temps pour évaluer la quantité globale d'information utile ?

 


Manue | Le Mercredi 01/02/2006 à 11:59 | [^] | Répondre

Re:

La " loi de Pareto " c'est pas un nom commun pour une distribution de Fisher ?

 


JF | Le Mercredi 01/02/2006 à 14:10 | [^] | Répondre

Re: Re:

Je ne suis pas qualifiée pour répondre à cette question. En fait j'ai cité cette loi car elle illustrait bien mon propos mais je ne suis pas sûr que ce soit pertinent. En fait je n'ai pas les moyens d'en juger et c'est ce que j'aimerai approfondir.

 


crid | Le Mercredi 01/02/2006 à 15:45 | [^] | Répondre

La méthode du sursis

Oui, c'est vrai que cela devient dur... J'ai expérimenté avec succès la méthode dite "du sursis" lue sur un blog quebecois... Il s'agit, outre la règle de "si j'en ajoute un, j'en enlève un" déjà citée dans les commentaires, de se garder un dossier où on met les fils RSS en attente de "jugement". Sinon, il faudrait peut-être avoir des fonctions nouvelles sur les agrégateurs, à étudier. Mais sinon, pour le contenu, je pense qu'il y a effectivement les blogs pour se tenir "tout bêtement" au courant, et puis ceux que l'on prend plaisir à lire, au-delà de l'actu.. Et ça, la règle des 80-20 est impuissante....

 


Armelle | Le Mercredi 01/02/2006 à 18:15 | [^] | Répondre

Lien croisé

Dunhill52 s’emballe : "Questions sur le traitement de l’information provenant du web - Excellente question ouverte concernant le rapport de chacun avec la masse d’information disponible sur internet. Ou va-t-on? Que peut-on faire? A lire absolument pour déclencher une réflexion personnelle!"

 


Anonyme | Le Mercredi 01/02/2006 à 23:11 | [^] | Répondre

Lien croisé

2242... et combien de plus? (on NaSM) : "Une question intéressante chez Outils Froids: peut-on trouver les "meilleurs sites" pour avoir les bonnes infos avec un minimum de sites ? Est ce que c'est la "A list" (c'est traduit par Blogogeoisie en français ou ce n'est pas le même concept ?)"

 


Anonyme | Le Jeudi 02/02/2006 à 04:52 | [^] | Répondre

Lien croisé

Blog story - InnIS: Innovation & Information Stratégique : "Un article sur outil froid s'interroge aussi sur la valeur des informations véhiculées notamment par les blogs. L'auteur se demande notamment s'il serait possible, en ne lisant qu'un nombre restreint de sites web, de connaitre un maximum d'informations sur un sujet précis.L'article ici : http://www.outilsfroids.net/news/1163.shtml "

 


Anonyme | Le Jeudi 02/02/2006 à 23:36 | [^] | Répondre

problème complexe

L'explosion des informations mais surtout des blogs et des flux RSS me font tourner la tête : tous les jours de nouveaux blogs, de nouveaux flux, sont-ils pertinents, sont-ils suffisants...
Je trouve le problème trop complexe pour être argumenté par des lois, des chiffres sortis tout droit d'une formule. Derrière tout ça, il y a des hommes et de femmes. Alors j'agis en être humain : je retiens ce qui me touche, je passe sur ce qui m'indiffère. Pour les entreprises, c'est leur culture également qui determine leur champ de surveillance.
Il y a des redondances partout, mais si elles ne sont pas dites de la même façon, si elles ne sont pas issues de la même source.... Le message n'est plus le même.

 


Elea | Le Jeudi 02/02/2006 à 23:48 | [^] | Répondre

Pareto, Zipf, Web

La loi de Pareto, surtout utilisée en économie; la loi de Zipf, surtout utilisée en analyse du langage, expriment des phénomènes liés à des phénomènes de diversité. L'information au sens général suit les lois de diversité. Le Web, comme support de l'information, et ses applications, suivent les lois de diversités. Une bibliographie sur le sujet peut être trouvée à http://linkage.rockefeller.edu/wli/zipf/index_ru.html.

Cordialement

 


Luc Quoniam | Le Vendredi 03/02/2006 à 08:58 | [^] | Répondre

Pareto, Zipf, Web (suite)

Pardon mais je n'avais répondu qu'à la moitié de la question, dans ma réponse précédente.
Ne considérer que les 20% qui contiendrait les 80% (application directe de Pareto) est donc a priori suffisant pour se faire une idée de synthèse (sans valeur ajoutée) sur le sujet.
Cependant l'innovation vient de la diversité, la diversité vient des phénomènes à faible fréquence. Donc il n'y a information (riche) qu'en considérant le 80% qui contient 20% de l'information (mais à potentiel de valeur ajoutée). Ce sont les approches sur l'analyse des signaux faibles.
De nombreux travaux ont été écrits sur le domaine, désolé je n'ai pas de bibliographie "toute faite".

Cordialement

 


Luc Quoniam | Le Vendredi 03/02/2006 à 09:07 | [^] | Répondre

Re: Pareto, Zipf, Web (suite)

Merci de ces réponses éclairées.

Cependant l'innovation vient de la diversité, la diversité vient des phénomènes à faible fréquence. Donc il n'y a information (riche) qu'en considérant le 80% qui contient 20% de l'information (mais à potentiel de valeur ajoutée).
C'est bien ce qui m'inquiète...


 


crid | Le Vendredi 03/02/2006 à 11:40 | [^] | Répondre

Lien croisé

les z'ed : "La masse d’informations produite… Avons-nous le temps de tout lire ? Faut-il tout lire ? surtout comme le suggère Christophe, que la loi de Pareto (80/20) pourrait fort bien s’appliquer très certainement dans le domaine. De plus, plusieurs études tendraient à prouver que l’on passe déjà trop de temps sur Internet dans les entreprises. N’oublions pas qu’Internet n’est qu’un outil !"

 


Anonyme | Le Samedi 04/02/2006 à 12:42 | [^] | Répondre

Lien croisé

Outils de veille : "pe collecte, on connaît l'importance des informations informelles, obtenues par des rencontres "réelles", disons autrement que par la veille documentaire (incluant la veille internet) ou la lecture de nos revues préférées. Par les temps qui courent, on a parfois tendance à rester collé à son ordi, tant les flux d'information nous arrivent de partout à la fois (à lire le post de Christophe Deschamps sur Outils froids à ce propos), mais bon on ne le dira jamais assez, c'est souvent ailleurs qu'on aura l'info clé, ou tout au moins la bribe d'info qui recollera les pièces du puzzle que l'on avait constitué via une veille plus classique. Donc, sortons, rencontrons, et tentons de faire remonter l'info dans le cadre des organisations."

 


Anonyme | Le Lundi 13/02/2006 à 13:08 | [^] | Répondre

Lien croisé

Embruns, carnet web de Laurent Gloaguen : "ça dépend si tu lis pour le plaisir ou pour t'informer. Si c'est pour t'informer, la loi de Pareto est ton amie (en savoir plus sur Outils Froids). il te suffit de selectionner 20% de sites pertinents par rapport à ton sujet."

 


Anonyme | Le Vendredi 24/02/2006 à 10:39 | [^] | Répondre

Lien croisé

pareto - Sujets chauds swicki - powered by eurekster : "OF - Questions sur le traitement de l'information ..." rel="nofollow"

 


Anonyme | Le Samedi 11/11/2006 à 02:31 | [^] | Répondre

 

Nuage de mots-clés des articles