Questions sur le traitement de l'information provenant du web
Voilà une question qui me trotte dans la tête depuis quelques temps et qui s'adresse peut-être à des chercheurs en sciences de l'information, à moins que ce ne soit à des statisticiens spécialistes du web ou à d'autres que je n'ai pas identifié.
On constate tous que la masse d'information accessible par le web est de plus en plus importante et cela notamment à cause de blogs comme le mien. Dans le même temps on constate que beaucoup de ces informations "tournent en rond" et qu'elles sont reprises, commentées, développées, analysées,... de multiples fois.
Mon hypothèse (enfin c'est un grand mot) c'est qu'il doit y avoir une règle statistique disant qu'en lisant telle quantité (20%?) de sites, ou fils d'infos sur un domaine on peut être au courant de telle quantité globale (80%?) de ce qui se dit dans ce domaine. Questions:
- Est-ce que la loi de Pareto est vérifiée depuis l'avènement des blogs et autres wikis ou sites de journalisme citoyen?
- Est-ce que des chercheurs s'intéressent à ce sujet (j'imagine que oui)?
- Est-ce qu'ils ont écrit des articles accessibles à un non-statisticien comme moi? Et si oui lesquels?
Dave Snowden, chercheur au Cynefin et concepteur d'un modèle particulièrement adapté à ce nouveau contexte, propose de ne pas chercher à vouloir être exhaustif à tout prix. Je suis tout à fait d'accord avec lui pour des raisons exposées dans un précédent billet mais j'aimerai savoir si des sciences "dures" peuvent apporter d'autres éléments allant en ce sens.
Articles portant sur des thèmes similaires :
- OF- Recyclage : L'avenir des folksonomies à l'ère du web implicite - 14/11/09
- Recyclage : Protopage, Netvibes et quelques considérations sur le Web 2.0 (mai 2005° - 23/04/09
- Quand Twitter fera autorité (où le koan numérique remplace l'Encyclopaedia Universalis) - 05/04/08
- Fin des travaux sur Outils Froids - 28/03/08
- Le top 10 des Outils Froids 2007 - 26/01/08









Lien croisé
Ecrit par Anonyme, le Lundi 30 Janvier 2006, 23:14
lilina news aggregator : "20:24 Questions sur le traitement de l'information provenant du web» Outils Froids Infos Outils Froids Voilà une question qui me trotte dans la tête depuis quelques temps et qui s'adresse peut-être à des chercheurs en sciences de l'information, à moins que ce ne soit à des statisticiens spécialistes du web ou à d'autres que je n'ai pas identifié.On constate tous que la masse d'information accessibl"
← Re: Lien croisé
Ecrit par delcroix, le Mercredi 1 Février 2006, 16:30
encore un lien croisé…
En effet, j'ai écrit un billet au sujet des bookmarks sociaux ou signets sociaux, le filtrage social des news (ou sites communautaires), etc. où je te mentionne.
L'adresse : http://www.ed-productions.com/leszed/index.php?2006/02/02/1404-social-par-ci-social-par-la
Sinon, je suis a peu près convaincu que Pareto est parmi nous !
question intérressante
Ecrit par jahrynx, le Mardi 31 Janvier 2006, 00:23
c'est vrai que c'est une question particulièrement intérressante et ca vaut le coup de se la poser (lorsque l'on fait du nettoyage dans son aggregateur par exemple)
mais comment y répondre, quels sont les fils à garder :
- ceux qui lancent les infos et qui sont repris par tous les autres ?
- ceux qui font office de filtre et qui ne font que citer les autres ?
- ceux qui sont entre les deux ?
Je ne sais pas trop s'il y a des analyses qui sont faites là dessus mais je pense que pour comprendre le phénomene ca peut valoire le coup de lire l'article "Authorative source in a hyperlinked environment" de Jon M. Kleinberg (journal of ACM vol.46 n°5 09/1999 accessible librement sur le web) ne serait ce que pour voir quelles techniques pourraient etre employées pour classer les blogs en plusieurs catégories : hub (ceux qui font pleins de liens) et authorité (ceux qui passent leur temps à se faire citer)
Bon l'article date un peu (à l'échelle du net) mais peut etre intéressant quand meme pour comprendre le phénomène des liens (en passant sur les démonstration mathématiques)
ca serait une questions à se poser : combien de sources d'information faut il suivre au minimum (donc on se tourne vers les hubs) pour etre sur de ne rien rater de ce qui se passe ?
Après on peut aussi lire certaines choses pour la qualité de l'écriture ou le style...
Cela dépend
Ecrit par Balluche, le Mardi 31 Janvier 2006, 01:11
Il y a plusieurs points à considérer Olivier. D'abord la notion de web invisible qui veut que les 80% du web sont en fait cachés et très peu accessibles. Sinon cela voudrait dire que l'information qui circule sur les 20% serait toute l'information, ce qui me semble être vaniteux pour les blogueurs que nous sommes. :-)
Ensuite, je crois savoir que c'est justement le rôle du web que d'affiner les réponses personnelles sur un sujet. Wikipedia en est un bel exemple.
Par ailleurs la loi de Pareto est quelque chose de complètement empirique, déduit du bon sens, donc sans fondement scientifique. Enfin c'est une lapalissade ce que je viens de dire. Mais c'est pour dire que je ne pense pas que cela s'applique au web.
← Re: Cela dépend
Ecrit par crid, le Mardi 31 Janvier 2006, 10:36
Merci de ta réponse.
Pour ce qui est de la loi de Pareto, même si effectivement les premières observations étaient empiriques, il semblerait qu'elle ait été depuis vérifiée :
http://perso.wanadoo.fr/gilles.trehin.urville/distribution_et_loi_de_pareto.htm
http://www.bibmath.net/dico/index.php3?action=affiche&quoi=./l/loipareto.html
← Re: Re: Cela dépend
Ecrit par Balluche, le Mardi 31 Janvier 2006, 21:05
Merci Christophe pour ces liens intéressants. Désolé, je pensais que tu te prénomais Olivier. Ce doit être à cause du titre du blog : OF ;-).
← Re: Re: Re: Cela dépend
Ecrit par crid, le Mardi 31 Janvier 2006, 22:56
Pas de mal
Ecrit par Manue, le Mardi 31 Janvier 2006, 12:59
Je suis assez d'accord avec ton hypothèse (le ration 80/20%), et en terme de gain de temps, la règle "pour un fil RSS ajouté, un fil RSS enlevé" est toujours valable si on veut survivre.
Mais de façon tout à fait empirique, je dirais que cela dépend probablement du domaine de la connaissance auquel on s'intéresse, et de la vivacité de la communauté qui assure la veille de ce domaine à travers les blogs.
Au hasard ;-) pour faire une veille générale sur les bibliothèques, il suffit d'être abonné à une dizaine ou une vingtaine de fil RSS. Par contre, si on cherche des infos très spécialisées sur un domaine transverse (comme l'information sur le Web), ou si on veut être le premier à avoir les nouvelles informations, le nombre de fils augmente considérablement, puisqu'il faut aller chercher l'info à la source (revues, listes d'informations) au lieu d'attendre qu'elle soit relayée par les principaux acteurs de la communauté.
La loi de Pareto intègre-t-elle le facteur temps pour évaluer la quantité globale d'information utile ?
← Re:
Ecrit par JF, le Mardi 31 Janvier 2006, 15:10
La " loi de Pareto " c'est pas un nom commun pour une distribution de Fisher ?
← Re: Re:
Ecrit par crid, le Mardi 31 Janvier 2006, 16:45
Je ne suis pas qualifiée pour répondre à cette question. En fait j'ai cité cette loi car elle illustrait bien mon propos mais je ne suis pas sûr que ce soit pertinent. En fait je n'ai pas les moyens d'en juger et c'est ce que j'aimerai approfondir.
La méthode du sursis
Ecrit par Armelle, le Mardi 31 Janvier 2006, 19:15
Oui, c'est vrai que cela devient dur... J'ai expérimenté avec succès la méthode dite "du sursis" lue sur un blog quebecois... Il s'agit, outre la règle de "si j'en ajoute un, j'en enlève un" déjà citée dans les commentaires, de se garder un dossier où on met les fils RSS en attente de "jugement". Sinon, il faudrait peut-être avoir des fonctions nouvelles sur les agrégateurs, à étudier. Mais sinon, pour le contenu, je pense qu'il y a effectivement les blogs pour se tenir "tout bêtement" au courant, et puis ceux que l'on prend plaisir à lire, au-delà de l'actu.. Et ça, la règle des 80-20 est impuissante....
Lien croisé
Ecrit par Anonyme, le Mercredi 1 Février 2006, 00:11
Dunhill52 s’emballe : "Questions sur le traitement de l’information provenant du web - Excellente question ouverte concernant le rapport de chacun avec la masse d’information disponible sur internet. Ou va-t-on? Que peut-on faire? A lire absolument pour déclencher une réflexion personnelle!"
Lien croisé
Ecrit par Anonyme, le Mercredi 1 Février 2006, 05:52
2242... et combien de plus? (on NaSM) : "Une question intéressante chez Outils Froids: peut-on trouver les "meilleurs sites" pour avoir les bonnes infos avec un minimum de sites ? Est ce que c'est la "A list" (c'est traduit par Blogogeoisie en français ou ce n'est pas le même concept ?)"
Lien croisé
Ecrit par Anonyme, le Jeudi 2 Février 2006, 00:36
Blog story - InnIS: Innovation & Information Stratégique : "Un article sur outil froid s'interroge aussi sur la valeur des informations véhiculées notamment par les blogs. L'auteur se demande notamment s'il serait possible, en ne lisant qu'un nombre restreint de sites web, de connaitre un maximum d'informations sur un sujet précis.L'article ici : http://www.outilsfroids.net/news/1163.shtml "
problème complexe
Ecrit par Elea, le Jeudi 2 Février 2006, 00:48
L'explosion des informations mais surtout des blogs et des flux RSS me font tourner la tête : tous les jours de nouveaux blogs, de nouveaux flux, sont-ils pertinents, sont-ils suffisants...
Je trouve le problème trop complexe pour être argumenté par des lois, des chiffres sortis tout droit d'une formule. Derrière tout ça, il y a des hommes et de femmes. Alors j'agis en être humain : je retiens ce qui me touche, je passe sur ce qui m'indiffère. Pour les entreprises, c'est leur culture également qui determine leur champ de surveillance.
Il y a des redondances partout, mais si elles ne sont pas dites de la même façon, si elles ne sont pas issues de la même source.... Le message n'est plus le même.
Pareto, Zipf, Web
Ecrit par Luc Quoniam, le Jeudi 2 Février 2006, 09:58
La loi de Pareto, surtout utilisée en économie; la loi de Zipf, surtout utilisée en analyse du langage, expriment des phénomènes liés à des phénomènes de diversité. L'information au sens général suit les lois de diversité. Le Web, comme support de l'information, et ses applications, suivent les lois de diversités. Une bibliographie sur le sujet peut être trouvée à http://linkage.rockefeller.edu/wli/zipf/index_ru.html.
Cordialement
Pareto, Zipf, Web (suite)
Ecrit par Luc Quoniam, le Jeudi 2 Février 2006, 10:07
Pardon mais je n'avais répondu qu'à la moitié de la question, dans ma réponse précédente.
Ne considérer que les 20% qui contiendrait les 80% (application directe de Pareto) est donc a priori suffisant pour se faire une idée de synthèse (sans valeur ajoutée) sur le sujet.
Cependant l'innovation vient de la diversité, la diversité vient des phénomènes à faible fréquence. Donc il n'y a information (riche) qu'en considérant le 80% qui contient 20% de l'information (mais à potentiel de valeur ajoutée). Ce sont les approches sur l'analyse des signaux faibles.
De nombreux travaux ont été écrits sur le domaine, désolé je n'ai pas de bibliographie "toute faite".
Cordialement
← Re: Pareto, Zipf, Web (suite)
Ecrit par crid, le Jeudi 2 Février 2006, 12:40
Merci de ces réponses éclairées.
C'est bien ce qui m'inquiète...Lien croisé
Ecrit par Anonyme, le Vendredi 3 Février 2006, 13:42
les z'ed : "La masse d’informations produite… Avons-nous le temps de tout lire ? Faut-il tout lire ? surtout comme le suggère Christophe, que la loi de Pareto (80/20) pourrait fort bien s’appliquer très certainement dans le domaine. De plus, plusieurs études tendraient à prouver que l’on passe déjà trop de temps sur Internet dans les entreprises. N’oublions pas qu’Internet n’est qu’un outil !"
Lien croisé
Ecrit par Anonyme, le Dimanche 12 Février 2006, 14:08
Outils de veille : "pe collecte, on connaît l'importance des informations informelles, obtenues par des rencontres "réelles", disons autrement que par la veille documentaire (incluant la veille internet) ou la lecture de nos revues préférées. Par les temps qui courent, on a parfois tendance à rester collé à son ordi, tant les flux d'information nous arrivent de partout à la fois (à lire le post de Christophe Deschamps sur Outils froids à ce propos), mais bon on ne le dira jamais assez, c'est souvent ailleurs qu'on aura l'info clé, ou tout au moins la bribe d'info qui recollera les pièces du puzzle que l'on avait constitué via une veille plus classique. Donc, sortons, rencontrons, et tentons de faire remonter l'info dans le cadre des organisations."
Lien croisé
Ecrit par Anonyme, le Jeudi 23 Février 2006, 11:39
Embruns, carnet web de Laurent Gloaguen : "ça dépend si tu lis pour le plaisir ou pour t'informer. Si c'est pour t'informer, la loi de Pareto est ton amie (en savoir plus sur Outils Froids). il te suffit de selectionner 20% de sites pertinents par rapport à ton sujet."
Lien croisé
Ecrit par Anonyme, le Vendredi 10 Novembre 2006, 03:31
pareto - Sujets chauds swicki - powered by eurekster : "OF - Questions sur le traitement de l'information ..." rel="nofollow"
Lien croisé
Ecrit par Anonyme, le Dimanche 31 Janvier 2010, 18:20
Pareto, 80-20 | Les z'ed : ">WP Greet Box Word Press Plugin Depuis quelques mois je pense souvent à me replonger un peu dans cette loi de Pareto. Plus exactement depuis le billet de Christophe : Questions sur le traitement de l’information provenant du web…Comme je n’ai pas eu le temps courage de regarder dans mes anciens cours de marketing, ni de feuilleter l’un de mes livres de chevet en étant étudiant : le "