Email     Password  
Connection | Subscription
OnLine
Media
Collaborative
technologies
e-Business
Social Innovation
& "Digitainable"
Entrepreneurship
Software
development
Mobile
Business
Digital rights
and duties
Actus, tendances et trouvailles (NEW)
A propos de nous
[L’idée : adapter en talkshows-débats des sujets trouvés en ligne.] [Prenez plaisir à partager vos idées dans nos talkshows maison : cliquez sur « postuler »] by   CHRISTIAN   on   16 JUILLET, 2013 http://www.christian-faure.net/?p=3345   Je suis particulièrement étonné par le discours actuel sur les  big data  ; discours selon lequel  nous serions passé de la causalité à la corrélation . Je pense surtout à la thèse de  Viktor Mayer-Schönberger  et  Kenneth Cukier , dans leur livre  Big Data : une révolution qui va transformer notre façon de vivre, de travailler et penser . (voir l’excellent article de recension de Hubert Guillaud :  Big Data : nouvelle étape de l’informatisation du monde. ) Dans leur article paru dans  Le Monde Diplomatique  de Juillet 2013, les auteurs écrivent : “La manière dont la société traite l’information se trouve radicalement transformée. Au fur et à mesure que nous exploitons ces gisements pour élucider des faits ou prendre des décisions, nous découvrons que, à bien des égards, nos existences relèvent de probabilités davantage que de certitudes. Ce changement d’approche à l’égard des données numériques – exhaustives et non plus échantillonnées, désordonnées et non plus méthodiques, explique le glissement de la causalité vers la corrélation. On s’intéresse moins aux raisons profondes qui président à la marche du monde qu’aux associations susceptibles de relier entre eux des phénomènes disparates. L’objectif n’est plus de comprendre les choses, mais d’obtenir une efficacité maximale.” Le Monde Diplomatique, Juillet 2013, p. 20. Tout d’abord les auteurs  tendent à opposer la corrélation et la causalité  en faisant porter cette opposition sur celle entre le pourquoi  et le  comment  ; ce qui est une argumentation assez surprenante. Faut-il rappeler que la corrélation (originairement appelée “co-existence”) n’est pas l’opposée de la causalité ? Que le coefficient de corrélation permet précisément de mesurer la force de la liaison entre 0 (indépendance) et 1 (dépendance stricte). Dans le cas où le coefficient est 1 : on a la pleine causalité directe. (Cf. Alain Derosières,  La politique des grands nombres , 1993, p.134). La causalité est un des pôles de la corrélation, un  cas particulier (que l’on pourrait qualifier de  nécessaire et suffisant ). Opposer les deux n’a pas de sens, surtout quand on cherche à asseoir de manière  opportuniste  cette distinction entre les deux sur la base du numérique et des  big data . Pearson en 1911, dans “La Grammaire de la Science”, avait déjà instauré cette distinction dans le champ de la statistique. Ce qu’il faut plutôt souligner, avec les  Big Data , c’est l’importance du  schème probabiliste bayésien  au détriment du  schème fréquentiste  (même si les deux thèses se rejoignent sur les grands nombres). Or c’est un point sur lequel les auteurs ne disent rien, et pour cause, puisqu’ils parlent de données numériques “exhaustives et non plus échantillonnées” : ce qui est un contre-sens car, précisément, les algorithmes de corrélation dont nous parlons reposent sur les probabilités bayésiennes qui ne travaillent pas à partir de données exhaustives et dont la fréquence est objective mais  à partir d’échantillons et en avançant à tâtons dans une économie entre probabilités  a priori  et  a posteriori . Cette confusion fait croire au lecteur que les big data permettent des calculs sur un nombre fini de données qui est, certes, vertigineux, mais ce n’est pas du tout le cas.  Les  big data  ne sont pas des corpus immenses et stables mais des flux sans cesse mis à jours et évolutifs  : d’où l’utilisation des probabilités bayésiennes pour éprouver des conjectures. (La  Business Intelligence  travaille avec des schèmes fréquentistes là où le travail sur les  bid data  travaille sur des probabilités bayésiennes) Il aurait été bien plus intéressant de préciser que l’utilisation du schème probabiliste bayésien suppose  une conception “à rebours” de la catégorie de causalité , en allant non plus des causes aux effets mais des effets pour remonter aux causes ( ce que fait Sherlock Holmes, comme tout bon détective). Bref, d’approximations en approximations, les auteurs montent en épingle une distinction qu’ils ne maîtrisent pas et qu’ils appliquent aux  Big Data  parce que c’est à la mode et puis parce que le terme est très flou et qu’il permet de dire ce que l’on veut sans être contredit. Nous vivons une époque de  combinatoire des corrélations  et il est plus que jamais nécessaire de dépasser la stricte catégorie de Causalité  : soit à partir d’une causalité à rebours (inférence bayésienne), soit à partir des méthodes corrélatives. Et si vous voulez un exemple concret, regardez du côté du domaine de la santé dans ce que j’avais appelé la  pollution relationnelle . On rappellera aux auteurs que  nous sommes passés de la « causalité » à la « corrélation » depuis l’émergence des probabilités au XVII °   (cf. Ian Hacking,  L’émergence de la probabilité ) et qu’il y a belle lurette que « nos existences relèvent de probabilités davantage que de certitudes ».  
Here's my feedback:
Below, I explain my motivation to the organizers:


I transmit my opinion: I find this subject...




Misc infos
Format : Teaser
Treatment : Call for contributors
Article
Collaborative content preparation:
AUDIENCE
Webtv guidelines
 
 
If I sponsored this subject?
Follow us on Twitter
Follow us on Facebook

[L’idée : adapter en talkshows-débats des sujets trouvés en ligne.]
[Prenez plaisir à partager vos idées dans nos talkshows maison : cliquez sur « postuler »]

by CHRISTIAN on 16 JUILLET, 2013

http://www.christian-faure.net/?p=3345

 

Je suis particulièrement étonné par le discours actuel sur les big data ; discours selon lequel nous serions passé de la causalité à la corrélation. Je pense surtout à la thèse de Viktor Mayer-Schönberger et Kenneth Cukier, dans leur livre Big Data : une révolution qui va transformer notre façon de vivre, de travailler et penser. (voir l’excellent article de recension de Hubert Guillaud : Big Data : nouvelle étape de l’informatisation du monde.)

Dans leur article paru dans Le Monde Diplomatique de Juillet 2013, les auteurs écrivent :

“La manière dont la société traite l’information se trouve radicalement transformée. Au fur et à mesure que nous exploitons ces gisements pour élucider des faits ou prendre des décisions, nous découvrons que, à bien des égards, nos existences relèvent de probabilités davantage que de certitudes.

Ce changement d’approche à l’égard des données numériques – exhaustives et non plus échantillonnées, désordonnées et non plus méthodiques, explique le glissement de la causalité vers la corrélation.

On s’intéresse moins aux raisons profondes qui président à la marche du monde qu’aux associations susceptibles de relier entre eux des phénomènes disparates. L’objectif n’est plus de comprendre les choses, mais d’obtenir une efficacité maximale.” Le Monde Diplomatique, Juillet 2013, p. 20.

Tout d’abord les auteurs tendent à opposer la corrélation et la causalité en faisant porter cette opposition sur celle entre lepourquoi et le comment ; ce qui est une argumentation assez surprenante. Faut-il rappeler que la corrélation (originairement appelée “co-existence”) n’est pas l’opposée de la causalité ? Que le coefficient de corrélation permet précisément de mesurer la force de la liaison entre 0 (indépendance) et 1 (dépendance stricte). Dans le cas où le coefficient est 1 : on a la pleine causalité directe. (Cf. Alain Derosières, La politique des grands nombres, 1993, p.134).

La causalité est un des pôles de la corrélation, un cas particulier(que l’on pourrait qualifier de nécessaire et suffisant). Opposer les deux n’a pas de sens, surtout quand on cherche à asseoir de manière opportuniste cette distinction entre les deux sur la base du numérique et des big data. Pearson en 1911, dans “La Grammaire de la Science”, avait déjà instauré cette distinction dans le champ de la statistique.

Ce qu’il faut plutôt souligner, avec les Big Data, c’est l’importance du schème probabiliste bayésien au détriment du schème fréquentiste (même si les deux thèses se rejoignent sur les grands nombres). Or c’est un point sur lequel les auteurs ne disent rien, et pour cause, puisqu’ils parlent de données numériques “exhaustives et non plus échantillonnées” : ce qui est un contre-sens car, précisément, les algorithmes de corrélation dont nous parlons reposent sur les probabilités bayésiennes qui ne travaillent pas à partir de données exhaustives et dont la fréquence est objective mais à partir d’échantillons et en avançant à tâtons dans une économie entre probabilités a priori et a posteriori. Cette confusion fait croire au lecteur que les big data permettent des calculs sur un nombre fini de données qui est, certes, vertigineux, mais ce n’est pas du tout le cas. Les big data ne sont pas des corpus immenses et stables mais des flux sans cesse mis à jours et évolutifs : d’où l’utilisation des probabilités bayésiennes pour éprouver des conjectures. (La Business Intelligence travaille avec des schèmes fréquentistes là où le travail sur les bid data travaille sur des probabilités bayésiennes)

Il aurait été bien plus intéressant de préciser que l’utilisation du schème probabiliste bayésien suppose une conception “à rebours” de la catégorie de causalité, en allant non plus des causes aux effets mais des effets pour remonter aux causes ( ce que fait Sherlock Holmes, comme tout bon détective).

Bref, d’approximations en approximations, les auteurs montent en épingle une distinction qu’ils ne maîtrisent pas et qu’ils appliquent aux Big Data parce que c’est à la mode et puis parce que le terme est très flou et qu’il permet de dire ce que l’on veut sans être contredit.

Nous vivons une époque de combinatoire des corrélations etil est plus que jamais nécessaire de dépasser la stricte catégorie de Causalité : soit à partir d’une causalité à rebours (inférence bayésienne), soit à partir des méthodes corrélatives. Et si vous voulez un exemple concret, regardez du côté du domaine de la santé dans ce que j’avais appelé la pollution relationnelle.

On rappellera aux auteurs que nous sommes passés de la « causalité » à la « corrélation » depuis l’émergence des probabilités au XVII °  (cf. Ian Hacking, L’émergence de la probabilité) et qu’il y a belle lurette que « nos existences relèvent de probabilités davantage que de certitudes ».

 

Share the link:
Connected subjects:
  • Comment from Frédéric BASCUNANA: Bon article à lire sur ce sujet :http://www.economist.com/blogs/babbage/2014/04/babbage-april-16th-2014 Comment from Dominique Rabeuf: Pire que du BullShit, c'est de la crotte d'inculte semi illettré.On annule bien les permis de conduire, à ceux-ci on devrait annuler tout les diplômes.Lorsque l'on fera leur autopsie, il n'y aura pas besoin d'un BigData System pour analyser le contenu de leur cerveau.On trouvera juste des traces d'ego boursouflé !