Les certitudes de l’incertitude

Avez-vous remarqué la connotation négative de tous les termes qui ont trait au hasard? « L’aléa » est synonyme de mauvaise surprise, comme le « risque » d’ailleurs. « Hazardous » signifie dangereux en anglais et en français tout ce qui est « hasardeux » n’a pas franchement la cote non plus. Il faut croire qu’on n’est pas très à l’aise avec l’incertitude en général. Mais comme il faut bien faire avec, on tente de domestiquer les phénomènes aléatoires en les réduisant à leur moyenne, agrémentée de leur « écart-type » si on veut faire pro (qui indique la dispersion typique des mesures autour de la moyenne). Et l’on se représente mentalement la série des valeurs aléatoires gentiment dispersée autour de la moyenne et de plus en plus rares à mesure qu’on s’en éloigne. Cette distribution dite « normale » (les mots ne sont pas neutres) est la fameuse courbe en cloche de Gauss, extraordinairement pratique, mais qui nous induit souvent en erreur comme on va le voir…

Tapons-nous la cloche

La fréquence des tailles au sein d’une population adulte donne une bonne idée de l’allure d’une telle distribution:

Dans ce type de distribution règne la tyrannie de la moyenne:
– l’immense majorité de l’échantillon se concentre autour de la moyenne, à la pointe de la cloche: 68% des valeurs sont à moins d’un écart-type de la moyenne (entre 1m75 et 1m90 dans notre exemple);
– la proportion des valeurs extrêmes diminue exponentiellement quand on s’éloigne de la moyenne: il y a une chance sur un milliard de tomber sur un géant de plus de 2m30.
Les extrêmes sont donc à la fois modérés, rares et de peu d’influence. La loi des grands nombres prédit que la moyenne mesurée à partir de n’importe quel (grand) échantillon donne une très bonne approximation de la moyenne théorique, car aucun individu de l’échantillon n’aura un poids suffisant pour biaiser significativement la mesure. Dans ce Médiocristan comme l’appelle Nassim Nicholas Taleb [1] figure la statistique de l’âge d’une population, du nombre de côtés « pile » quand on lance une pièce de monnaie, du nombre de personnes par foyer, etc.

Pareto: voyage dans le royaume de l’Ekstremistan

En étudiant la répartition des richesses de la population italienne à la fin du XIXeme siècle, Vilfredo Pareto découvrit une tout autre distribution aléatoire, où 20% de la population gagne 80% des revenus d’un pays. Depuis cette époque, les 20% les plus riches gagnent plutôt 40% des revenus en France et aux Etats-Unis parce que les inégalités se sont un peu réduites (ou est-ce parce que les revenus déclarés au fisc reflètent mal la valeur réelle des hauts revenus? 😉 mais on continue d’appeler ça la loi des 80-20:

source: d’après le site de Daniel Martin

Ce type de distribution « sauvage » comme l’appelle Benoît Mandelbrot, a cours dans beaucoup de domaines, comme ceux qu’on trouve par exemple sur le site de Gérard Villemin:
– Moins de 1% des loueurs de voitures comptent pour plus de 25% des heures de location;
– 30% des sites Web concentrent 90% des visites;
– 17% de la population mondiale (celles des pays riches) consomment 80% des médicaments etc.
– En biologie les insectes représentent un million des 1 800 000 espèces décrites à ce jour, suivis de loin par les plantes supérieures (270 000) qui elles-mêmes devancent les mollusques (85 000). Mais tout ça n’est rien par rapport aux bactéries qui battent à plate couture toutes les autres formes de vie sur l’arbre du vivant (sur la figure empruntée à Wikipédia, les bactéries sont en bleu) et représenteraient plus de la moitié de la biomasse sur Terre!

La loi des grands nombres: abrogée!

Ici, c’est l’inverse du Médiocristan. Les valeurs extrêmes sont certes rares, mais elles sont tellement spectaculaires que leur présence n’est plus du tout négligeables sur la moyenne. Prenez par exemple la taille des 36 500 communes en France métropolitaine: 1722 habitants en moyenne. Si vous écartez les valeurs extrêmes des 113 villes de plus de 50 000 habitants, votre moyenne tombe à 1324 habitants! 0,35% des données pèsent donc pour 25% de la moyenne. Plus question donc d’appliquer la loi des grands nombres car vous avez de grandes chances que votre échantillon ne soit pas bien représentatif des valeurs extrêmes. Idem pour l’écart-type.

Je me suis amusé à regarder l’historique du Nasdaq depuis 1971 (les données sont téléchargeables ici). Les différences sautent aux yeux quand on compare la distribution des fluctuations quotidiennes du Nasdaq avec celles d’une Gaussienne ayant la même moyenne (0,27) et le même écart-type (27):

 1) Les très grandes fluctuations, sur lesquelles j’ai fait un zoom, sont beaucoup plus fréquentes. Il y a eu 64 jours « noirs » où l’indice a chuté de plus de 108 points (4 écarts-types), soit une chance sur 150. Si la distribution était « normale », il aurait fallu attendre plus de 10 ans pour qu’une telle chute se produise (une chance sur 31 000)! L’allure de la queue de la courbe de distribution est donc beaucoup plus « épaisse » que pour une courbe gaussienne, d’où son surnom de « fat tail »…

Pour donner une idée de l’impact de ces journées de folie: depuis quarante ans le Nasdaq a oscillé entre 5060 points (valeur maximale en mars 2000) et 54 (valeur minimale en octobre 1974). Or les 11 jours les plus chahutés de l’histoire du Nasdaq représentent à eux tout seuls une variation cumulée de plus de 3000 points, soit 60% de la variation nette globale!

2) A l’autre bout de l’échelle, il y a beaucoup plus de jours en Bourse où il ne se passe rien du tout ou presque: 2000 jours sans aucune variation là où une Gaussienne n’en compterait que 150. A tel point que j’ai dû raboter le haut de l’échelle des ordonnées pour qu’on puisse voir le reste de la courbe. Paradoxalement, on s’ennuie beaucoup plus fréquemment en Ekstremistan! Les évolutions se passent un peu au rythme d’une veste qu’on ouvre en écartant ses pans, sans prendre le soin de la déboutonner: de longues périodes d’immobilité succèdent à de violents a-coups, chaque fois qu’il y a un bouton à passer.

Avec tout ça, on comprend qu’il soit aussi difficile de faire la moindre prédiction sur la Bourse en extrapolant à partir des valeurs passées. La distribution normale sur laquelle s’appuient encore bon nombre de modèles financiers est manifestement peu adaptée à des évolutions aussi chaotiques.

Hasard fractal…

Ces distributions extrêmes ont une autre caractéristique: leurs règles étranges sont valables quelque soit l’échelle à laquelle on les regarde. Pour reprendre l’exemple des communes, 23% de la population est concentrée dans 0,34% des communes (les 113 plus grandes villes), mais cette hyperconcentration se vérifie aussi dans la taille des 60 plus grandes villes dont 40% de la population se concentre sur les 6 premières. Et Paris pèse à lui tout seul près de la moitié de ces 6 mégapoles.

Idem pour le Nasdaq, dont l’évolution est étrangement similaire, qu’on l’observe sur 15 ans ou sur 12 mois:

Qui dit invariance d’échelle dit…fractales! Alors que dans une distribution gaussienne, les variations deviennent imperceptibles dès qu’on prend de la hauteur, il n’en est rien pour ces distributions qui conservent la même apparence très irrégulière quelque soit l’échelle à laquelle on les regarde (2).

La raison profonde au fait que la règle des 80-20 reste vraie à toutes les échelles, tient à ce qu’il y a dans toutes ces distributions un effet de renforcement pour les valeurs extrêmes, du type « le gagnant rafle tout »: la richesse appelle la richesse (pour la répartition des revenus), la notoriété renforce la notoriété (pour le trafic sur le Web), les grandes villes attirent la population et la Bourse est connue pour ses comportements moutonniers en période de panique ou d’euphorie.

Quand l’ordre dicte la taille…

On a déjà rencontré cette invariance d’échelle dans ce billet sur la loi de Benton: elle suppose que la distribution suive une loi de puissance de type p(x≥h)=h, α étant un paramètre fixe. Lorsque cette distribution concerne des phénomènes que l’on peut classer par ordre de grandeur (la longueur des fleuves par exemple), il existe toujours une relation directe entre le rang et la dimension du phénomène. Le phénomène numéro r aura une dimension proportionnelle à (K/r)1/α, K et α étant des constantes caractéristiques de cette distribution.

[Pour les matheux-curieux: si la probabilité qu’un phénomène x ait une amplitude ≥ h vaut p(x≥h)= h alors sur un échantillon de grande taille K, le nombre de phénomènes de taille ≥ h vaut Kh
Un phénomène d’amplitude h aura donc le rang r=Kh
Le phénomène de rang r aura donc pour taille h=(K/r)1/α ]

Un tas de phénomènes naturels ou sociaux vérifient ce lien géométrique entre classement et amplitude:
– la magnitude des séismes, c’est la loi de Gutemberg-Richter:

– la fréquence des mots dans un texte: c’est la loi de Zipf:

– les dimensions des fleuves, des lacs ou des montagnes et de manière générale tout ce qui a trait à la topologie des paysages. C’est d’ailleurs pas très surprenant dans la mesure où la côte Bretonne est LA figure fractale par excellence: son aspect déchiqueté est similaire quelque soit l’échelle à laquelle on l’observe.

Graphique à partir des statistiques disponibles pour les lacs d’Europe.
La très belle corrélation linéaire entre logarithmes équivaut à une loi de puissance puisque:
Log(surface)=-1,2Log(rang)+4,67 revient à S=47000r-1,2.
En supposant les lacs circulaires, leur largeur vaut donc L=122r-0,6

Le petit conte des Lacs

Mais n’allez pas croire qu’un tel déterminisme aide en quoique ce soit à prévoir la taille des phénomènes extrêmes. La statistique sur les lacs a inspiré un joli conte sur ce sujet à Mandelbrot, le pape des fractales (3). L’histoire se passe dans une contrée brumeuse à la conquête de laquelle se lancent des explorateurs. Ce pays est jonché d’étendues d’eau, certaines immenses (on dit même qu’il y a un océan de 300 km de large, d’autres réduites à de simples lacs d’un kilomètre de largeur. Nos explorateurs n’ont pas de carte, mais sont des bêtes de statistiques (ou alors ils ont lu le Webinet). Ils savent donc que les lacs font en moyenne 2,5km et que le lac numéro r est large de 122 r-0.6

Une fois qu’on s’engage en bateau sur un lac, le brouillard empêche de distinguer l’autre rive si celle-ci est à plus d’un kilomètre. L’équipage en est alors réduit à spéculer sur la probabilité d’arriver prochainement. Si, au bout de cinq kilomètres on n’a toujours pas vu la rive opposée, les calculs indiquent qu’il reste en moyenne cinq autres kilomètres à couvrir. S’il ne voit toujours rien au bout de dix kilomètres, il lui faut s’apprêter à en parcourir dix de plus.

« Le fait même d’avoir couvert quelques kilomètres sans rien rencontrer fait taire tout espoir d’être tombé sur un petit lac et augmente celui d’être tombé sur un lac moyen ou grand, et augmente même le risque terrifiant de s’être engagé sans le savoir sur un Océan. »

[Pour les algébristes seulement: on peut démontrer cette propriété bizarre d’un accroissement géométrique de l’espérance à mesure qu’on s’éloigne du bord:

Si p(L≥x)=x (c’est l’hypothèse de départ, souvenez-vous) la probabilité conditionnelle p(L≥x) sachant que L≥h s’écrit :
p(L≥x / L≥h) = p(L≥x)/p(L≥h) = (x/h)
Si l’on fixe h (5km par exemple), la densité de probabilité vaut
p(x / x≥h)= αhα x-α-1 (c’est la dérivée de la fonction de répartition qu’on vient d’écrire)
et l’espérance E(x / x≥h) est l’intégrale entre h et +∞ de l’expression: αhα x-α-1xdx
Le calcul donne
E(x / x≥h) = hα/(α-1) c’est-à-dire: E(x-h / x≥h)=h/(α-1)
Cette équation barbare se lit de la façon suivante: la distance restant à parcourir quand on a déjà parcouru une distance h est proportionnelle à cette distance h [avec un facteur 1/(α-1) ]

Dans le monde des fractales, tout se joue donc au départ. Si un projet planifié sur un an au total, met initialement deux mois au lieu d’un seul pour passer son premier jalon, ce n’est pas un mois de retard qu’il risque d’avoir à l’arrivée, mais un an! Du côté des bonnes nouvelles, si le jour de sa sortie en salle un film fait cinq fois plus d’entrées qu’un autre, il a de bonnes chances d’avoir cinq fois plus de succès globalement. C’est sans doute la raison pour laquelle Apple concentre autant d’efforts promotionnels au lancement de son iPad, même s’il est certain du succès de celui-ci.

Principe d’incertitude en version macroscopique

Sauf que… le conte de Mandelbrot nous indique aussi qu’on est toujours certain d’être surpris, paradoxe qui ne manque pas de saveur:

« Et puis tout d’un coup, les arbres émergent de la Brume, et on arrive au but. « Haro sur le mauvais faiseur de prévision! » Se moque-t-il de nous, ou commet-il une faute de calcul? Le premier voyageur (bien sûr) l’avait cru, mais il dut se rendre à l’évidence mathématique. C’est curieux, mais c’est ainsi: pendant que l’explorateur abat du travail, la valeur probable de la tâche restante s’allonge à mesure. L’on s’exclame, l’on s’étonne, et les vétérans expliquent patiemment qu’il ne s’ensuit en aucune façon que l’autre rive du lac soit un mirage. Elle existe bel et bien, et les esprits fantasques des Brumes, non seulement finissent toujours par s’attendrir, mais en général s’attendrissent fort rapidement(…) L’autre rivage apparaît juste au moment où rationnellement il paraissait plus éloigné que jamais. Dès lors toutes sortes de clichés s’appliquent de la façon la plus textuelle. Il ne faut pas lâcher pendant le dernier quart d’heure… »


Bref, si les extrapolations gaussiennes sont hors de propos, les prédictions de la statistique fractale ne parviennent pas à faire beaucoup mieux. Elles ne parviennent qu’à nous montrer à quel point tous nos efforts de prédictions sont vains dans beaucoup de domaine. Ce principe d’une « inévitable surprise » -analogue à l’indétermination quantique?- est finalement la seule certitude positive qu’il nous reste. Remarquez, je trouve ça déjà pas mal d’être certain par avance que la nature nous réserve beaucoup d’autres sujets d’étonnement.

Sources:

[1] Nassim Nicholas Taleb, Le Cygne Noir (2007): un excellent bouquin que je vous recommande, même si Taleb a manifestement des comptes à régler avec les économistes!
(2) …jusqu’à un certain point, mais le problème est qu’on ne sait jamais lequel.
(3) Benoît Mandelbrot, Fractales, hasard et finance (1997). J’ai changé les données du conte original car elles ne collent pas avec mes propres statistiques (tirées de Wikipedia sur les lacs d’Europe) et en plus il me semble qu’elles sont incohérentes (la loi T=100/racine(r) de Mandelbrot ne colle pas avec la taille moyenne de 5km qu’il indique dans son livre).

Billets connexes
Logarithmes: again! Sur la loi de Benton et autres curiosités sur les répartitions logarithmique
La Reine, le Fou et l’Arbre illustre la fractalité des évolutions biologiques et technologiques.

19 comments for “Les certitudes de l’incertitude

  1. Arthur Rainbow
    29/05/2010 at 00:32

    >Merci encore une fois pour ce billetDeux points me surprennent, vous donnez le nombre d'espère d'insecte, de plante, etc… mais pas le nombre d'espèce de bactérie (bien qu'on puisse deviner qu'il soit relativement faible puisqu'on a déjà retiré (1 255 000 espère des 1 800 000 selon vos chiffres)L'étonnement dont vous parlez n'arrive que si vous nous dites que ces bactéries représente un très petit nombre d'espèce.En plus, vu qu'il y a des bactéries à l'intérieur des animeaux évolués, je ne sais pas comment vous comptez. Dans la somme totale le poids des bactéries dans d'autres animeaux compte t-il pour les bactérie/les non-bactérie/les deux ? (Je serai curieux à titre personnel de savoir combien de kilo je gagne sur la balance si je ne compte pas mes bactéries, je n'ai pas la moindre idée)(De la même façon, le vendeur d'aggraphe de l'hebdomadaire pour enfant Spirou se vantait de faire toutes les semaines deux fois plus de vante que le journal lui même!)L'autre question que je me pose est sur la remarque sur les produits d'apple, il y a une corrélation entre le nombre d'exemplaire vendu le premier jour et le nombre totale d'exemplaire vendu, mais pas forcément une relation de cause à effet comme vous semblez le laisser entendre. (Ou tu du moins, laisser entendre que c'est ce que pensent les commerciaux d'apple)

  2. cybionte
    29/05/2010 at 06:14

    >wikipédia nous dit ceci sur la flore intestinale, ce qui correspond à mes propres notions: Chez un humain adulte, la flore intestinale est composée de 10^14 bactéries (c'est-à-dire dix fois plus que le nombre de cellules humaines dans le corps) avec un poids total d'un kilogramme et demi (1,5 kg).Merci pour ce billet !

  3. Xochipilli
    29/05/2010 at 10:10

    >Merci Cybionte pour la réponse, j'avoue que je séchais!@Arthur: ces chiffres visent juste à illustrer que le règne des bactéries écrase tous les autres quelque soit la mesure qu'on utilise (masse, nombre d'espèces etc). Les espèces sont définies par les classifications phylogénétiques et tiennent compte de toutes les bactéries y compris les parasites.Sur les ventes, on peut supposer que la relation de cause à effet est très indirecte, à cause du buzz initial dès le lancement…

  4. Léo
    29/05/2010 at 16:22

    >compter les espèces de bactéries est une tâche à peu près impossible. Elles sont trop nombreuses et changent trop vite (très grande plasticité du génome) pour que l'on puisse espérer être un jour exhaustif sur le sujet.On estime le nombre d'espèces dans une fourchette entre "600 000 et 6 milliards". "Un seul prélèvement de 30 g. de sol contient 2 000 types de communautés bactériennes et 50 000 génomes différents."cf : http://www.senat.fr/rap/r07-131/r07-1313.htmldonc dans l'estimation totale des espèces, j'ai bien peur que l'on ne parle que des rares qui sont connues…merci pour ce billet, c'était encore très intéressant :)(et je suis sur que la loi des 80-20 s'applique aussi bien au vivant !)

  5. Hervé
    30/05/2010 at 07:43

    >Excellent billet, bravo d'avoir pris le temps d'illustrer ces idées sur des données réelles !

  6. Nicolas
    31/05/2010 at 22:15

    >Excellent papier !Je pense qu'il faut faire attention à la différence corrélation/causalité. La loi de distribution des lacs est le résultats de la géologie, et on ne peut pas décider du succès d'un film ou d'un ipad en affirmant que les ventes suivront une loi fractale.cf http://xkcd.com/552/Le fractal, on le constate après, on ne le décide pas (même en sachant très bien que le succès appelle le succès).En ce qui concerne le principe d'incertitude de la MQ je vous invite à lire Lévy-Leblond qui traduit l'expression d'Heisengberg en "indétermination" (et bannit le mot "principe". Le rapprochement MQ/stat est audacieux mais intéressant et je suis d'accord pour dire que le monde macroscopique est bizarre car on y voit très peu d'effet quantique et que cela est du au nombre gigantesque d'atomes que contient la moindre goutte d'eau. Il n'y a pas de "principe d'incertitude", le monde réel c'est le monde quantique que nous n'entrevoyons qu'à travers le prisme des proba des stats et des moyennes grossières.

  7. Patrice
    03/06/2010 at 06:38

    >Bonjour.J'ai profité d'un peu de temps libre pour vous relire depuis l'origine…Avec délectation…Pourquoi ne pas faire un livre.Vous auriez un acheteur, c'est déjà bien ;)Sans rire, j'ai pris presque autant de plaisir à votre prose qu'a l'intégrale de Stephen Jay Gould, hormis certain écarts de langages qui ne me gênent pas personnellement mais qui ne passeraient peut-être pas chez un éditeur.Pourquoi ne pas essayer ?

  8. Xochipilli
    05/06/2010 at 10:45

    >@Patrice: merci pour vos encouragements, venant du comploteur papillonesque ça fait plaisir! Pourquoi pas un bouquin effectivement; le format des billets (trop longs) s'y prêterait probablement mieux qu'un blog. Mais il faudrait quand même que trouver une idée directrice sinon tout ça me paraît quand même un peu décousu, non? A l'occasion je vous solliciterai comme conseiller éditorial 😉

  9. Patrice
    08/06/2010 at 16:31

    >Si l'idée directrice était "Curiosités" (ce n'est pas terrible, je l'avoue), vous seriez libre, d'aller dans les quelques ( elles ne sont pas si nombreuses) directions qui vous passionnent. Je relis tout et je vous fais un schéma éditorial ?N'ayez crainte, ce n'est absolument pas de ma compétence.

  10. Anonymous
    10/06/2010 at 12:52

    >Merci pour le billet.Perso j'imprime vos papiers pour les lire tranquille car je ne sais pas " lire" sur un écran de PC.Je me fais donc mon mini livre toute seule 🙂 et j'en perds ensuite des morceaux dans toute la maison.. :-(Je prends effectivement moi aussi autant de plaisir à vous lire, qu'à lire J gould.Anne

  11. Arthur Rainbow
    13/06/2010 at 07:00

    >J'aime beaucoup l'idée du livre, mais ça veut dire retirer les vidéos, les discussions en commentaire, les liens (clicable) on y perd un peu. Par ailleurs sur certaines images je suppose que vous risqueriez de vous trouvez confronter au problème de droit d'auteur pour les images que vous utilises (si sur internet les gens ne disent rien pour les droits sur les images, je ne sais pas si l'éditeur accepterait de fermer les yeux sur cette question)Effectivement le tout serait un peu décousu s'il est publié tel quel, d'autant que si c'était juste des "chapitre" d'un livre, ça ferait des chapitres relativement court par rapport à ce qu'on peut voir d'habitude. Mais je pense que c'est mieux que d'autres solutions tels que: regrouper les billets par thèmes.Je suppose que je ne suis pas le seul à avoir tendance à lire un livre dans l'ordre des pages, même quand l'auteur nous dit qu'on peut sauter et revenir et que les articles sont indépendants; et je crains qu'un tel livre qui commencerait par s'étendre longuement sur un seul sujet ne devienne lassant, alors que pleins de petit picorage dans chaque matière est plus marrant. (Pour donner un exemple, c'est un reproche que je fais aux annales de la recherche non reproductible) Si vous voulez un relecteur, n'hésitez pas à demander(bon, pour l'orthographe c'est mort, mais pour le coté mathématique peut-être; et pour une fois je proof-readerait quelque chose de vraiment sympathique).

  12. Xochipilli
    13/06/2010 at 09:55

    >@Arthur: bon super, j'ai déjà un éditeur, un lecteur et un relecteur!

  13. Eric C.
    20/06/2010 at 21:44

    >Malheureusement, sur ce sujet précis, un livre a déjà été écrit :)"Economie des extremes", de Daniel Zajdenweber

  14. Ethaniel
    20/06/2012 at 19:17

    Bonjour,

    Tout d’abord, je souhaiterais signaler les deux commentaires de spam ci-dessus.

    Petite erreur de typographie : il n’est pas question de la loi de Benton mais de celle de Benford (cf. 1re ligne de « Quand l’ordre dicte la taille… » ainsi que « Billets connexes »).

    L’affirmation « Qui dit invariance d’échelle dit…fractales! » est fausse, mais la réciproque (« Qui dit fractales dit invariance d’échelle ») est vraie.
    L’affirmation donnée est d’ailleurs contredite dès le paragraphe suivant, où il est fait mention de l’invariance d’échelle des lois de puissance (telle la loi de Benford) qui, bien que scalantes, ne sont pas fractales pour autant ;).

    Ensuite, dans les 1er (« Tapons-nous la cloche ») et 3e (« La loi des grands nombres: abrogée! ») paragraphes, il y a une légère imprécision sur le domaine d’application de la loi des grands nombres.
    Ainsi, en lisant « [Pour la loi normale, la] loi des grands nombres prédit que la moyenne mesurée à partir de n’importe quel (grand) échantillon donne une très bonne approximation de la moyenne théorique, car aucun individu de l’échantillon n’aura un poids suffisant pour biaiser significativement la mesure. » et « Plus question donc [avec la loi de Pareto] d’appliquer la loi des grands nombres car vous avez de grandes chances que votre échantillon ne soit pas bien représentatif des valeurs extrêmes. », le lecteur pourrait penser que la loi (faible) des grands nombres n’est valable *que* pour les « lois du Médiocristan » (ex. : loi normale) et *jamais* pour les « lois de l’Ekstremistan » (ex. : loi de Pareto).
    Ce n’est pas tout à fait exact dans la mesure où la seule condition de validité de la loi faible des grands nombres est l’existence du moment d’ordre 2, condition que *peut* satisfaire la loi de Pareto (loi de Pareto standardisé p(x)=m/(1+x)^(m+1) définie pour m>0 sur x>=0 : le moment d’ordre 2 existe (i.e. est non infini) si et seulement si m>2).
    La loi des grands nombres n’est donc pas « abrogée », il faut juste s’assurer de bien être dans son domaine de validité.
    N’ayant pas lu Taleb, je ne connais pas ses définitions du Médiocristan et de l’Ekstremistan : si la loi de Pareto de paramètre m>2 fait selon lui partie du Médiocristan, alors j’admets en effet que la loi des grands nombres est valable partout au Médiocristan et nulle part en Ekstremistan, mais dans ce cas la loi de Pareto peut être dans l’un ou l’autre domaine selon son paramètre m.
    Au passage, la condition de validité de la loi faible des grands nombres se retrouve aisément en sachant que l’erreur type de l’estimateur de l’espérance vaut l’écart type réel (racine carrée du moment centré d’ordre 2) divisé par la racine carrée de la taille de l’échantillon : si le moment d’ordre 2 est infini, l’écart type l’est également, donc l’erreur type de l’estimateur de l’espérance l’est aussi, donc la différence entre la moyenne empirique et l’espérance réelle est potentiellement infinie.

    Note : **en supposant que la distribution des revenus suive effectivement une loi de Pareto (généralisée)**, alors la proportion cumulée y des revenus en fonction de la proportion cumulée x des ménages rangés par ordre décroissant de revenus a pour équation y=alpha×x^(1-1/m)+(1-alpha)×x définie pour m>1 et alpha dans ]0;m[ sur x dans [0;1] — la courbe égalitaire correspond aux cas m=infini ou alpha=0.
    En prenant au moins deux points de la courbe pour la France ou les USA, hors extrémités (déjà assurées par l’équation), on peut alors estimer les valeurs de m et alpha : si m>2, la loi faible des grands nombres est valide, mais l’estimateur de l’espérance peut être mauvais si m est trop proche de 2 (mais finira tout de même par converger vers la valeur réelle en augmentant la taille de l’échantillon).

    Enfin, concernant la comparaison de « la distribution des fluctuations quotidiennes du Nasdaq avec celles d’une Gaussienne ayant la même moyenne (0,27) et le même écart-type (27) », elle met surtout en valeur le fait que les moments d’ordre 1 et 2 (donc l’espérance et l’écart type) ne sont pas suffisante pour caractériser une loi de probabilité, il faut *au minimum* utiliser en plus les moments d’ordre 3 et 4 (donc l’asymétrie et le kurtosis) pour faire un peu le tri parmi la centaine de lois de probabilités que l’on peut définir ( http://fr.wikipedia.org/wiki/Cat%C3%A9gorie:Loi_de_probabilit%C3%A9 ) ; et encore, même ainsi ce n’est pas suffisant pour retrouver avec certitude la « vraie » loi de probabilité sous-jacente à un ensemble de données, cf. le « problème des moments ».
    L’image http://fr.wikipedia.org/wiki/Fichier:Standard_symmetric_pdfs.png montre ainsi 7 lois de probabilité différentes ayant même espérance (=0), même écart type (=1) et même asymétrie (=0), mais avec différentes valeurs pour le kurtosis normalisé (plus sa valeur est élevée, plus la distribution a des “fat tails”), sachant que la loi normale a un kurtosis normalisé nul.
    En utilisant les données du Nasdaq proposées dans l’article, du 11/10/1984 au 21/05/2010 (les données avant le 11/10/84 ne semblent pas pertinentes), je trouve (à 3 chiffres significatifs), avec des estimateurs sans biais (ou presque…) :
    • espérance =~ -0.709 (au lieu de +0.27, étrange) ;
    • variance =~ 801 (donc un écart type d’environ 28.3, bien que l’estimateur de l’écart type ne soit pas la racine carrée de l’estimateur de la variance, mais à 3 chiffres significatifs c’est pareil) ;
    • asymétrie =~ -0.569 ;
    • kurtosis (normalisé) =~ 24.8 (d’où les “fat tails” énormes, sachant que l’on est même carrément en régime hétérotypique, c’est-à-dire que l’erreur type de l’estimateur du kurtosis est en fait infinie !)
    Bref, ça confirme le fait que « La distribution normale sur laquelle s’appuient encore bon nombre de modèles financiers est manifestement peu adaptée à des évolutions aussi chaotiques. », une loi de Pearson de type IV serait un peu plus adaptée (et encore, vu le régime hétérotypique, c’est pas gagné).

    Quoiqu’il en soit, encore merci pour tous ces articles vraiment captivants =) !

  15. Ethaniel
    27/06/2012 at 09:51

    Bonjour, j’ai posté ici même un gros commentaire la semaine dernière, mais il n’apparaît toujours pas : est-ce normal ? Y a-t-il une limitation de taille ?
    Ah, et j’en profite pour signaler les 2 spams ci-dessus.

    • 27/06/2012 at 18:04

      Oui je l’ai rétabli. Je ne sais pas pourquoi il était parti en spam, merci de me l’avoir signalé et pour toutes les précisions qu’il contient!

      • Ethaniel
        27/06/2012 at 19:40

        Sans doute la taille du pavé ;).

        Pourrais-je avoir plus de précisions sur les données utilisées pour représenter la différence Nasdaq/gaussienne, et en particulier les paramètres mu=0.27 et sigma=27 mentionnés ?
        Pour ma part, j’ai pris les 6459 différences « close – open » du 11/10/1984 au 21/05/2010, ce qui n’est peut-être pas pertinent dans la mesure l’open d’un jour donné est différent du close de la veille, d’où une moyenne légèrement négative bien que le close de 2010 soit bien supérieur à l’open de 1984 : dois-je également considérer les 6459 variations nocturnes pour retrouver vos valeurs ?
        Enfin bon, quoi qu’il en soit, ça ne changera pas le fait qu’il vaut mieux une loi de Pearson de type IV qu’une loi normale dans ce cas ;).

  16. 18/07/2012 at 15:58

    @Ethaniel: le lien vers la source de mes données est indiqué dans le billet, mais très honnêtement je ne me souviens plus du détail des paramètres…

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *