Bayes ou le bon sens réduit au calcul

On a vu dans le billet précédent que les bébés -mais aussi les singes ou les rats- sont sensibles aux moindres régularités statistiques dans ce qu’ils perçoivent. Ils montrent une capacité phénoménale à généraliser à bon escient ces règles pour apprendre à lire (dans le cas des bébés), à parler, à faire fonctionner un jouet etc. et à affiner leur compréhension du « modèle » avec l’expérience. Mais comme le commente à juste titre David, comment explique-t-on du coup que nous soyons si sujets aux généralisations abusives et aux contre-sens statistiques? C’est ce que je vous propose d’explorer aujourd’hui…

Inférence compulsive

Quatre cartes sont posées devant vous sur une table. Sur chacune il y a une lettre au recto et un chiffre au verso. En principe, si la lettre est une voyelle, le chiffre au verso est pair, mais comment être certain que cette règle est vérifiée? Pour vous en assurer, vous avez le droit de retourner deux cartes. Lesquelles choisissez-vous?

On a spontanément tendance à répondre plutôt la quatrième (le 4), mais si vous y réfléchissez il peut y avoir n’importe quelle lettre au verso du 4, sans que la règle soit ni violée ni confirmée. Pour vérifier que la règle est respéctée, vous devez retourner la première et la troisième carte (le E et le 5).

Alors quoi, les soi-disant « génies de la statistiques » se fourvoient au premier petit problème de logique venu? Cette erreur illustre assez bien notre tendance à généraliser ou appliquer les règles plutôt qu’à les vérifier. Si on nous dit que toute voyelle au recto porte un nombre pair au verso, on ne peut s’empêcher de penser que la présence d’un nombre pair (au recto) rend la présence d’une voyelle au verso plus plausible. Un statisticien se roulerait par terre en entendant un tel raisonnement ça mais c’est comme ça: à partir de la règle A=>B, on infère spontanément que si B est vrai, A est assez probable.

Jusqu’ici je pensais que cette tendance compulsive à généraliser abusivement vient de notre besoin de trouver du sens, de se sentir moins vulnérable etc. C’est plus rassurant de vivre dans un monde fait de règles que livré au hasard d’un monde chaotique. Mais il pourrait bien y avoir une explication plus terre à terre que cette explication métaphysique. Notre tendance à l’induction abusive pourrait n’être que  le prix à payer pour notre extraordinaire capacité d’abstraction.

Induire pour abstraire

Dans un article très intéressant paru l’an dernier, le chercheur américain Georges Tenenbaum illustre ce lien entre ce qu’il appelle le « scandale de l’induction » et nos facilités d’abstraction. Il propose une planche pleine de plantes inventées, et montre trois exemplaires de « tufa ».Vous est-il possible de deviner quelles sont les autres « tufa » ?

A partir de quelques indices très partiels tirés d’un nombre très réduit d’observations, on classe, on catégorise, on généralise très spontanément et très vite. Trop, sans doute, si l’on se place du point de vue de la statistique, mais cette généralisation abusive s’avère incroyablement efficace dans la vie courante. Il suffit de désigner par le même nom deux bestioles très différentes à un bébé, pour qu’il infère immédiatement que « chien » désigne cette catégorie d’animal poilu, avec une queue et quatre pattes.
Où est donc passé son sens inné de « l’échantillon représentatif » dont je vous parlais dans le dernier billet? Je ne pense pas qu’il ait disparu. Au contraire, c’est peut-être grâce à lui que notre bébé laisse un contour assez flexible à sa définition de « chien », tant qu’elle n’a pas été confortée par l’expérience. Il suffit de le corriger la première fois qu’il tente d’appeler « chien » une bestiole également poilue mais qui fait « miaou », pour qu’il ajuste immédiatement sa compréhension de ce qu’est un « chien » et qu’il crée une catégorie « chat » juste à côté.

Cette faculté d’apprendre des notions abstraites à partir d’observations disparates semble tout à fait courante dans la nature: on a vu que le sens des nombres est une compétence que nous partageons avec les singes, mais aussi avec les oiseaux ou les poissons. De la même façon les abeilles comprennent des notions abstraites telles que « au-dessus de » ou « en-dessous de ». Mais concrètement, comment fait-on pour faire ces abstractions?

Notre cerveau, une machine Bayésienne?

En statistiques, on sait calculer la probabilité qu’une cause ait tel ou tel effet. Au XVIIIe siècle, Thomas Bayes s’est attaqué au problème inverse, celui du raisonnement par induction: connaissant les effets, quelles en sont les causes probables? Un peu comme Sherlock Holmes, qui observant des gouttes d’eau sur la veste de quelqu’un, en conclut qu’il vient probablement de rentrer d’une averse.

Les chercheurs en psychologie cognitive se sont peu à peu convaincus que le calcul bayésien (expliqué ici) est le modèle qui décrit le mieux notre mode d’apprentissage (voir par exemple cet article un peu technique sur l’apprentissage de motifs visuels). Cette affirmation a de quoi surprendre quand on sait que le calcul bayésien donne souvent des résultats très contre-intuitifs! Le paradoxe de Monty Hall (dont je vous avais parlé ici) est typique de la façon dont on s’emmêle les pédales avec les règles de Bayes. Et les tests de dépistage  fournissent aussi de nombreux exemples qui semblent contraires au sens commun:

Une maladie affecte une personne sur 10000
Un test de dépistage est sensible à 99% ( dans 1% des cas, les malades ont un test négatif) et spécifique à 99,9% (0.1% des non malades ont un test positif)
Quelle est la probabilité d’être malade si le test est positif?
Contrairement à l’intuition, si ce test est positif, on n’a qu’une chance sur 10 d’être malade (le calcul détaillé est ici)

Si le calcul bayésien fait vraiment partie des algorithmes naturels de notre cerveau, comment expliquer que son application nous désoriente à ce point ?  Une explication pourrait être que ces problèmes font appel à des notions très abstraites, comme les pourcentages, les probabilités etc. et non pas à notre expérience vécue.  Or il serait logique de penser que notre cerveau, fruit d’une longue évolution, soit optimisé pour traiter les situations de la vie courante, notre expérience sensorielle intime.  Après tout, si les abeilles sont sensibles à des notions comme « en dessous » ou « au-dessus » c’est sans doute que ces notions leur sont souvent utiles pour retrouver leur chemin. A contrario, il n’est peut-être pas étonnant que notre cerveau soit désemparé lorsqu’on le soumet à une expériences de pensée déconnectée de notre vécu quotidien et à laquelle l’évolution ne l’a pas préparé.

Notre sens intuitif du calcul bayésien reflète finalement toute la différence qu’il y a entre connaître et savoir. La connaissance (de sa langue maternelle par exemple) est empirique, informelle, elle est « incarnée » en nous. Le savoir (savoir réciter des règles de grammaire par exemple) est au contraire verbalisable, structuré et peut appartenir au seul domaine de l’intellect.

Voir c’est interpréter en fonction de ses a priori

Je ne sais pas si cette explication est la bonne, mais un indice va dans ce sens: les ingrédients du calculs probabilistes échappent pour une bonne part à notre contrôle conscient. Regardez l’image ci-dessous:

Normalement, vous devriez voir tantôt un creux (en bas) entouré de bosses, tantôt une bosse (en haut) entourée de creux. En réalité c’est la même image que vous voyez, mais qui se retourne verticalement. L’impression de profondeur (ou de relief) vient du fait que l’on assume que l’éclairage vient d’en haut et qu’en général les dégradés de lumière correspondent à des ombres. Notre interprétation de la réalité combine ce que l’on observe (des ronds avec des dégradés de gris) et des a priori complètement implicites (la lumière vient d’en haut, les dégradés sont des ombres). Dès que l’on regarde quelque chose, on convertit instantanément et sans s’en rendre compte le signal visuel en une image qui a « du sens ». Voir c’est d’abord interpréter ce qu’on voit, en fonction de ses propres a priori.
Face à une observation ambiguë, on choisit l’interprétation (le modèle) qui est à la fois cohérente avec ces observations ET qui correspond à une réalité familière, déjà vue. Sans le savoir, vous venez de faire un raisonnement typiquement bayésien:
 

C’est ainsi que s’explique par exemple cette extraordinaire anamorphose végétale devant l’Hôtel de Ville:

On ne peut pas éviter de voir une magnifique sphère même si on sait que c’est une illusion. L’explication bayésienne est très simple: une sphère serait à la fois cohérente avec l’observation (c’est le terme du milieu dans l’équation, la « vraisemblance » de l’explication) et cette forme est très plausible a priori (terme de droite de l’équation qui exprime la « familiarité » du modèle explicatif), bien plus plausible en tous cas que l’improbable construction de la photo de gauche (qui représente pourtant la réalité).

Bayes en cascade…

Les raisonnements statistiques classiques se donnent un modèle une fois pour toutes et se contentent d’ajuster les paramètres pour faire coller au mieux le modèle aux observations. Le modèle bayésien est beaucoup plus puissant puisque le modèle lui-même peut être optimisé par un calcul bayésien, une induction opérée au niveau supérieur et ainsi de suite. Comme en linguistique où le sens d’un mot peut (en partie) se deviner à partir de sa catégorie (nom, verbe…), catégorie qui elle-même est inférée par l’écoute de nombreuses phrases. Cette induction « en cascade », à plusieurs niveaux est incroyablement efficace. Tenenbaum montre qu’un algorithme bayésien permet par exemple de reconstruire automatiquement des classifications « naturelles », comme la structure arborescente des familles d’animaux, le spectre gauche-droite des partis politiques ou encore l’anneau circulaire autour duquel se distribuent nos perceptions des couleurs:

La prise en compte de l’expérience

L’autre avantage du calcul bayésien, c’est qu’il n’est pas statique. Par principe, chaque observation contribue à ajuster (ou renforcer) le modèle pour l’observation suivante. Si l’on passait son temps à voir des anamorphoses toute la journée, il y a fort à parier qu’on finirait par moins s’y laisser prendre. Pour ce qui concerne l’apprentissage des  jeunes enfants, leur flexibilité mentale s’explique sans doute par le fait que leurs schémas mentaux n’ont pas encore été consolidés par une grande accumulation d’expérience.

A l’inverse plus on vieillit, plus on a du mal à remettre en question des croyances confortées par des années d’expérience. Dans le fond, c’est un petit peu la même chose qu’en histoire des sciences: plus une théorie explique de phénomènes, plus il est difficile de la remettre en question par une observation contradictoire (je pense par exemple à la relativité générale et l’épisode des neutrinos censés être plus rapides que la lumière).
J’ai découvert plein d’autres propriétés fascinantes de la théorie bayésienne… que je vous propose d’explorer dans un prochain billet (ici!).

Sources:
Ce billet est inspiré du cours de Stanislas Dehaene au Collège de France (sa conférence est ici, et son support de cours ici)
Tenenbaum & al: How to grow a mind (Science 2011, pdf)
J Fiser: Perceptual learning and representational learning in humans and animals (Learning and Behavior 2009, pdf)

Billets connexes:
Les bébés, ces génies de la statistique (le billet précédent)
Notre cerveau joue aux dés, pour comprendre d’autres illusions visuelles
Non sens interdit, sur notre incorrigible quête de sens

10 comments for “Bayes ou le bon sens réduit au calcul

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *