Notre cerveau joue aux dés (2)

25/03/2012
By

Je vous ai parlé dans mon dernier billet de la façon dont, face à une image ou un son ambigü, notre cerveau utilisait le hasard et les probabilités pour « tirer » aléatoirement une interprétations possible du signal. Un peu à la manière d’un système de particules intriquées où le hasard est le seul à définir l’état dans lequel on observe le système parmi tous les états probables. L’analogie  entre neurosciences et physique quantique est tentante, mais elle a ses limites. Une fois qu’un système quantique a été observé, il est irréversiblement modifié et réduit à une de ses valeurs propres. Les mesures ultérieures sur ce système donneront ensuite toujours la même valeur. Il en va tout autrement pour notre cerveau, puisqu’après qu’il ait donné une réponse, on peut sans problème lui demander un deuxième choix. C’est d’ailleurs cette possibilité qui a permis d’explorer encore plus loin son fonctionnement intime…

Notre attention est aussi l’objet du hasard…

Que se passe-t-il quand on s’entraîne à détecter un signal très furtif et que l’on se trompe mettons 20% des fois. La réponse semble à peu près évidente: on avait simplement mal vu le signal dans 20% des cas. Mais puisqu’on a appris à se méfier des évidences, on peut aussi imaginer un scénario alternatif. Puisque le hasard guide nos réponses conscientes, on peut supposer qu’on n’a ni mieux ni moins bien vu ce qui se passait lors des essais ratés. Simplement pour tous les essais, on n’aurait jugé le bon résultat probable qu’à 80% en moyenne. Selon ce scénario audacieux, l’incertitude des réponses ne se concentrerait pas sur les essais ratés, mais elle se nicherait au cœur de chacun des essais, y compris quand ils sont réussis. Comment savoir si la variabilité de nos réponses est inter-essais ou intra-essais?

Pour le savoir une équipe du MIT a demandé à des volontaires de s’entraîner à repérer certaines lettres entourées d’un cercle, parmi une série qui défilait rapidement. Les sujets devaient donner la lettre qu’ils pensaient être la bonne, puis devaient donner un second choix, puis un troisième etc. Le raisonnement des chercheurs a été le suivant:
- Si on se trompe parce qu’on a mal vu certains essais,  les deuxièmes choix des essais ratés devraient être très biaisés.
- Si on se trompe à cause de l’incertitude propre à chaque essai, les premiers et les deuxièmes choix devraient suivre la même loi de distribution centrée autour de la réponse exacte, aussi bien pour les essais réussis que pour les essais ratés.

L’analyse de la distribution des deuxième choix pour les essais ratés penche très clairement en faveur de la deuxième hypothèse. Aussi bizarre que ça puisse paraître, premiers, deuxièmes et troisièmes choix semblent effectivement être le résultat d’un tirage aléatoire sur une distribution de probabilités parfaitement centrée autour de la bonne réponse!

Source: d’après Vul & al (2009) Attention as Inference: Selection Is Probabilistic; Responses Are All-or-None Samples.

Tout comme nos perceptions sensorielles, nos réponses attentionnelles semblent donc elles aussi déterminées aléatoirement parmi l’ensemble des réponses probables. Mais contrairement à un système quantique (dont la mesure ne fournit qu’un seul état parmi tous les états possibles), il suffit de poser la question pour connaître les différentes réponses envisagées par notre cerveau.

La sagesse des foules… dans sa tête!

Pourquoi s’arrêter en si bon chemin? La même équipe du MIT s’est demandé si on ne pourrait envisager que notre cerveau fonctionne de la même façon probabiliste lorsqu’il s’agit de fournir un jugement ou une opinion. Il faudrait alors considérer que ce que notre cerveau considèrerait comme notre » meilleure réponse » (best guess) serait non pas la réponse la plus vraisemblable, mais une des réponses possibles, choisie avec une probabilité égale à son degré de vraisemblance.  Je ne sais pas si vous voyez à quelle point cette idée est contre-intuitive: par définition, le « best guess » est la réponse que l’on imagine être la plus vraisemblable. Or ce modèle prédit paradoxalement qu’on maximise ses chances de tomber juste en moyenne si l’on prend la moyenne de ses choix de premier, de deuxième et de troisième ordre!

Les chercheurs ont interrogé 430 volontaires sur une question difficile (« Quel pourcentage d’aéroports dans le monde se trouve aux Etats-Unis? »). Après qu’ils aient donné leur réponse (dont le degré d’erreur est mesuré par les colonnes bleues), on leur demande une deuxième réponse (Guess 2, colonnes marron) soit immédiatement (colonnes de gauche) soit trois semaines plus tard (colonne de droite), les sujets n’étant évidemment pas informés qu’on allait les réinterroger sur le sujet.

On constate sans surprise que cette deuxième réponse est moins précise que la première (les colonnes marron sont plus hautes). Jusque là tout est normal puisque la première réponse est celle que le sujet croit la plus exacte. Mais ce qui est plus étrange c’est que la moyenne des deux réponses (colonnes vertes) est beaucoup plus proche de la réalité que la première réponse! Exactement comme le modèle probabiliste l’avait prédit.

Ca ne vous rappelle rien? C’est bien sûr un phénomène analogue à celui de la sagesse des foules dont je vous ai déjà parlé dans ce billet. Comme Galton l’avait découvert au XIXeme lors d’une foire aux bestiaux, l’estimation d’une valeur par de très nombreuses opinions indépendantes est statistiquement plus exacte que celle du meilleur expert. Sauf qu’ici, la foule serait notre propre cerveau qui, après avoir évalué la vraisemblance de chaque réponse possible, tirerait autant de fois que l’on veut une de ces réponses parmi cette distribution de probabilités.

Comme on le voit sur le graphique, l’effet est encore plus marqué lorsque la deuxième réponse est demandée trois semaines plus tard, sans doute parce que les personnes sont moins influencées par leur première réponse après un long délai entre les deux introspections. C’est la même règle que celle qui prévaut lorsqu’on interroge de nombreuses personnes: pour éviter le biais collectif, la prédiction n’est statistiquement bonne que si les personnes interrogées ignorent l’opinion des autres (autrement elles risquent de se fier aveuglément à l’opinion générale).

Combien de personnes logent dans mon crâne?

On peut pousser l’analogie encore plus loin et se demander à combien de personnes correspondrait cette introspection répétée. On sait comment la précision de la réponse  évolue statistiquement en fonction du nombre de personnes interrogées. A partir de cette loi, on peut donc calculer, à combien de personnes équivaut cette sagesse des foules propre à notre cerveau: une deuxième réponse immédiate correspond à l’interrogation de 1,1 personnes (faut-il un s?) et une réponse trois semaines plus tard fournit la même précision que 1,3 personnes interrogées.

Comme pour la sagesse des foules classiques, on voit tout l’intérêt d’une introspection répétée « à froid », au moment de porter des jugements ou de prendre des décisions. La première intuition est certes souvent la bonne, mais les réflexions ultérieures peuvent la nuancer utilement. L’analogie avec la sagesse des foules fait aussi écho aux observations de Thomas Seeley (voir ce billet) au sujet des similitudes entre le fonctionnement d’un cerveau et celui d’un essaim d’abeilles en train de choisir son futur nid. Là encore la compilation des expressions de chaque abeille éclaireur fait émerger presque à tous les coups la meilleure solution. Rien ne vaut le collectif pour prendre une bonne décision!

Sources:
Vul & al. (2009) Attention as Inference: Selection Is Probabilistic; Responses Are All-or-None Samples (pdf)
Vul & Pashler (2008) Measuring the crowd within (pdf)

Billets connexes
Le billet précédent, pour ceux qui ont raté le début
Etrange perspicacité collective sur le phénomène de sagesse des foules
Les abeilles ça déménage (2/2) où on fait l’analogie inverse: l’essaim, comme modèle de cerveau virtuel

Tags: ,

8 Responses to Notre cerveau joue aux dés (2)

  1. Jiehong
    27/03/2012 at 18:14

    Je ne comprends pas trop la « moyenne » que l’on voit dans le deuxième graphique. Pour moi, la moyenne du premier et du deuxième choix devrait se trouver entre les deux, et non en dessous. Le texte ne m’a pas éclairé sur ça.

  2. 27/03/2012 at 23:14

    @Jiehong: bonne question! C’est que ce qu’on mesure en ordonnée n’est pas l’erreur, mais le carré de l’erreur. Du coup les erreurs peuvent se compenser. Par exemple si la bonne réponse est 10;
    - on répond 11 la première fois, avec une erreur²=1
    - on répond 8 la seconde fois avec une erreur²=4
    On a bien une seconde réponse avec une erreur plus grande que la première (4 au lieu de 1) et pourtant la moyenne des deux réponses (9.5) est plus précise que la première réponse (puisque son erreur² de 0.25).

  3. 29/03/2012 at 06:51

    Ok, je vais donc dès à présent arrêter de lire les sondages ! Et je vais m’interroger moi-même 1000 fois sur qui va gagner l’élection présidentielle !
    Je ne sais pas si ça doit nous réjouir ou nous inquiéter de savoir qu’on est tous pas plus bêtes qu’une foule :-)

    • Ethaniel
      11/04/2012 at 17:08

      Une foule de 1,1 personne, donc une foule pas très impressionnante (quoiqu’un dixième sanguinolent de corps humain peut impressionner certains) ;).

      J’en profite d’ailleurs, vu que je viens de m’en servir, pour répondre à l’interrogation de l’article sur l’accord : non, pas de « s » à « 1,1 personne », la marque du pluriel ne se mettant en français que si |x|≥2, cf. http://www.academie-francaise.fr/langue/questions.html#nombres
      À noter que la règle est différente en anglais, la marque du pluriel se mettant si |x|≠1, donc elle se met pour 0 !

  4. Ethaniel
    11/04/2012 at 19:18

    Sauf erreur de ma part, le second PDF en source est identique au premier.
    De même, les 2 liens censés mener vers l’article « Etrange perspicacité collective » (celui dans l’article et celui dans « Billets connexes ») sont, chacun à leur manière, erronés :p.

    Concernant l’expérience portant sur les 430 volontaires, décrite je suppose dans le second PDF, y a-t-il quelque part le détail des 430 réponses ?
    En effet, la colonne verte montre l’erreur quadratique moyenne de la moyenne arithmétique des 2 réponses données, c’est-à-dire de 0.5×Guess_1+0.5×Guess_2.
    Or, Guess_1 étant plus proche de la bonne réponse que Guess_2 « puisque la première réponse est celle que le sujet croit la plus exacte », un paramètre intéressant à estimer serait le poids p à donner à Guess_1 (et donc (1-p) pour Guess_2) afin que la moyenne pondérée soit la valeur exacte, p étant donc normalement légèrement supérieur à 0.5.
    En me basant sur le PNG, je trouve p≅0.5178 dans le cas “Immediate” et p≅0.5152 dans le cas “3-week delay”, mais le détail des 430 valeurs de p donnerait en outre les écarts types (je devrais pouvoir les estimer grossièrement grâce aux colonnes vertes, mais le calcul est moins simple et surtout moins fiable qu’avec les données d’origine).

  5. 12/04/2012 at 07:57

    @Ethaniel: merci pour ta vigilance légendaire! C’est réparé. Effectivement on peut repondérer les réponses, mais attention on a aussi montré que les deux sont tirées aléatoirement de la même distribution de probabilités, du coup je me demande si ça a vraiment un sens…

    • Ethaniel
      12/04/2012 at 10:45

      Certes, un individu donné utilise la même distribution de probabilités pour donner ses deux réponses, mais si elles étaient strictement indépendantes, je suppose que les colonnes bleue et rouge ne seraient pas significativement différentes, non ?
      Le fait que la colonne rouge soit significativement plus grande que la bleue, avec des CI ne se chevauchant pas, me laisse à penser que la première réponse « écrante » une zone potentiellement assez large de la distribution, forçant la seconde réponse à être significativement différente de la première alors que “the participants were unexpectedly asked to make a second, different guess for each question” : même si la seconde réponse était obligatoirement différente de la première d’après le protocole expérimental, rien n’empêchait les gens de donner une seconde réponse extrêmement proche de la première.
      Les deux réponses ne me semblent donc pas strictement indépendantes, je pense donc que pondérer un peu plus la première réponse par rapport à la seconde permettrait d’améliorer la réponse moyenne (mais seules les données brutes de cette expérience ou d’une similaire peuvent confirmer ou infirmer mon hypothèse).
      Cet « écrantage » potentiel serait d’ailleurs intéressant à étudier pour lui-même : quelqu’un aurait-il 430 volontaires sous la main à me prêter ^^ ?

      On notera au passage que la phrase copiée plus haut mentionne “each question” : il n’y avait pas en effet une seule question mais 8 questions, celle des aéroports n’étant que l’une d’elles.