Le Dilemme du (vrai) prisonnier : le rôle de l’Etat dans l’attribution des peines

Sacha Bourgeois-Gironde est professeur d’économie à l’Université Paris II, chercheur au Laboratoire d’économie mathématique et microéconomie appliquée (LEMMA), et membre de l’Institut Jean-Nicod.

Le dilemme du prisonnier peut-il nous apprendre quelque chose sur la prison, ou tout au moins sur l’attribution des peines ?

Comme dans un jeu de rôles, imaginez deux prisonniers qui, devant le juge d’application des peines, doivent décider, sans s’être auparavant consultés, de dénoncer ou de couvrir leur codétenu afin d’obtenir une éventuelle réduction de peine. Dans ce jeu, chaque joueur a donc deux possibilités : dénoncer ou couvrir. Dans le cas où les joueurs ont tous deux décidé de dénoncer, ils reçoivent une petite récompense (par exemple 1 an de réduction de peine). Mais si l’un des deux choisit de dénoncer son codétenu et l’autre de le couvrir, le délateur reçoit une récompense très élevée (par exemple 5 ans de remise de peine) et le prisonnier solidaire ne reçoit rien. Enfin dans le cas où les deux auront décidé de se couvrir l’un l’autre, ils reçoivent tous deux une récompense intermédiaire (par exemple de 3 ans chacun). Chaque joueur est parfaitement conscient des règles de récompense, mais ignore tout de la décision de l’autre.

Rationalité contre optimalité

En 1950, Albert Tucker conçut ce modèle, le plus célèbre de la théorie des jeux, pour rendre compte de la tension entre conflit et coopération, ou encore entre intérêt privé et intérêt public, et non pas pour nous renseigner sur la loyauté ou le cynisme des prisonniers. Il s’agissait d’un habillage. Et pourtant, dans les développements récents de la théorie des jeux, le thème de la punition est devenu central.

Ce jeu permet de différencier deux états d’équilibre bien distincts. Le premier est un équilibre rationnel : puisqu’il n’a pas de raison de penser que l’autre sera altruiste, un joueur qui veut optimiser son intérêt propre va forcément dénoncer l’autre. On appelle ce cas où les deux se dénoncent « équilibre de Nash ». Le second est un équilibre optimal pour l’ensemble des deux joueurs : si les deux joueurs choisissent un comportement coopératif en couvrant l’autre, le bénéfice cumulé pour l’ensemble des deux est supérieur. On l’appelle « optimum au sens de Pareto ». Pour le réaliser, il faut que les joueurs soient suffisamment optimistes ou confiants dans la capacité de l’autre à ne pas jouer son intérêt.

Le comportement rationnel entre donc directement en conflit avec la possibilité d’atteindre un optimum social dont les deux joueurs rationnels seraient davantage satisfaits. C’est cette opposition entre rationalité et optimalité que sert à mettre en évidence le dilemme du prisonnier.

La réciprocité vient de la répétition

Récemment, des chercheurs ont cherché à comprendre comment il se fait que l’optimum de Pareto est pourtant parfois atteint, en supposant que les individus peuvent avoir un penchant naturel à la coopération et au comportement pro-social. Au début des années 2000, les chercheurs Ernst Fehr et Simon Gächter [1] ont fait intervenir la notion de réciprocité. Celle-ci peut être positive : la possibilité de récompenser par son comportement pro-social un autre comportement pro-social, ou négative : le fait de punir un comportement non-coopératif, en étant prêt à encourir des coûts personnels en vue d’infliger cette punition. On peut se demander d’où viennent ces comportements de réciprocité, alors que le jeu est conçu comme interaction unique. On ne s’attend plus à la revivre et à rencontrer de nouveau le même partenaire, donc on n’a pas besoin de se concilier ses faveurs, alors pourquoi coopérer ?

Les auteurs supposent, en sus de la recherche par le joueur de son propre intérêt, des « préférences pro-sociales », dont l’origine resterait à expliquer. Mais on peut imaginer une autre hypothèse. En effet, dans notre monde familier, les interactions répétées, où nous savons que nous aurons de nouveau affaire à l’autre dans l’avenir, sont plus proches de la règle, et l’interaction unique est plus l’exception. Or la théorie des jeux nous apprend que, lors d’interactions répétées, l’équilibre de Nash n’est plus de ne jamais coopérer. Si l’un des deux joueurs ne coopère pas lors d’une partie, l’autre peut le menacer de faire de même à la prochaine partie. Si cette menace est crédible, le comportement des deux joueurs va tendre rationnellement vers la coopération.

Ainsi, peut-être sommes-nous convaincus qu’agir en collaborant est dans notre propre intérêt pour l’avenir, même si nous savons que l’interaction ne se répètera jamais. Nous ferions un transfert de notre comportement en situation familière à ces situations expérimentales uniques.

La punition favorise-t-elle la coopération ?

On commence à voir se dessiner le lien entre coopération et réciprocité. Mais comment s’organise la punition prévue par la réciprocité négative ? Pour comprendre l’émergence d’un système pénal, c’est-à-dire d’une organisation de l’attribution des peines à l’encontre de comportements non-coopératifs au sein d’une société théorique, il nous faut d’abord généraliser à plusieurs joueurs le dilemme du prisonnier.

Cette généralisation prend typiquement la forme du jeu du bien public. Plusieurs individus sont initialement dotés d’une somme d’argent, par exemple 20€. Ils ont le choix de verser tout, rien ou une partie de cette dotation initiale au « bien public ». Les transferts individuels sont alors sommés, multipliés par un facteur (supérieur à 1, faute de quoi il vaut mieux dans tous les cas ne rien transmettre) et redistribués à égalité parmi les joueurs. Lorsque ce jeu est joué une seule fois, l’équilibre de Nash, tout comme dans le dilemme du prisonnier, est évidemment de ne pas contribuer. Avec un espoir : si d’autres joueurs contribuent, on gagne de l’argent sans avoir rien donné.

Les mêmes Fehr et Gächter ont étudié un jeu du bien public répété. De manière naturelle, la coopération moyenne de l’ensemble des joueurs décroît naturellement au cours des répétitions, jusqu’à devenir nulle, ce qui rend l’idée d’un bien public spontanément généré, théoriquement impossible. Mais l’idée de ces chercheurs a été d’introduire un mécanisme de punition au sein du jeu. Si un joueur constate qu’un autre ne coopère pas, il a la possibilité de lui infliger une pénalité de 3€, moyennant un coût d’1€ pour le punisseur. Ce mécanisme est nommé par les auteurs punition altruiste. Le terme est maladroit car il ne veut pas franchement dire que l’individu qui y a recours intervient pour le bien d’autrui, pour lui apprendre les bonnes manières. Il signifie plus exactement, sans doute, que l’individu qui inflige ce type de punition, est prêt à encourir un coût personnel dans l’espoir de rétablir la coopération.

A partir du moment où la punition apparaît comme une menace crédible, le niveau de coopération général remonte. En revanche, dès qu’elle est retirée, la défection générale redevient la règle. La punition altruiste semble efficace pour établir la coopération, mais à condition de la maintenir constamment, comme on peut le voir sur la présentation graphique ci-dessous.

fehrgachter

A ce stade de la réflexion, on comprend donc qu’à l’échelle d’une société théorique, une forme de punition laissée à l’initiative des individus dans la société peut contribuer au maintien du bien public. Deux remarques s’imposent alors.

Tout d’abord, on ne peut pas conclure de cette étude le caractère foncièrement coopératif ou non de la population étudiée. La simple rationalité explique les comportements : plus la punition est crédible, plus il y aura de personnes qui l’utiliseront, et plus elle sera crédible. Dans le même temps, plus la punition est utilisée, moins il est intéressant de chercher à éviter de coopérer. Mais les préférences des agents n’ont pas été modifiées par la punition. Elle n’a pas de portée rééducatrice.

La seconde remarque porte sur le caractère décentralisé de la punition, qui est ici laissée au gré des joueurs. Est-ce plus ou moins efficace qu’un système centralisé de la punition pris en charge par une institution extérieure aux individus ?

Vers une punition centralisée par l’État

Dans le système décentralisé, les individus doivent se porter volontaires pour infliger la punition. Mais chacun peut se demander : « Si tout le monde peut le faire, pourquoi le ferai-je moi ? ». La situation dans laquelle se trouve un individu qui envisage de passer à l’acte est elle-même un dilemme du prisonnier, qui correspond à ce qui a été appelé le dilemme du volontaire.

Revenons à notre jeu du bien public. Dans le cas le plus simple, il suffit qu’une seule personne se porte volontaire pour punir un non-coopérateur, pour que se rétablisse la coopération générale, c’est-à-dire pour que les joueurs recommencent à mettre de l’argent dans le pot commun. Seulement, comme personne n’a de bénéfice direct à le faire, la survenue de cet événement est aléatoire. Et il se trouve que la probabilité de survenue de cet acte de volontariat est inversement proportionnelle au nombre de joueurs en présence. Plus la population augmente, moins il y a de volontaires pour maintenir le « bien public » à leurs dépends.

On pourrait donc dire que cette conclusion rend légitime, dès que notre société théorique prend une taille critique, la mise en place d’un système pénal centralisé, par exemple l’État.

De manière intéressante les détails de l’analyse de ces dilemmes sociaux peuvent révéler des phases transitoires, correspondant à un nombre intermédiaire de « joueurs », durant lesquelles la société « hésite » entre un système centralisé et décentralisé. On pourrait rapprocher ces cas théoriques de cas réels, dans lesquels un État centralisé tente de mettre fin aux pratiques de vendetta dans des microsociétés décentralisées qui se vivent partiellement en dehors du giron de l’État. Si du fait de la coercition exercée par un groupe d’individu à l’égard des individus coopératifs, le coût du volontariat devient si important qu’il s’assimile à un sacrifice complet que la société ne peut évidemment pas exiger de ses membres, l’État acquiert un rôle décisif et les membres de la société n’ont d’autre choix que lui déléguer leur pouvoir de punir. Mais ce n’est pas tout, l’État ne survit et n’est capable de redistribuer les peines que s’il y a une contribution au bien public de la part de ses membres, qui assure sa subsistance et la redistribution d’un bien public.

On voit donc que la nécessité de la centralisation d’un système pénal peut découler de l’analyse théorique du dilemme du prisonnier. Notre argument a suivi une série d’enchâssements de dilemmes sociaux, qui ne se résolvent qu’avec l’intervention d’un agent extérieur, l’État, mais dont l’existence est elle-même dépendante de la solution d’un dilemme social.

La punition par l’État : une nécessité logique plus qu’une contrainte morale

L’État n’apparaît que comme suite logique des problèmes soulevés par la coopération et, réciproquement, les problèmes de coopération ne sont résolus que par la menace crédible de l’État. En aucun cas, en tout cas, il n’a été nécessaire de poser dans notre analyse l’existence de « préférences pro-sociales » chez les individus, mais seulement une capacité rationnelle à envisager des solutions aux problèmes posés par l’absence, elle-même rationnelle, de coopération spontanée dans la société.

Si cette conclusion contredit quelque peu l’optimisme naturaliste des tenants de la théorie de l’altruisme généralisé comme fruit de notre évolution, elle ne conduit pas pour autant à un plaidoyer en faveur de la sévérité des institutions pénales centralisées. La question du degré de sévérité et de l’étendue des peines dépend du degré de déclin de la coopération dans la société ou, plus gravement, de l’évidence du détournement des capacités de coopération d’individus exploités par des groupes coordonnés.

L’évaluation des peines ne gagne nullement en efficacité à être dépendante d’une idéologie particulière ou d’un effort de moralisation de la société. Elle peut être évaluée en fonction du calcul de l’équilibre nécessaire à détourner la criminalité de ses objectifs rationnels, à en changer structurellement les incitations. Seulement à cette aune du dilemme du prisonnier peut se mesurer, à un moment donné, le caractère répressif, laxiste, ou adapté du système d’attribution des peines mis en place par l’État.


[1] Fehr, E., & Gächter, S. (2002). Altruistic punishment in humans. Nature, 415(6868), 137-140.

Laisser un commentaire