囚徒困境的非零和博弈以及中国社会的问题
囚徒困境(英语:Prisoner's Dilemma)是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。或者说在一个群体中,个人做出理性选择却往往导致集体的非理性。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
经典的囚徒困境
1950年,由就职于兰德公司的梅里尔·弗勒德和梅尔文·德雷希尔拟定出相关困境的理论,后来由顾问艾伯特·塔克以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
用表格概述如下:
甲沉默(合作) 甲认罪(背叛)
乙沉默(合作) 二人同服刑半年 甲即时获释;乙服刑10年
乙认罪(背叛)甲服刑10年;乙即时获释 二人同服刑5年
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:
二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑5年。
这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑5年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判监均比合作为高,总体利益较合作为低。这就是“困境”所在。例子有效地证明了:非零和博弈中,帕累托最优和纳什均衡是互相冲突的。
现实的例子
上述例子可能显得不甚自然,但现实中,无论是人类社会或大自然都可以找到类似囚徒困境的例子,将结果划成同样的收益矩阵。社会科学中的经济学、政治学和社会学,以及自然科学的动物行动学、进化生物学等学科,都可以用囚徒困境分析,模拟生物面对无止境的囚徒困境博弈。囚徒困境可以广为使用,说明这种博弈的重要性。以下为各界例子:
政治学例子:军备竞赛
在政治学中,两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择:增加军备(背叛)、或是达成削减武器协议(合作)。两国都无法肯定对方会遵守协议,因此两国最终会倾向增加军备。似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为,但结果却显得“非理性”(例如会对经济造成损坏等)。这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平。
经济学例子:关税战
两个国家,在关税上可以有以下两个选择:
当一国因某些因素不遵守关税协定,而独自提高关税(背叛)时,另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果是将发现共同合作利益最大。)
商业例子:广告战
商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。
两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出品质类似的广告,收入增加很少但成本增加。但若不提高广告品质,生意又会被对方夺走。
此二公司可以有二选择:
若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境。在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。
自行车赛例子
自行车赛事的比赛策略也是一种博弈,而其结果可用囚徒困境的研究成果解释。例如每年都举办的环法自行车赛中有以下情况:选手们在到终点前的路程常以“大队伍”(法语:peloton) 方式前进,他们采取这策略是为了令自己不至于太落后,又出力适中。而最前方的选手在迎风时是最费力的,所以选择在前方是最差的策略。通常会发生这样的情况,大家起先都不愿意向前(共同背叛),这使得全体速度很慢,而后通常会有二或多位选手骑到前面,然后一段时间内互相交换最前方位置,以分担风的阻力(共同合作),使得全体的速度有所提升,而这时如果前方的其中一人试图一直保持前方位置(背叛),其他选手以及大队伍就会赶上(共同背叛)。而通常的情况是,在最前面次数最多的选手(合作)通常会到最后被落后的选手赶上(背叛),因为后面的选手骑在前面选手的冲流之中,比较不费力。
与囚徒困境相关的各事件
威廉·庞德斯通(William Poundstone)在他的著作中,以一新西兰的例子来说明囚徒困境。在新西兰存在诚实的读者现象,报亭既无管理员也不上锁,买报纸的人自行放下钱后拿走报纸。当然某些人可能取走报纸却不付钱(背叛),但由于大家认识到如果每个人都偷窃报纸(共同背叛)会造成以后不方便的有害结果,这种情形很少发生。这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境。并没有任何人特别去注意报亭,人们守规则是为了避免共同背叛带来的恶果。这种避免囚徒困境的大家共同的推理或想法被称为“异想(magical thinking)”
“认罪减刑”不可行
囚徒困境的结论是许多国家中团体罪犯中认罪减刑(英文:plea bargain)被禁止的原因之一。囚徒困境带来的结论是:如果有二个罪犯,其中一人犯罪而另外一人是无辜的,犯罪者会为了减刑坦白一切甚至冤枉清白者(单独背叛)。最糟糕的情况是,如果他们二人都被判入狱,坦白的犯罪者刑期少,坚持无罪的冤枉者刑期反而更多。
公用品悲剧
现实的博弈参与者不只一方,会有多方参与的囚徒困境。加勒特·詹姆斯·哈丁(Garrett James Hardin)的公用品悲剧就是一例:“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物”,例如渔业,公海中的鱼是属于公共的,而在本身不滥捕其他人也滥捕的思想下,渔民会没有节制的大捞特捞,结果海洋生态破坏,渔民的生计也受影响(共同背叛的结果)。但是,多方囚徒困境的提法有待商榷,因为其总是可以被分解为一组组经典的二方囚徒困境。就是说只有二方的囚徒困境,没有多方的。所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。
(以上内容节选自维基百科囚徒困境)
如果非零和博弈是中国人仅有的现象,那么以上研究应该是只在中国发现,然而事实并非如此。那么回答一个问题,这个现象为何今日会存在于中国社会呢?
这个现象是普遍存在于人类社会中的社会现象,所以人类社会在发展中形成了对社会体制(政府等)协调矛盾来促进社会效率的需求。社会所需求的正常政府会通过法律禁止一些行为和保障一些权益来协调矛盾,促进社会效率,比如通过法律(《反不正当竞争法》)和信息交流(言论自由)来避免囚徒困境。但是在专政国家,统治者的法律仅仅是统治者欲望的延伸,和社会契约,社会共识并无太大关系,而统治者为了维护统治需要禁止信息自由交流,来保证每颗韭菜都是独立且互相猜忌的状态,来避免韭菜联合反抗。
因此,非零和博弈会出现在所有专权国家,例如,朝鲜,伊朗,沙特(沙特经济依靠石油,如果没有石油也只会是一片沙漠),委内瑞拉,古巴。这也是专政国家经济一般都烂如狗屎的原因之一。中国经济有所好转的几年恰恰是从2000年至2014年间,言论逐渐放松管制的几年。虽然不是主要原因,但也有一定的促进作用。
经典的囚徒困境
1950年,由就职于兰德公司的梅里尔·弗勒德和梅尔文·德雷希尔拟定出相关困境的理论,后来由顾问艾伯特·塔克以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
- 若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
- 若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。
- 若二人都互相检举(互相“背叛”),则二人同样判监5年。
用表格概述如下:
甲沉默(合作) 甲认罪(背叛)
乙沉默(合作) 二人同服刑半年 甲即时获释;乙服刑10年
乙认罪(背叛)甲服刑10年;乙即时获释 二人同服刑5年
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:
- 若对方沉默、我背叛会让我获释,所以会选择背叛。
- 若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑5年。
这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑5年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判监均比合作为高,总体利益较合作为低。这就是“困境”所在。例子有效地证明了:非零和博弈中,帕累托最优和纳什均衡是互相冲突的。
现实的例子
上述例子可能显得不甚自然,但现实中,无论是人类社会或大自然都可以找到类似囚徒困境的例子,将结果划成同样的收益矩阵。社会科学中的经济学、政治学和社会学,以及自然科学的动物行动学、进化生物学等学科,都可以用囚徒困境分析,模拟生物面对无止境的囚徒困境博弈。囚徒困境可以广为使用,说明这种博弈的重要性。以下为各界例子:
政治学例子:军备竞赛
在政治学中,两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择:增加军备(背叛)、或是达成削减武器协议(合作)。两国都无法肯定对方会遵守协议,因此两国最终会倾向增加军备。似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为,但结果却显得“非理性”(例如会对经济造成损坏等)。这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平。
经济学例子:关税战
两个国家,在关税上可以有以下两个选择:
当一国因某些因素不遵守关税协定,而独自提高关税(背叛)时,另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果是将发现共同合作利益最大。)
商业例子:广告战
商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。
两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出品质类似的广告,收入增加很少但成本增加。但若不提高广告品质,生意又会被对方夺走。
此二公司可以有二选择:
- 互相达成协议,减少广告的开支。(合作)
- 增加广告开支,设法提升广告的品质,压倒对方。(背叛)
若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境。在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。
自行车赛例子
自行车赛事的比赛策略也是一种博弈,而其结果可用囚徒困境的研究成果解释。例如每年都举办的环法自行车赛中有以下情况:选手们在到终点前的路程常以“大队伍”(法语:peloton) 方式前进,他们采取这策略是为了令自己不至于太落后,又出力适中。而最前方的选手在迎风时是最费力的,所以选择在前方是最差的策略。通常会发生这样的情况,大家起先都不愿意向前(共同背叛),这使得全体速度很慢,而后通常会有二或多位选手骑到前面,然后一段时间内互相交换最前方位置,以分担风的阻力(共同合作),使得全体的速度有所提升,而这时如果前方的其中一人试图一直保持前方位置(背叛),其他选手以及大队伍就会赶上(共同背叛)。而通常的情况是,在最前面次数最多的选手(合作)通常会到最后被落后的选手赶上(背叛),因为后面的选手骑在前面选手的冲流之中,比较不费力。
与囚徒困境相关的各事件
威廉·庞德斯通(William Poundstone)在他的著作中,以一新西兰的例子来说明囚徒困境。在新西兰存在诚实的读者现象,报亭既无管理员也不上锁,买报纸的人自行放下钱后拿走报纸。当然某些人可能取走报纸却不付钱(背叛),但由于大家认识到如果每个人都偷窃报纸(共同背叛)会造成以后不方便的有害结果,这种情形很少发生。这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境。并没有任何人特别去注意报亭,人们守规则是为了避免共同背叛带来的恶果。这种避免囚徒困境的大家共同的推理或想法被称为“异想(magical thinking)”
“认罪减刑”不可行
囚徒困境的结论是许多国家中团体罪犯中认罪减刑(英文:plea bargain)被禁止的原因之一。囚徒困境带来的结论是:如果有二个罪犯,其中一人犯罪而另外一人是无辜的,犯罪者会为了减刑坦白一切甚至冤枉清白者(单独背叛)。最糟糕的情况是,如果他们二人都被判入狱,坦白的犯罪者刑期少,坚持无罪的冤枉者刑期反而更多。
公用品悲剧
现实的博弈参与者不只一方,会有多方参与的囚徒困境。加勒特·詹姆斯·哈丁(Garrett James Hardin)的公用品悲剧就是一例:“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物”,例如渔业,公海中的鱼是属于公共的,而在本身不滥捕其他人也滥捕的思想下,渔民会没有节制的大捞特捞,结果海洋生态破坏,渔民的生计也受影响(共同背叛的结果)。但是,多方囚徒困境的提法有待商榷,因为其总是可以被分解为一组组经典的二方囚徒困境。就是说只有二方的囚徒困境,没有多方的。所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。
(以上内容节选自维基百科囚徒困境)
如果非零和博弈是中国人仅有的现象,那么以上研究应该是只在中国发现,然而事实并非如此。那么回答一个问题,这个现象为何今日会存在于中国社会呢?
这个现象是普遍存在于人类社会中的社会现象,所以人类社会在发展中形成了对社会体制(政府等)协调矛盾来促进社会效率的需求。社会所需求的正常政府会通过法律禁止一些行为和保障一些权益来协调矛盾,促进社会效率,比如通过法律(《反不正当竞争法》)和信息交流(言论自由)来避免囚徒困境。但是在专政国家,统治者的法律仅仅是统治者欲望的延伸,和社会契约,社会共识并无太大关系,而统治者为了维护统治需要禁止信息自由交流,来保证每颗韭菜都是独立且互相猜忌的状态,来避免韭菜联合反抗。
因此,非零和博弈会出现在所有专权国家,例如,朝鲜,伊朗,沙特(沙特经济依靠石油,如果没有石油也只会是一片沙漠),委内瑞拉,古巴。这也是专政国家经济一般都烂如狗屎的原因之一。中国经济有所好转的几年恰恰是从2000年至2014年间,言论逐渐放松管制的几年。虽然不是主要原因,但也有一定的促进作用。
20 个评论
提几个我的想法:
首先,您的作品题目和文章没有关系。您只介绍了囚徒博弈模型和西方例子,并未将模型套用于中国现实;中国什么社会问题是非零和博弈?
其次,引用来源不清或者过旧。长文首先不适合在网络论坛发布,因为交互界面的限制,读者并不能仔细阅读。如果发表长文,长文内容的信息密度需要能够满足读者仔细阅读的预期,比如大量引用数据和来源文献(精确到页码)。维基百科是引用最后的下策。信息获取也遵循理性人假设,参见Kenneth Arrow的economics of Information
最后,单纯介绍模型,一般采用手册或者教科书形式,这种形式在网络论坛上的阅读量本来就不大。即使Github上,单纯写脱离现实(a priori,先验的)的数学方法笔记的作者,阅读量也不是很大的。逛论坛,更多人是在放松,并不想被教育。
首先,您的作品题目和文章没有关系。您只介绍了囚徒博弈模型和西方例子,并未将模型套用于中国现实;中国什么社会问题是非零和博弈?
其次,引用来源不清或者过旧。长文首先不适合在网络论坛发布,因为交互界面的限制,读者并不能仔细阅读。如果发表长文,长文内容的信息密度需要能够满足读者仔细阅读的预期,比如大量引用数据和来源文献(精确到页码)。维基百科是引用最后的下策。信息获取也遵循理性人假设,参见Kenneth Arrow的economics of Information
最后,单纯介绍模型,一般采用手册或者教科书形式,这种形式在网络论坛上的阅读量本来就不大。即使Github上,单纯写脱离现实(a priori,先验的)的数学方法笔记的作者,阅读量也不是很大的。逛论坛,更多人是在放松,并不想被教育。