［文化］身边的博弈-文学100

［文化］身边的博弈
作者：佚名

《新华月报（天下）》 2008年第02期

多个检索词，请用空格间隔。

       “要在现代社会做一个有文化的人，你必须对博弈论有大致的了解。”——萨缪尔森
       ■关于博弈论
       假如你正跟恋人用手机通电话，突然信号断了。这时，你会立即拨电话过去，还是等你的恋人拨电话过来？
       很显然，你是否应拨电话过去，取决于你的恋人是否会拨过来。如果你们其中一方要拨，那么另一方最好是等待；如果一方等待，那么另一方就最好是拨过去。因为如果双方都拨，那么就会出现线路忙；如果双方都等待，那么时间就会在等待中流逝。
       这，就是博弈！
       在一场博弈中，你必须考虑对方的选择以确定你自己的最优选择，而对方也必须考虑你的选择来确定他的最优选择。你从博弈中得到的——在博弈论中称为赢利（payoffs)——不仅取决于你自己的行动，也取决于对方的行动；同样，对方从博弈中得到的赢利，不仅取决于对方的行动，也将取决于你所采取的行动。而你们当中的每一方，都试图尽可能地最大化自己的赢利。
       在这场电话博弈中，如果你知道恋人不会拨过来（比如以前断线时就是她在等待电话），那么你的最优行动就是拨过去；当然也可能相反，比如她打给你的电话免费，而你也知道这点，那么你的最优行动就是等待对方拨过来。总之，你们的行动相互影响又相互依赖。这正是博弈最本质的特征。
       ■博弈范例
       为了更好地理解人际之间的博弈互动行为，我们先来看几个小故事。
       别人的红包更诱人
       如果你与对手的行为相互影响，那么你们之间就构成一个博弈局势。
       身处博弈之中，你需要运用策略思维来选择行动。若无策略思维，结果几乎等于失败。且看下面一个例子。
       ·故事模型
       话说一地主家有两个长工——张三和李四。转眼到了年关，地主给了张三、李四每人一个红包。两个人都看到自己红包里装的是1000元钱，但不知道对方红包里装的是多少。这时地主发话了：“你们拿的红包里，每个红包的钱可能是以下两个数字之一：1000元和3000元。现在你们如果愿意跟对方换红包的话，可以由我来公证，但你们每人要支付100元公证费给我。”
       张三心想：假定我跟李四交换红包，若他是1000元，我就相当于亏损100元公证费，这种可能性是50%；若他是3000元，则扣除公证费100元，我还净赚3000－1000－100 =1900元，这种可能性也是50%，所以，我的预期净赚价值是50% x（－100)＋50% x 1900＝900元。这样看来，我跟李四交换是很划算的。
       李四心里的想法跟张三一样。他也觉得跟张三换红包是很划算的。
       于是张三、李四异口同声地对财主说：“我们愿意换。”
       地主露出了一丝狡诈的微笑：“真愿意换？”
       “愿意！”张三、李四毫不犹豫。
       结果，正如读者诸君所料，张三、李四各自亏损了100元收入，未得到任何好处。只有地主用他小小的伎俩骗到了200元钱。
       有的读者会问：张三和李四的推理究竟在哪个环节发生了错误呢？其实他们先前的推理都没错，而且他们都提出愿意跟对方交换也没错。错，就错在当地主再次询问是否愿意交换时，他们仍然同意交换——这就是缺乏策略思维的后果。如果张三和李四懂得策略思维，那么在地主再次询问时，他们就会拒绝交换。为什么呢？原因在于：地主第一次问大家是否愿意交换，既然张三表示愿意，那么李四就应该想到：“如果张三是3000块，他肯定不会同意跟我换，现在他同意跟我换，说明他也是1000块，因此我不应跟他换。”同样，既然张三看到李四同意交换，也应该做相同的推理，得到不换的结论。所以地主再次询问时，策略思维之后的答案应该是不换，这样他们就不会损失一笔所谓的公证费了。
       这个例子说明，在互动情形中，缺乏策略思维，难免会犯错误。
       是否应置敌人于死地
       人们常常认为“对待敌人应该像秋风扫落叶那样残酷无情”，但在某些博弈中，最好的策略反而可能是放敌人一条生路。
       “空城计”，大家耳熟能详。虽然对这一故事的真实性仍有争议，但是其中的对局却令人感慨万千。有许多人认为，诸葛亮利用司马懿多疑的性格而大胆摆下空城计，司马懿果然中计。但是，也有一种博弈论的解读认为：并非司马懿不敢攻城（以其卓越的军事才能也不至于看不出空城计），而是司马懿并不想过早地除掉诸葛亮。为什么呢？因为司马懿一直受曹真等人的排挤，曾经被贬为平民。只因诸葛亮伐魏无人可挡，最后曹魏又不得不请司马懿出山。可以说，正是因为诸葛亮的存在，才使得曹魏对司马懿有所依赖。司马懿自己可能也很清楚，在自己未能掌握军国大权的时期，一旦诸葛亮倒下，也就是他自己被逐出朝廷甚至遭迫害的日子。于是，司马懿在空城计前面退却了。后来，司马懿不断扩充军权，大权独揽——那是为了自己和家族不致在诸葛亮死后被曹魏挟制和迫害。这也许是一些曲解，大家姑且当做讲笑话吧。但是，其中的道理是成立的。既然兔死狗烹，那么猎狗最好就不要让兔子全部死掉。
       为什么只要1美元不要10美元
       人类的策略行为，并不仅仅体现在战争这样的大事件中。很多聪明的博弈可能并没有一个像三国这样宏大的斗争背景，反而，它们可能只是日常生活的细屑琐事。
       ·故事模型
       曾经有一个小孩子，家境贫寒，只好上街乞讨。令人奇怪的是，对路人的施舍，他只接受1美元，而不要路人给的10美元。
       世界上居然有这样的傻瓜，10美元不要而只要1美元！这个消息传开了，更多的人都想见识这个傻瓜，他们纷纷掏出10美元和1美元来给小乞丐。小乞丐总是选择接受1美元。更多人都觉得很好奇，总是不断有路人来做“实验”。
       后来，有人问这个小乞丐为什么那么笨不要10美元的钞票。小乞丐的解释是：如果我拿了10美元的钞票，那我就是一个智力正常的人，也就不会再有那么多的人用1美元来做实验看我傻不傻了。
       原来，小乞丐不但不傻，简直就是聪明绝顶。因为他非常清楚自己面临的是一个长期重复博弈。在目前的一个单期中，对他来说最好的行动是接受10美元而放弃1美元。不过，既然一旦接受10美元就不会有人再出于“好奇”给他1美元，那么，接受10美元虽然可算是短期内发一笔小财，但是却损失了细水长流的许许多多的1美元。为了眼前的一点小财而放弃长远的利益，显然是不划算的。
       故事中的小乞丐通过装傻的策略性行为，树立起了“傻”的声誉，获得了长期接受他人施舍的好处。这个故事也说明了长期关系对于博弈行为的重要影响。在单次的博弈中，人们没有未来的交手机会，因此都会完全按照自己在当期的利益选择行动；而在长期关系的博弈中，人们往往可能会因为长期的利益而宁愿在本期付出一些代价。厂商为什么愿意花费代价去建立“声誉”？因为短期付出的声誉成本可以由长期的声誉收益来补偿。员工为什么愿意忘我工作？因为这样的努力付出可以使他得到老板的认可而获得晋升或加薪等长期的收益。可以想像，如果一个员工没有了未来（比如他明天就要退休了），他今天还会忘我地工作吗？
       ■囚徒困境
       应当随时考虑别人的利益，条件是不这样做自己的利益就会受到损害。
       ——（瑞士）阿尔弗雷德·莫勒尔（Alfred Mohler )
       相信大家都有过这样的经验：当我们在公路上遇到塞车的时候，如果大家都规规矩矩地排在车道内，而有一个人违规驶入人行道，那么他就会得到便宜。但如果每个人都有这样的想法，并且付诸行动的话，则人人都要吃亏。这样的情况经常在我们的日常生活中出现，即每个人都守规矩，那么一个不守规矩的人就会获得好处；但若每个人都不守规矩，则人人都会失利。

       这样的现象后面，是否隐藏着某些特定的结构？之所以要问这样一个问题，原因在于，如果某些现象不断重复出现，其背后通常会有某种特定的结构存在。一旦有特定结构存在，我们就可以建立相应的模型来分析此类现象。答案是显然的，因为博弈论中的“囚徒困境”正是分析此类现象的模型。当然，一旦掌握囚徒困境模型，则任何时候碰到此类现象我们都可以马上清楚地理解到现象的发生机理；这就是模型化思维的好处。
       囚徒困境模型
       囚徒困境模型是用一个小故事来表达的。
       ·故事模型
       两个人因盗窃被捕，警方怀疑其有抢劫行为但未获得确凿证据可以判他们犯了抢劫罪，除非有一个人供认或两个人都供认。即使两个人都不供认，也可判他们犯盗窃物品的轻罪。
       囚徒被分离审查，不允许他们之间互通消息，并交代政策如下：如果两个人都供认，每个人都将因抢劫罪加盗窃罪被判2年监禁；如果两个人都拒供，则两个人都将因盗窃罪被判处半年监禁；如果一个人供认而另一个拒供，则供认者被认为有立功表现而免受处罚，拒供者将因抢劫罪、盗窃罪以及抗拒从严而被重判5年。
       我们用赢利表（payoffs table）将两名囚徒面临的博弈问题表示如下：
       赢利表是两个局中人且策略离散情形常用的一种表达博弈的工具。其解读方式是这样的：最左边是局中人1（本例中为囚徒甲），最上边是局中人2（本例中为囚徒乙）；左边的“拒供”、“供认”是局中人1的策略，上边的“拒供”、“供认”是局中人2的策略；四个单元格是双方策略的组合情况（本例中每人有2个策略，策略组合就有2×2=4个），每个单元格即一种策略组合；每个单元格中有两个数字，第一个数字代表局中人1（左边那个人）的赢利，第2个数字代表局中人2（上边那个人）的赢利。
       从图1赢利表中可发现，如果两个囚徒都拒供，则每个人判0.5年；如果两个囚徒都供认，则每个人判2年。相比之下，两个囚徒都拒供是一个比较好的结果。
       但是，这个比较好的结果实际上不大容易发生。因为每个囚徒都会发现：
       ·如果对方拒供，则自己供认便可立即获得释放，而自己拒供则会被判0.5年，因此供认是较好的选择；
       ·如果对方供认，则自己供认将被判2年，而自己拒供则会被判5年，因此供认是较好的选择；
       ·无论对方拒供或供认，自己选择供认始终是更好的。
       由于每个囚徒都发现供认是自己更好的选择，因此，博弈的稳定结果是两个囚徒都会选择供认。我们把这种稳定结果称为博弈的纳什均衡（纳什均衡是由数学家纳什提出的一个均衡概念，因此被命名为纳什均衡）。
       这样的博弈均衡结果多少有点令人意外。他们为什么不可以订立一个攻守同盟，都选择“拒供”从而获得一个对大家都更有利的结果呢？若两个人在被捕前曾在关二爷面前发誓决不招供，那么他们能不能达成合作，选择拒供呢？即使如此，合作可能还是难以达成，原因很简单，一旦两个人被捕面临隔离审查，每个人都会担心对方会背弃盟约。如果囚徒甲是坚守盟约的人，那么囚徒乙正好可以在事前诱使他订立盟约，然后被捕后囚徒乙就可以通过背盟而逍遥法外；囚徒甲当然也很清楚做一个坚守盟约的人很可能被囚徒乙利用，所以他为什么又要坚持盟约呢？反过来，如果乙是坚守盟约者，推理也一样。结果是，两个囚徒之间不可能达成稳定的盟约。
       囚徒困境通常被看做个人理性冲突和集体理性冲突的经典情形。因为在囚徒困境局势中，每个人都根据自己的利益做出决策，但是最后的结果却是集体遭殃。现实中诸多的问题和现象，正是囚徒困境问题的翻版。
       现实中的囚徒困境
       价格战
       价格战是市场竞争中一个非常常见的现象。上网搜索，可以发现家电、手机、空调、飞机票……无不充满价格战。而我要讲的例子是彩电价格战上的一段插曲。
       ·故事模型
       自20世纪90年代中期以来，彩电行业竞争加剧，价格战烽烟四起。由于彩电行业是寡头控制（编者注：寡头，意指为数不多的销售者。在寡头垄断市场上，只有少数几家厂商供给该行业全部或大部分产品，每个厂家的产量占市场总量的相当份额，对市场价格和产量有举足轻重的影响），最大的9家彩电厂商占据了70%的彩电市场，这样的市场上博弈互动的特征就更为突出。1999年4月，长虹为扩大市场突然宣布彩电降价，这给彩电业带来了巨大震动。随即，康佳、TCL、创维达成默契：建立彩电联盟。直到4月20日下午，康佳仍表示不降价，但当晚康佳突然改变主意，搞得TCL,创维措手不及。4月24日，本来三方准备坐下来商讨降价后的进一步策略，结果又是康佳爽约，于是价格战立即蔓延开来。但是，大家都降价对于扩大各自的市场其实并无多大帮助，反而削减了各自的利润——这是有事实为证的，1996～2000年，彩电行业连续发生8次降价战斗，信息产业部统计资料显示，中国彩电行业进入全面亏损。信息产业部有关官员透露，彩电价格战使国家损失147亿元；而一位彩电企业的老总则说，整个行业的实际损失最少200亿元。
       价格战于人于己都不利，但为什么彩电厂商还在打价格战呢？我们可以建立一个简单的囚徒困境博弈来加以解释。
       假设彩电市场有两个寡头，现在面临降价与不降价的选择。甲降价而乙不降价，甲扩大了市场，赢利增加80单位，乙市场缩小，赢利增加－100单位；反之，乙降价而甲不降价，则乙增加80单位，甲增加－100单位。倘若都降价，则各增加－50单位；都不降价，则都保持原来的销售利润，增加利润为0。整个选择及其结果可以用赢利表表示（见图2):



       显然，从双方最好的结果来看，就是都“不降价”。但如同囚徒困境一样， “降价”是每个企业的优势策略：给定对方不降价，我最好降价（不降价得到0，降价得80);给定对方降价，我更得降价（不降价得－100，降价得－50)。
       当然，大家可能还会想，企业之间是否可以进行某种联合来维持价格不降呢？真实的情况是，2000年6月9日，TCL、海信、创维、厦华、乐华、金星、熊猫、西湖等九家彩电企业歃血结盟，召开了第一次具有“垄断”意味的彩电联盟峰会，实际上就是一个价格联盟。结果到联盟生效之日时，大多数彩电商家仍然保持降价，联盟成为一纸空文。当年8月，康佳响应长虹在全国范围降价20%,撕毁本无约束力的联盟协议，价格联盟宣告破产。直到现在，我们还经常可以看到彩电价格战的影子。
       公共资源的过度使用
       哈丁（Hardin）于1968年在《科学》杂志发表的论文《公共地悲剧》是一篇经常被引用的文献。文章表达了这样一个思想：如果人们只关注个人福利，公共资源就会被过度使用。这一思想可由如下一个假想的故事说明。
       ·故事模型
       一片公共草地可以养羊，但是随着养羊的数量增加，草地在羊的身上创造出的价值是减少的。假设养2只羊时，每只羊可带来价值100元；养3只羊时每只羊将带来价值60元；养4只羊时每只羊将带来价值40元。假设有两个牧民决定养羊的数量，每个牧民可决定养1只还是2只。则该博弈的赢利表可表示如下（见图3):
       显然，该草地最有效率的放羊数量应是两个牧民各养1只，他们各自得到100元价值，草地创造的总价值为200元。但是，牧民甲会想：若对方（牧民乙）养1只，则我养1只才100元，养2只可以有120元，我应养2只；若对方养2只，则我养1只才60元，养2只可以有80元，我还是应养2只。无论如何，牧民甲选择“养2只”是优势策略。同理，“养2只”也是牧民乙的优势策略。最后结果是大家各养了2只（合计4只），各自得到80元，草地创造总价值为80+80＝160元——这是一个最差的结果，因为各养1只的总价值是200元，一个养1只另外一个养2只的总价值是180元。公共草地被过度放牧滥用。

       公共资源的滥用在生活中很常见，深海捕鱼、大气污染、国有资产的流失……都是此方面的例子。而这些现象的存在，说明了对公共财产界定私有产权的重要性。
       公共品的短缺
       当人们关注个人福利的时候，不仅会使公共资源被过度滥用，也会出现公共品供给短缺的情况。这同样可以由囚徒困境来解释。大家可能都注意到这样一个现象：家里的灯坏了，很快会被修好；而公共过道里的灯坏了，则很长一段时间都没人修。原因是公共过道的灯具有公共品性质，每个人的优势策略是等待别人来修，而不是自己花成本去修，结果大家都在等待而没人去修。希望别人承担代价而自己享受好处的行为，在经济学中被称为“免费搭车”行为。当大家都想免费搭车的时候，实际上谁也搭不了谁的车，这就陷入了囚徒困境。
       应试教育
       应试教育也面临囚徒困境。一所学校可以选择素质教育，也可以选择应试教育。如果所有学校都选择素质教育，对于培养人才将是更好的。但是，给定其他学校选择素质教育而自己选择应试教育，则自己可以在升学等考试中取得突出的成绩；给定其他学校选择应试教育，则自己更应选择应试教育才不至于在升学等考试中落下太远。结果，每所学校都陷入选择应试教育的囚徒困境之中。
       如何走出囚徒困境
       报复与惩罚
       假如每一个拒供的囚徒都可以在刑满释放后对供认的囚徒实施报复（比如杀他全家），那么每个囚徒就可能因担心未来的报复而在现在选择拒供，使得“拒供，拒供”成为均衡的结果。合作达成了。
       不过，这种合作是脆弱的，警方可以轻易摧毁此类合作。比如，宣布对拒供者判处死刑，就会使得上述合作机制失去效力。因为，对方拒供而自己供认，实际上对方已经被置于死地，有谁会担心一个死人的报复呢？
       由囚徒当事人的报复机制形成的合作虽然脆弱，但是却提供了一条走出囚徒困境的可行思路：只要对囚徒不合作行为的惩罚是足够的并且可信的，那么就可以使囚徒的行动转到合作的轨道上来。
       现实中，的确有很多犯罪团伙的成员，被捕后拒不坦白，很大程度上与一个由第三方实施的惩罚机制有关。因为在犯罪团伙、黑社会中，如果出卖“兄弟”，将永远无法在江湖立足，并且其家人也将受到黑社会的追杀。正是这样的第三方惩罚机制，使得报复和惩罚是可信的，从而促成了囚徒的合作。
       “人质”方案
       在囚徒困境中，每个囚徒之所以选择供认，是因为每个囚徒都发现选择供认是符合个人利益的。他们当然也清楚这种自利行为的后果是集体失利，每个人的状况都将更糟糕。因此，如果每个人都相信对方不会招供，并且每个人都相信对方相信自己不会招供，每个人都相信每个人都相信对方相信自己不会招供……那么合作拒供的结果也可以出现。
       在这里，合作的关键是相互的信任，以及对相互信任的相互信任……也就是说，如果可以克服信任问题，那么合作达成也是可能的。顺理成章，促进信任的“人质”方案，常常也会促进合作，走出囚徒困境。
       在我国春秋战国时期，各国之间都希望达成合作，但同时又担心对方会背盟（毕竟总是有其他国家来利诱对方背盟），它们之间也构成了典型的囚徒困境；如果对方要背弃盟约，我更应背弃盟约；如果对方坚守盟约，则我不必死心眼跟它同生共死。所以，（背盟，背盟）是一个囚徒困境式的均衡结果。当时克服背盟囚徒困境的方法是互相派送人质。历史上赫赫有名的一些人物，比如秦始皇、燕太子丹、赵长安君等年轻时都曾作为盟国人质。
       忠诚文化
       有时候，建立一种相互忠诚的文化也可以帮助走出囚徒困境。至少我们发现，有一些犯罪团队成员或黑社会成员在警察局拒不坦白是因为要讲“江湖义气”。江湖义气是一种对同伴忠诚的文化。
       在军队中，也会通过培养对战友的忠诚来克服囚徒困境。在一场战斗中，冲到最前面是最危险的，相对落后是相对不那么危险的。而且相对落后往往也并不能判定某个人有临阵逃脱的意向，因此军法是用不上的。那么，囚徒困境模型告诉我们，理性的士兵将没有人愿意冲在最前面，每个人都等待着他人冲锋陷阵——但这并不是事实，军人们在战场上总是勇往直前。其中的原因，一方面固然是因为危急情况下人们更容易合作，但也有另外一个重要原因就是军队在一个军人的职业早期就使其牢牢树立了与战友同甘共苦、同生共死的忠诚观念。
       “囚徒困境”究竟有多严重
       “囚徒困境”被认为是人类社会一个非常糟糕的问题。人们自利的做法结果是使每个人都受到伤害。因此，人们常常为如何走出囚徒困境而殚精竭虑。
       但是，我个人的看法是，如果能想出克服囚徒困境的办法当然是最好，不过即便一时想不出好办法也不必过于担忧。人类的理性大概有时候会提醒人们不要陷入万劫不复的境地。譬如，我们一般认为大群体的合作是相当困难的，但即便是数以千计的人面临自然灾害而需要团结抗灾的时候，合作常常很容易达成。这当中有囚徒困境问题，因为每个人可能都想自己一个人不努力对群体的影响只有1/1000，可以忽略不计，因此让别人努力而自己偷懒可能是不错的想法。但事实上可能很少有人这样做。人们合作背后的原因可能是一种急于摆脱危险的心理，或者大家共同战胜苦难的精神……不管怎样，合作已经产生。所以，尽管我们看到生活中确实存在大量的囚徒困境，但是面临灾难性的囚徒困境的时候，人们常常还是能够表现出一种合作行为的。这样看来，人类面临的囚徒困境问题可能没有想像中的那么严重，至少没有严重到危害人类社会安全的地步。军备竞赛的囚徒困境增加了世界战争的危险，但是在整个20世纪，一直笼罩在核阴影下的后半叶，反而比前半叶和平得多，难道不是吗？正是因为大家对日益增加的危险更为关注，因此大家也就更为谨慎地刻意避免触发战争，这就是20世纪后半叶的国家斗争历史。
       尤其是，当我们承认人有时可能并不完全采取纯粹自利的行为之后，囚徒困境大概就并不足以让我们对人类的未来产生担忧。人的纯粹自利行为会受到道德约束。有时候，通过不道德的手段也可以获得经济上的好处，但大多数时候人们并不会因为一点蝇头小利而放弃道德底线。譬如坐出租车也可能是一个囚徒困境，因为你完全可以坐了出租车不给钱。当然，你不给钱，出租车司机可能会揍你一顿，因此你才给他钱；但问题是即使你给了钱，他还是可以揍你一顿，并把你扭送到警察局说你没给钱。你没有任何证据可以表明你付了钱的，所以你还得乖乖地再付一笔钱。但事实上，你乘出租车时可能从来没有担心过司机会揍你一顿并再索取你一笔钱。这是为什么呢？也许唯一的解释就是这个社会还保持最起码的诚信和正义，你不会耍赖坐霸王车，司机也不会揍你并多要钱，大家都还是会讲一点道德的。
       在列维特（S. Levitt, 2005年克拉克奖得主）和都伯纳的畅销书《魔鬼经济学》(Freakonomics）中讲到了保罗·费尔德曼(Paul Feldman）的故事。
       ·故事模型
       费尔德曼专门在一些公司的办公区派送甜饼，而且他出售甜饼的方式很特别，是在甜饼箱旁边放一个盒子，拿了甜饼的人自觉地将现金放在盒子里。由于没有人监管甜饼箱和盒子，因此费尔德曼能够收入多少就全看那些拿甜饼的人有多自觉。他从1984年开始专门出售甜饼，每年大约要投放7000个盒子。为了了解自己的经营状况，费尔德曼对每一个派送点的甜饼销售量和收入都有详细的记载。而他的数据表明，盗窃甜饼的事件（拿了甜饼不付钱）的确存在，但至少在87％的情况下，人们是诚实的，会为甜饼付出相应的价格。
       这个例子同样表明，人们的道德和诚实，可能比经济学家所想像的要好。
       （摘自《身边的博弈》，董志强著，机械工业出版社2007年7月出版，定价：28.00元）