凭什么,好人要有好报?
“要做一个好人”,这是我的一个信念。所谓信念,是指导生活的最高准则。
这个信念是怎么来的呢?闭上眼睛往回追溯的话,应该是父母教给我的吧。“要对别人好,要大方,不要伤害别人。”这些萦绕耳边的话语,传达的是父母的生存之道。
高中阶段,接触到达尔文的生物进化论,思维开始有一点混乱:如果生物为了有限的食物和生存空间不断斗争,适者生存下来并繁殖后代,不适应环境的则被淘汰,那生存下来的生命应该是极端自私的,对苦难无情的冷漠,残忍的损人利己。
任何具有利他动机,为了帮助别人而牺牲自己的人,应该不会在这个世界存在太久。在生物一代代繁衍的过程中,无私的好人数量会越来越少,自私的坏人数量会越来越多。
那为什么,父母希望我做一个好人?或者说,自诩是好人的父母是怎么生存下来的?
如果一个公司告诉我,要做一个好人,我可能会怀疑这个公司的动机。我怕这公司的坏人,憋着劲教我学好,是方便他们使坏。可我没法用这样的理由去怀疑我的父母,毕竟他们的基因还要靠我这个独生子传递下去。
所以,一定有什么原因,让好人还活在世上。
我想知道的这个答案,33年前,美国政治学教授阿克塞尔罗德也想知道。他从解决经典的博弈论难题“囚徒困境”入手,利用计算机程序,模拟出了代表好人的策略和代表坏人的策略。
在好人和坏人共存的时期,好人得分获得了领先;即使在一个都是坏人组成的社会,一旦坏人尝到合作的好处,坏人会转变成好人并迅速扩大好人群体。
罗教授的研究成果,写在了《合作的进化》这本书里。首先,让我们从介绍“囚徒困境”开始。
“囚徒困境”是1950年美国兰德公司拟定的理论。两个同案犯被关进监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确实,二者都判刑八年。
这种情况下,怎么做才是对自己最有利的呢?现在我和你处在这样的局面下,你有两种选择,揭发或沉默;我也有两种选择,揭发或沉默。我们互相不知道对方选择什么,只能把两种情况都考虑进去:假设你选择揭发,卧槽你简直不是人,说好的兄弟情深呢?我沉默帮你担责我是傻子,老子也揭发;假设你选择沉默,卧槽没见过你这么傻的人,老子果断选择揭发卖队友享受免罪。
可见,无论你选择什么,我最好的选择都将是揭发。这也是枪战片中坏人活得长好人死的快的重要原因。
如果只进行一次”囚徒困境“的博弈,理智的双方只会互相伤害,这样的社会根本不会有好人存活的机会。幸运的是,现实社会可以看成”囚徒困境“的重复博弈版本,一重复,就像给好人开了外挂。
为方便讲诉,重新设置一种”囚徒困境“的情形:我和你是两位玩家,手上各有”背叛“和”合作“两张牌,我们互相不知道对方的出牌。银行家充当裁判,每一轮都根据我们的出牌结果给予我们金钱,在无限次的轮数里,我们应该从银行家手里拿到尽可能多的钱。
结果1:
我们都选择合作,银行家给我们每人3分钱。
结果2:
我们都选择背叛,银行家给我们每人1分钱。
结果3:
你选择合作,我选择背叛,银行家给我5分钱,不给你钱。
结果4:
我选择合作,你选择背叛,银行家给你5分钱,不给我钱。
无限次的轮数,有无数种背叛和合作的选择。如果我们把背叛和合作的选择称为策略,则有无数种策略。面对这种情况,我们自然会问一个问题,哪种策略最厉害,能赢得最多的钱?
实验开始前,罗教授心里很怕,要是最坏最没有人性的策略赢得最多的钱,预示着我们这个世界会越来越像哥谭市,犯罪横行,贪污腐败,民不聊生,只能依靠一两个超级英雄,比如蝙蝠侠给人们带来一点微弱的希望。
为了回答这个问题,罗教授设计了一场竞赛。他请世界各地的博弈论专家来提交策略,也就是设计一种出牌的规则,他把这些策略转换成计算机语言,在电脑里进行模拟演算。当然不可能进行无限次的演算,先算个两百次吧,看看到底谁厉害。
他一共收到了十四条精心设计的策略,再加上一条随机策略,意思是每一步出背叛还是合作看心情,随便出。任何一个策略,都和包括自己在内的十五条策略一起比赛,看谁赢得多。
理论上,200个回合,每个回合5分都拿全了,一场比赛最多赢1000分。和15个对手比下来,最多拿到15000分。事实上,这是不可能的,没有哪个策略会傻到每轮都信任你,让你白白占便宜。现实一点的最好情况是,每轮两个人都合作拿到3分,200轮一共拿到600分。
把每个策略经历的15场比赛得分统计下来,名字为”一报还一报“的策略拿到了最高的平均分504分。这个策略最简单,看起来最不聪明,事前也并不被看好,它最终获得了冠军,跌破了罗教授眼镜。
这个策略这样出牌:在第一回合采取合作行动,然后在接下来的每一个步骤里,重复对手上一步的行动。为了加深理解,我们来看看两个”一报还一报“策略相遇竞赛的情形。
第一步,双方都合作,都拿到3分,然后互相重复对手上一步的合作行动,每一轮双方都拿到3分。200轮过去,双方都获得600分的最高分数。
现在换一个对手,”老实人探测器“。这个策略会在每十步中任意选择一步,打出恶意的”背叛“牌,拿到5分,”一报还一报“还是傻傻的打出”合作“牌,拿到0分。但在下一步,”一报还一报“马上开始报复,打出”背叛“牌,而”老实人探测器“打出”合作“牌,拿到0分,两轮双方打平,各拿到2.5分。200轮结束后,双方各得到590分。
如果遇到”总是背叛“呢?第一轮”总是背叛“拿到5分,之后”一报还一报“开始报复,双方互相打出”背叛“,得到1分,一直持续到结束。”总是背叛“拿到204分,”一报还一报“199分。
”一报还一报“在”总是背叛“身上损失的5分,在和其他策略竞赛的过程中轻易赢了回来。我们看到它可以拿到600分满分,而”总是背叛“死的很惨。教授把所有这些得分加起来,算出了一个结果。
分析结果可知:
这次竞赛中的15个策略,有8个属于”善良“策略。这里的”善良“指的是那些从不首先背叛的策略。令人吃惊的是, 善良策略霸占了前八名的位置。最差的善良策略得到472分,而最高的恶意策略得到401分,与善良策略有很大的差距。
在善良策略里,决定名次高低的关键在于”宽容“。一个宽容的策略只有短期记忆,虽然它也采取报复行动,但它会很快遗忘对手的背叛,报复过后就到此为止,不再继续记仇。
排名第7的善良策略Friedman,它绝不宽恕,即使对手悔改,它不愿意打破相互背叛的恶性循环,因此无法取得较高的分数。
这场竞赛表明,赢家策略具有两个显著特点,善良与宽容。这很乌托邦,善良与宽容能得到好报。这让我看到了一些好人有好报的希望。
且慢。会不会是因为这场竞赛只有15个策略,对手太少,善良策略领先只是因为运气好?罗教授有这样的疑惑。
于是,他把这次竞赛的过程及结果还有分析原原本本公开,并请更多的专家来制定策略。这一次,有人专门制定了欺骗善良策略的恶意策略,期望靠伪装得到高分。也有人试图变得更加善良,制定了”两报还一报“甚至”三报还一报“策略。
结果如何?还是”一报还一报“成为赢家,得到435分,更重要的是,善意的策略又一次赢了恶意的策略,前15名中只有一个恶意策略,而倒数15名中只有一个善意策略。
到这里,我们可以肯定的说,好人有好报,并不是寄希望于上帝或者来世的一厢情愿,而是在这个自私自利的现实世界,理性人为了得到最大利益采取的必然步骤。
那么,得到好报的好人,能够繁衍生存下去吗?在这个坏人好人共存的世界,随着世代更迭,是好人越来越多,还是坏人越来越多呢?罗教授带着这个问题进行了第三次竞赛。
这次竞赛,称为生存之战。
还是第二轮的63个策略,组成进化演替的第一代。赢的人不再得到分数,而是得到与其完全相同的后代。世世代代如此传递,一些策略逐渐变得数目稀少,甚至完全绝迹,另一些策略则渐次增多。
最终在1000代以后,种群不再变化,稳定的状态形成。在这之前,各种策略的命运起伏不定,”骗子“、”傻瓜“、”斤斤计较者“在200代之后彻底灭绝,剩下的策略都类似于”一报还一报“,既善良又容易被煽动报复。
答案揭晓:这个世界,好人”稳定的“多于坏人。这并不是因为信仰神明或遵从某种主义的结果,而是理性人出于自我利益最大化的必然选择。
这里所说的好人,不是傻好人,而是不首先背叛,及时反击,宽容大度、行为清晰的综合体。罗教授对此做了总结:
这一场33年前的计算机策略竞赛,以及罗教授的分析,在今天看来,我仍然感到深深的震撼。他坚定了我们做好人的信心,也告诉了我们应该做一个怎样的好人。
不首先背叛,及时反击,宽容大度、行为清晰这四大原则,是好人立身成圣的擎天之柱。第一条容易,后面三条我自觉差距还很大。但这不妨碍我们把这些简单的原则记录下来,奉为以后行动的圭臬。
及时反击是好人生存的基础,一个忍气吞声的烂好人没人记得他的好,只记得他的软弱。愤怒和生气是我们维护边界的有力武器。如何在反击中掌握度,既表达愤怒又适时收手,让位于宽容大度,那是下一篇文章的故事了。
声明:本站内容与配图部分转载于网络,我们不做任何商业用途,由于部分内容无法与原作者取得联系,如有侵权请联系我们删除,联系方式请点击【侵权删稿】。
求助问答
最新测试
657441 人想测
立即测试
773161 人想测
立即测试
657078 人想测
立即测试
702475 人想测
立即测试
701075 人想测
立即测试