好人有好报的论证
作者:米露 2021-10-09 17:08:38 心理百科

凭什么,好人要有好报?

“要做一个好人”,这是我的一个信念。所谓信念,是指导生活的最高准则。

这个信念是怎么来的呢?闭上眼睛往回追溯的话,应该是父母教给我的吧。“要对别人好,要大方,不要伤害别人。”这些萦绕耳边的话语,传达的是父母的生存之道。

高中阶段,接触到达尔文的生物进化论,思维开始有一点混乱:如果生物为了有限的食物和生存空间不断斗争,适者生存下来并繁殖后代,不适应环境的则被淘汰,那生存下来的生命应该是极端自私的,对苦难无情的冷漠,残忍的损人利己。

任何具有利他动机,为了帮助别人而牺牲自己的人,应该不会在这个世界存在太久。在生物一代代繁衍的过程中,无私的好人数量会越来越少,自私的坏人数量会越来越多。

那为什么,父母希望我做一个好人?或者说,自诩是好人的父母是怎么生存下来的?

如果一个公司告诉我,要做一个好人,我可能会怀疑这个公司的动机。我怕这公司的坏人,憋着劲教我学好,是方便他们使坏。可我没法用这样的理由去怀疑我的父母,毕竟他们的基因还要靠我这个独生子传递下去。

所以,一定有什么原因,让好人还活在世上。

我想知道的这个答案,33年前,美国政治学教授阿克塞尔罗德也想知道。他从解决经典的博弈论难题“囚徒困境”入手,利用计算机程序,模拟出了代表好人的策略和代表坏人的策略。

在好人和坏人共存的时期,好人得分获得了领先;即使在一个都是坏人组成的社会,一旦坏人尝到合作的好处,坏人会转变成好人并迅速扩大好人群体。

好人有好报的论证

罗教授的研究成果,写在了《合作的进化》这本书里。首先,让我们从介绍“囚徒困境”开始。

“囚徒困境”是1950年美国兰德公司拟定的理论。两个同案犯被关进监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确实,二者都判刑八年。

这种情况下,怎么做才是对自己最有利的呢?现在我和你处在这样的局面下,你有两种选择,揭发或沉默;我也有两种选择,揭发或沉默。我们互相不知道对方选择什么,只能把两种情况都考虑进去:假设你选择揭发,卧槽你简直不是人,说好的兄弟情深呢?我沉默帮你担责我是傻子,老子也揭发;假设你选择沉默,卧槽没见过你这么傻的人,老子果断选择揭发卖队友享受免罪。

可见,无论你选择什么,我最好的选择都将是揭发。这也是枪战片中坏人活得长好人死的快的重要原因。

如果只进行一次”囚徒困境“的博弈,理智的双方只会互相伤害,这样的社会根本不会有好人存活的机会。幸运的是,现实社会可以看成”囚徒困境“的重复博弈版本,一重复,就像给好人开了外挂。

为方便讲诉,重新设置一种”囚徒困境“的情形:我和你是两位玩家,手上各有”背叛“和”合作“两张牌,我们互相不知道对方的出牌。银行家充当裁判,每一轮都根据我们的出牌结果给予我们金钱,在无限次的轮数里,我们应该从银行家手里拿到尽可能多的钱。

结果1:

我们都选择合作,银行家给我们每人3分钱。

结果2:

我们都选择背叛,银行家给我们每人1分钱。

结果3:

你选择合作,我选择背叛,银行家给我5分钱,不给你钱。

结果4:

我选择合作,你选择背叛,银行家给你5分钱,不给我钱。

好人有好报的论证

无限次的轮数,有无数种背叛和合作的选择。如果我们把背叛和合作的选择称为策略,则有无数种策略。面对这种情况,我们自然会问一个问题,哪种策略最厉害,能赢得最多的钱?

实验开始前,罗教授心里很怕,要是最坏最没有人性的策略赢得最多的钱,预示着我们这个世界会越来越像哥谭市,犯罪横行,贪污腐败,民不聊生,只能依靠一两个超级英雄,比如蝙蝠侠给人们带来一点微弱的希望。

为了回答这个问题,罗教授设计了一场竞赛。他请世界各地的博弈论专家来提交策略,也就是设计一种出牌的规则,他把这些策略转换成计算机语言,在电脑里进行模拟演算。当然不可能进行无限次的演算,先算个两百次吧,看看到底谁厉害。

他一共收到了十四条精心设计的策略,再加上一条随机策略,意思是每一步出背叛还是合作看心情,随便出。任何一个策略,都和包括自己在内的十五条策略一起比赛,看谁赢得多。

好人有好报的论证

理论上,200个回合,每个回合5分都拿全了,一场比赛最多赢1000分。和15个对手比下来,最多拿到15000分。事实上,这是不可能的,没有哪个策略会傻到每轮都信任你,让你白白占便宜。现实一点的最好情况是,每轮两个人都合作拿到3分,200轮一共拿到600分。

把每个策略经历的15场比赛得分统计下来,名字为”一报还一报“的策略拿到了最高的平均分504分。这个策略最简单,看起来最不聪明,事前也并不被看好,它最终获得了冠军,跌破了罗教授眼镜。

这个策略这样出牌:在第一回合采取合作行动,然后在接下来的每一个步骤里,重复对手上一步的行动。为了加深理解,我们来看看两个”一报还一报“策略相遇竞赛的情形。

第一步,双方都合作,都拿到3分,然后互相重复对手上一步的合作行动,每一轮双方都拿到3分。200轮过去,双方都获得600分的最高分数。

现在换一个对手,”老实人探测器“。这个策略会在每十步中任意选择一步,打出恶意的”背叛“牌,拿到5分,”一报还一报“还是傻傻的打出”合作“牌,拿到0分。但在下一步,”一报还一报“马上开始报复,打出”背叛“牌,而”老实人探测器“打出”合作“牌,拿到0分,两轮双方打平,各拿到2.5分。200轮结束后,双方各得到590分。

如果遇到”总是背叛“呢?第一轮”总是背叛“拿到5分,之后”一报还一报“开始报复,双方互相打出”背叛“,得到1分,一直持续到结束。”总是背叛“拿到204分,”一报还一报“199分。

”一报还一报“在”总是背叛“身上损失的5分,在和其他策略竞赛的过程中轻易赢了回来。我们看到它可以拿到600分满分,而”总是背叛“死的很惨。教授把所有这些得分加起来,算出了一个结果。

好人有好报的论证

分析结果可知:

这次竞赛中的15个策略,有8个属于”善良“策略。这里的”善良“指的是那些从不首先背叛的策略。令人吃惊的是, 善良策略霸占了前八名的位置。最差的善良策略得到472分,而最高的恶意策略得到401分,与善良策略有很大的差距。

在善良策略里,决定名次高低的关键在于”宽容“。一个宽容的策略只有短期记忆,虽然它也采取报复行动,但它会很快遗忘对手的背叛,报复过后就到此为止,不再继续记仇。

排名第7的善良策略Friedman,它绝不宽恕,即使对手悔改,它不愿意打破相互背叛的恶性循环,因此无法取得较高的分数。

这场竞赛表明,赢家策略具有两个显著特点,善良与宽容。这很乌托邦,善良与宽容能得到好报。这让我看到了一些好人有好报的希望。

且慢。会不会是因为这场竞赛只有15个策略,对手太少,善良策略领先只是因为运气好?罗教授有这样的疑惑。

于是,他把这次竞赛的过程及结果还有分析原原本本公开,并请更多的专家来制定策略。这一次,有人专门制定了欺骗善良策略的恶意策略,期望靠伪装得到高分。也有人试图变得更加善良,制定了”两报还一报“甚至”三报还一报“策略。

结果如何?还是”一报还一报“成为赢家,得到435分,更重要的是,善意的策略又一次赢了恶意的策略,前15名中只有一个恶意策略,而倒数15名中只有一个善意策略。

到这里,我们可以肯定的说,好人有好报,并不是寄希望于上帝或者来世的一厢情愿,而是在这个自私自利的现实世界,理性人为了得到最大利益采取的必然步骤。

好人有好报的论证

那么,得到好报的好人,能够繁衍生存下去吗?在这个坏人好人共存的世界,随着世代更迭,是好人越来越多,还是坏人越来越多呢?罗教授带着这个问题进行了第三次竞赛。

这次竞赛,称为生存之战。

还是第二轮的63个策略,组成进化演替的第一代。赢的人不再得到分数,而是得到与其完全相同的后代。世世代代如此传递,一些策略逐渐变得数目稀少,甚至完全绝迹,另一些策略则渐次增多。

最终在1000代以后,种群不再变化,稳定的状态形成。在这之前,各种策略的命运起伏不定,”骗子“、”傻瓜“、”斤斤计较者“在200代之后彻底灭绝,剩下的策略都类似于”一报还一报“,既善良又容易被煽动报复。

答案揭晓:这个世界,好人”稳定的“多于坏人。这并不是因为信仰神明或遵从某种主义的结果,而是理性人出于自我利益最大化的必然选择。

这里所说的好人,不是傻好人,而是不首先背叛,及时反击,宽容大度、行为清晰的综合体。罗教授对此做了总结:

好人有好报的论证

这一场33年前的计算机策略竞赛,以及罗教授的分析,在今天看来,我仍然感到深深的震撼。他坚定了我们做好人的信心,也告诉了我们应该做一个怎样的好人。

不首先背叛,及时反击,宽容大度、行为清晰这四大原则,是好人立身成圣的擎天之柱。第一条容易,后面三条我自觉差距还很大。但这不妨碍我们把这些简单的原则记录下来,奉为以后行动的圭臬。

及时反击是好人生存的基础,一个忍气吞声的烂好人没人记得他的好,只记得他的软弱。愤怒和生气是我们维护边界的有力武器。如何在反击中掌握度,既表达愤怒又适时收手,让位于宽容大度,那是下一篇文章的故事了。

声明:本站内容与配图部分转载于网络,我们不做任何商业用途,由于部分内容无法与原作者取得联系,如有侵权请联系我们删除,联系方式请点击【侵权删稿】。

最新测试

  • 冥想思维反刍EPDS情商测试亲密关系叛逆绿帽情节MBTI恐惧症控制情绪治疗师社交恐惧症心理学安全感自闭症双相情感障碍男人心理反社会人格心理咨询九型人格洁癖抑郁症测试智力测试情绪管理悲观主义回避型人格