法治研究 宪政 行政 廉政 司法 法院 检察 监察 公安 理论
社会经济 社会 经济 国土 环保 文教 医药 养老 三农 民法
律政普法 律政 评论 话题 访谈 普法 案件 公益 资讯 维权

纪念纳什?先花半小时,我们让你感受博弈论

发布时间:2015-05-25      来源: 政 见    点击:

编者按:

纽约时间周六下午 4 点半,约翰·纳什在纽约州新泽西一场车祸中去世,享年 86 岁,与他同时遭遇不幸的还有他的妻子艾丽西亚。一位传奇的思想巨匠以这种意外方式离世,令人扼腕。

 

纳什最为人所知的贡献领域是在博弈论,纳什并不是博弈论的开创者,但他对非合作博弈的开创性研究引发了博弈论的大发展,为各个社科领域研究提供了强大的方法论,“纳什均衡” 是博弈中最基础的均衡概念。此外,作为数学家的纳什在数学理论上也贡献卓著,他的开创性研究包括微分几何和偏微分方程。

 

纳什之所以变成家喻户晓的人物,则是那部奥斯卡获奖影片《美丽心灵》和他传奇的人生经历,他在深受十多年思觉失调症折磨之后恢复,与妻子在离婚后近四十年又破镜重圆。

 

本期政见推送观察员王韬一篇通俗介绍博弈论的文章,以此纪念这位思想巨匠的逝去。

 

王韬 / 政见观察员

 

前言:两年间上过不少课,博弈论对我启发最大,学了两学期,用了两学期。本文是去年夏天在一个微信群里的演讲。理论博大精深,我讲只是贻笑大方,之所以写这个东西,一来为整理自己思路,二是给零基础的朋友快速扫盲。半小时学博弈论,你可以试试。

 

 

大家好,今天我们来聊聊博弈论。提到博弈论,最多的人的第一反应是约翰纳什,不仅因为他是诺奖,更因为那部经典的电影《美丽心灵》。所以不知不觉间,大家把纳什当成了博弈论的代名词。

 

但事实上,纳什不是开拓博弈论的先驱,在他之前的很多经济学家都已经开始研究。纳什的贡献,只是在数学上证明了混合策略均衡的存在。这个我在后面会会讲到。

 

提到博弈论,另一个最多的反应是 “囚徒困境”,这个几乎每个人都知道,这是最简单的一个博弈模型。两个人合作收益最大,背叛一方收益更大,彼此背叛收益最小,在囚徒困境中,所谓的纳什均衡就是两个人彼此背叛。

 

这样一个结果是次优的,却是均衡的。生活中有很多情景都符合这一特征。囚徒困境也被视为人类合作失败的一种体现。

 

除了囚徒困境,还有其他经典的合作困境:搭便车和公共地悲剧。这些此处按下不表。

 

那么博弈在这个最简单的情景之外还包括什么更复杂的情形?这是今天我今天讨论的问题。希望我的讲解,能让之前对博弈论不够了解的朋友对博弈论的整体思维框架有个把握。

 

什么样的情景构成一个博弈?首先,是一个互动过程。至少有两方参与。其次,最为关键的是,一方的行为对另一方的行为的收益会产生影响。你如何做,对我如何做有影响。在面对你的不同行为选择时,我就或许有不同的应对策略。

 

不通人情的经济学家会把人际交往中的很多例子都看成一个博弈。比如谈恋爱,事实上一场理性算计的交易不是爱情,但是你如果把人类理性靠量下交易的那部分提取出来,是可以 model 的。有本书叫做《简奥丝汀:博弈论学家》的书,大家感兴趣可以去看看。

 

一个博弈从简单到复杂是通过两个纬度进行的。一个纬度是从静态到动态,简单说,就是一次性买卖,变成你来我往的多次交往。

 

另一个纬度,是从信息完全变为信息不完全。两个纬度,四个象限,就是博弈论模型不断复杂、不断接近真实世界互动的过程。

 

大家看下图就一目了然。

1. 静态完全信息博弈

 

首先,来看单次完全信息的博弈。

 

最简单的是完全信息下的一次博弈,什么意思?就是咱俩都同时行动,行动结束,游戏结束了。上面所说的简单的囚徒困境就是一次博弈。在这样的情景下,产生的均衡就是纳什均衡。

 

最简单的情形是只有一个均衡。说白了,就是我知道你的最好策略是什么,你也知道我的最好策略是什么,你知道我知道你的最好策略。反之亦然。

 

在囚徒困境的例子里,我知道对方肯定会背叛我,因为这样对他最好,那么我也只能背叛。不存在合谋,没有提前商量的空间,各选各的。

 

也有可能有多个均衡。举个例子,我俩都喜欢吃豆浆搭配油条,牛奶配面包,但是我更喜欢豆浆油条,你更喜欢牛奶面包。你去买油条和面包,我去买牛奶和豆浆,每人各买各的,不沟通,只买一样儿。

 

这种情况下,无论最终买回来的是豆浆油条,还是牛奶面包,都是均衡。因为,无论是你还是我,单方面都不可能做得比现在更好。这就是均衡的意义。

 

但是在有些情况下,我们没有绝对占优的策略。

 

最近世界杯,咱们就举个射点球的例子。射门的人是射左面还是射右面呢?没有哪个更好,我只希望射门方向与门将扑球的方向相反。而门将所追求的,则是相同。

 

博弈论学家说了,这叫做没有纯策略均衡,只有混合策略均衡。也就是说,我们最终只会以一定的概率去踢左边,一定的概率踢中间,一定的概率踢右边,而门将也会有一定的概率扑左边,一定概率不动,一定的概率扑右边。按照这种概率分布,存在均衡。

 

证明任何博弈存在这样一个混合策略均衡,就是纳什的贡献。

 

2. 动态完全信息博弈

 

讲完了纳什均衡,咱们来让博弈更复杂一些。按照时间的纬度上往前推一小步,一个单次的博弈会变成一个多次的互动过程。

 

这种拓展有两种情况,一种是重复的博弈。就是说一个博弈重复地进行。很多人知道,在重复的博弈中,囚徒困境就可能得到解决,两个人开始合作了。

 

有个策略让这种合作成为可能,叫作 “一触即发” 策略。就是说,你合作我就跟你合作,你要是敢背叛我,我也让你不得好死,大不了一起死。这样的策略让合作可能。

 

另一种时间的拓展,不是单纯的重复单次博弈,而是一个不断延展的博弈,单次博弈是两个人同时行动,但是在延展博弈中,你先来一下,我再来一下,然后你再来,跟下棋一样。

 

在这样的博弈里,有简单的纳什均衡,你可以从最终的结果找到符合纳什均衡的解。但是,有些纳什均衡实际上不会产生。你做了什么决定了我在这一步能做什么。这样的均衡将那些实际上已经被排除掉的真实情况考虑在内了。所以,需要新的均衡概念。

 

每一次轮到自己走的时候,我们前面已经有别人的行动,已经是事实了。我们就要相机行事。我们所要做的,是去看,在此时此刻,给定之前的行为,我们能做到的最好是什么。也许在上一步做了另一个行为会让我们更好,但是我们没法改变事实。我们能做的,就是看眼下,我能做到的最好。

 

寻找这样博弈的均衡,就是从最后一步开始,逐步往前推,一直推到开始。因为是完全信息的,双方彼此仍然能知道在每一步对放会最优的策略是什么。

 

3. 静态非完全信息博弈

 

上述是对时间维度上的拓展。那么从简单的一次完全信息博弈变为不完全信息,则是另一种情况。在这种情况下,我们对对方的一些信息是不了解的。比如,它的收益函数,或者说它的偏好。

 

在这种情况下,我们无法预知对方在给定行为下的最好的策略,那么我们只能赋予对方采取不同策略概率,然后,根据这个概率估计选择自己的策略。

 

还拿射点球为例子。

 

对于门将而言,他不知道射门者的偏好,而只是对这个偏好进行一个估计。如果是右撇子,他会估计说这个球员踢向门左侧的策略会大一些。那么,根据这一估计,他会以更大的概率按照这个方向去扑球。但是,射门的人完全有可能踢向另一个方向。

 

另外一个例子,就是出价买东西。买方喊出一个买价的时候,是不知道卖家心目中的合适价格的,怕喊高了,同样的道理,要是卖价喊价,也有可能喊低了。这样的博弈都是非完全信息的博弈。

 

事实上,在真实的世界中,大部分博弈是非完全信息的。完全信息下世界是很美好的,非完全信息下,问题就变得复杂。要是我知道姑娘喜欢我,姑娘知道我知道她喜欢我,这世上寻找真爱的效率要提高多少?

 

4. 非完全信息的动态博弈

 

把时间上的复杂性和信息不对称都考虑在内,就是博弈论中较为复杂的情况,也是经济学家研究最多的领域。

 

在信息不对称的情况下,我们会很自然地想到,通过某种方式传递信息。这里假设是我们无法直接告诉对方,或是不想告诉,刻意想迷惑对方。那么,在动态的博弈中,这样的信息传递就是有可能的。

 

这就是博弈论中最为经典的 “信号博弈”,Signaling game,斯宾塞(Michiel Spence) 是最早的发明者,1971 年的论文。2001 年跟斯蒂格利茨、耶伦丈夫阿克洛夫获得了诺奖。

 

Signaling 可以很复杂,我在此试着概括一下。博弈双方,一方对另一方的某一特性不了解,不知道它是什么类型,但是呢,我可以通过它发出的信号去推断它的类型。

 

比如择偶的例子中,一个女孩选择对象,当她无法确认追求者是否真正钟情于她时,她就需要通过追求者发出的信号来判断。因为在证明真爱方面,一句我爱你是没有作用的,所以需要其他行动。

 

发出信号是要有成本的,证明真爱,就要发出对你足够的有成本的信号,以凸显出你和别人不一样。在这样的博弈中,均衡是怎样的呢?两种情况。

 

一种是,那些强烈爱的人和那些温和爱的人竞相花费成本证明真爱,最终,停到某一时刻,那些温和爱的人发现,再不值得投入了,这时候爱的足够深的人就胜出了。这叫做 “分离均衡”。

 

一种是,到最后,两种人也没完全区分出来,一些爱的不那么深的人也混在真爱中,继续花费成本发送信号对谁都不再值得。姑娘索性选一个人嫁了得了。这叫做混同均衡。大家发现,后者,也许往往是现实世界的情况。

 

在这个经典的博弈基础上,经济学家们又研究,那种发送信号没有成本的均衡情况会是怎样。这个叫做 Cheap Talk.

 

最近几年不断有诺奖产生的机制设计领域,是在这个领域基础上的拓展。博弈论是给定人们偏好研究人们互动本身,预测结果。机制设计则是倒过来,研究什么样的机制能够保证达成特定的结果,具体而言,在上面的信号博弈中,就是研究如何让人们诚实地汇报自己的真实情况,而非隐瞒。

 

上面讲了简单博弈变成复杂博弈两个纬度,一个是信息完全变成不完全。一个是从静态单次变成动态多回合。另外,从博弈玩家的人数上也可以从两人变为多人(虽然本质上还是博弈双方)一个非常经典的博弈论模型叫作全局博弈(Global Game)。

 

Global Game 在政治学和经济学中各有一个很经典的应用。前者比如革命的群体协作,你是否揭竿而起不仅取决于你相信政权有多么脆弱,还同时取决于你相信别人是否参与。在经济学上一个很好的例子是银行挤兑,你是否挤兑取决于你相信别人是否会挤兑,以及你相信银行有多少钱。在这个博弈中,主观的因素变得更加重要,而且往往具有自我预言实现的特点,内涵相当精彩。

 

总而言之,博弈论是相当强大的思维工具和方法论。虽然理论可以很复杂,但其内涵却都在日常生活中,理解起来并不困难。要想了解博弈论,我可以推荐几本书。希望通俗易懂,读 Avinash Dixit 和 Barry J. Nalebuff 的 Thinking Strategically: The Competitive Edge in Business, Politics, and Everyday Life 或是 Art of Strategy。如果想比较理论,读谢林的 Micromotives and Macrobehavior,如果是用于经济学研究,读 Robert Gibbons的Game theory for applied economists。

 

当然,也许学习博弈论的最好办法,或许是多谈几场恋爱吧。

 

(完)

 

 

本文转载自公号“清木远的读书笔记”(微信账号“wangtao_cornell” ),作者王韬系政见观察员。



(责任编辑:郑源山)

友情链接: 吉林大学理论法学网  |   中国法学会  |   国家信访局  |   政协全国委员会  |   中国社会科学网  |   京师刑事法治网  |   财政部  |   基层法治研究网  |   中国法院网  |   新华访谈网  |   国务院法制办  |   审计署  |   最高人民法院  |   中国法理网  |   司法部  |   公安部  |   天涯社区法治论坛  |   全国人大网  |   中国政府网  |   中纪委监察部网站  |   新华网  |   刑事法律网  |   最高人民检察院  |  
共建单位:  |    |    |    |    |    |    |    |    |    |    |    |    |    |    |    |    |