博弈最优策略汇总十篇

时间:2023-08-17 17:52:32

博弈最优策略

博弈最优策略篇(1)

公司中只有每个员工都精诚的合作、敬业的工作,才会给公司带来更好的收益、更大的发展,但是在公司的各个管理部门中却经常发现每个人都尽最大努力的在不违犯规章制度的情况下消极怠工甚至偷懒,这个问题是管理者头痛的事情,一般都采取加强监督管理,加大奖惩力度来扼制。笔者通过博弈分析对努力工作困境进行诠释,希望对其分析为管理者提供一个全新的选择管理的方式。

一、相关博弈知识概述

博弈论是针对多个利益主体间的利益冲突和相互决策研究而产生和发展起来的一门学科,用来分析人类的社会行为和管理活动的相互行为。早期出现的系统研究人类策略行为的理论属于Von Neumann和Morgenstcm 1944年的著作《博弈理论与经济行为》,他们的工作开创了博弈理论发展的开端。1950年,纳什给出的均衡概念为现代非合作博弈理论奠定了基础,从而带来了博弈理论在各个领域的广泛应用。

博弈论的前提是理性选择,也就是经济人假设,就是博弈双方行为人的理性假设,它假设博弈人是完全理性的。这是一条非常严格的假设,即符合新古典经济学中完全理性的假设为基础,即假定个人在任何环境中都追求利润、收入或主观收益的最大化。在理性选择的前提下,得到自己选择的各种策略。

1.占优策略

博弈分析的重点是“理性”行为,这意味着,每个参与者都会根据对手的策略选择自己的最优反应。占优策略就是无论对方采取何种策略,其都是最优反应的策略。也就是说,在博弈中,所选择的策略对每个参与者来说都是占优策略。如果出现了占优策略,所有参与者就会选择自已的最优的反应。

2.合作博弈

从数学的角度来看,占优策略均衡是博弈的一个解。对于社会两难性质的博弈中的参与者来说,参与者的合作不一定是占优策略均衡。由于参与者的合作会提高大家的收益,所以我们就把这种合作解称做是该博弈的合作解。合作解未必是占优解。但是这种通过有条件合作而得到的新博弈的合作解,却将社会两难性质的博弈,转变成合作占优博弈了。

二、努力困境

1.员工努力工作困境问题

在公司的员工中,有一群人为了某项任务聚集到一起,并且该任务要依靠每个人付出努力工作才能有效完成时,一种社会两难问题就会产生了。在这一博弈中员工可供选择的策略是“工作”和“偷懒”。在努力困境问题中,如果一个人偷懒,其他的人就要付出更多的努力。公司员工努力工作的收益是丰厚的经济回报,当然,当这个收益与其他人是否努力工作有关。在这个标准式博弈分析中,我们将其他相关条件不予以考虑,如大家均努力工作造成公司利润增高,而给大家个人收益增加,以及因大家消极怠工而造成公司业绩下滑使收益整体减少,还有公司对待努力工作和消极怠工人员实施的一些奖惩等。

2.博弈分析

假设正常工作所得收益为10(收益数值为参考数值,不代表具体数值),博弈的员工假设分别为李先生与张先生。当李先生努力工作时,张先生有两个选择“工作”和“偷懒”,如果张先生选择“工作”,则李先生与张先生共同努力工作,收益相同假设为10;如果张先生选择“偷懒”时,则李先生要完成更多的工作,增加了劳动成本支出,其收益为2,而张先生不劳动,减少了成本开支则获收益20。当李先生选择“偷懒”时,张先生的选择也仍旧可以是两个,即“工作”和“偷懒”,如果张先生选择“工作”,则李先生因为减少劳动成本开支使收益增加为20,而张先生因为增加劳动成本开支收益降为2;如果张先生选择“偷懒”,则李先生与张先生同因为不工作而使收益降为一致的5。

利用以上信息,我们可以得到该博弈的标准式,见表1。

表1中左边表示李先生收益数,右边数字为张先生收益数,从表中可能看出博弈论的重点是“理性”行为,“理性”行为的关键点是个人利益最大化。这就意味着每个参与者都会根据对手的策略,选择自己的最优反应。从这个努力困境博弈中来看对于张先生的策略,李先生最优策略如表2。

通过表2显示,无论张先生选择哪种策略,“偷懒”总是李先生最优选择。现让我们判断一下,对于李先生选定的策略,张先生最优反应是什么?由于这个博弈是对称的,所以,张先生的最优反应与李先生相同,详见表3。同样可以通过表3得出结论,无论李先生选择哪种策略,“偷懒”也总是张先生最优选择。

由以上信息分析,努力困境博弈中的两个参与者决策其实很容易,这是因为“偷懒”是一个占优策略。也就是说,在此博弈中,无论对方采取何种策略,自己最优的反应策略“偷懒”,“偷懒”对于每一个参与者来说都是占优策略。因为每个参与者都有占优策略,所以该博弈也是典型的占优策略均衡。当每个人都选择自己的占优策略时,相应的博弈结果也就是占优策略均衡。在本博弈中,李先生与张先生均选择“偷懒”就是本博弈的占优策略均衡。

3.博弈结论

该博弈中的占优策略均衡为李先生与张先生均选择偷懒,这种占优策略就陷入社会两难。公司需要员工努力工作,通过员工的最大努力工作达到经济等各项收益最大化,即需要员工合作策略才行,而做为个体的员工通过博弈,则选择最优反应却是“偷懒”,也就是非合作策略。在这种情况下,员工的选择必将使公司利益受到极大损害,这时公司制度的约束必将发挥效益,在制度干涉下,员工又不得不走向合作策略,这样就把社会两难性质的努力困境转变成了合作占优的博弈了。

三、管理的新思考

从理论上讲,要想彻底改变员工工作中“偷懒”这一现象,因管理者限于观察手段的不同和观察能力的差异,随着各自特有的不同认识和观察角度,对公司内的员工工作的相同问题会有不同的本质抽象,从而会做出极不相同的判断,制定出不同的决策方案。更重要的是,决策要与利益联系在一起,任何一个决策方案都是一定利益的体现,决策方案及其结果都会与决策者自身的利益发生必然的联系,决策方案的制定,受利益效应的制约。因此,利益导向就是要通过建立有效的激励机制(例如授权、工资奖惩等),以调动决策方案执行者(员工)执行决策方案的积极性和工作热情。具体控制过程的建立需要在调查管理者与执行者的偏好,增加努力困境中合作博弈策略均稀建立激励机制,从而设计管理方式方法,建立一套行之有效的管理机制,减少员工“偷懒”,从而切实使员工在“工作”这一最佳合作博弈策略均衡下努力工作。

参考文献:

[1] Neum ann V, Morgenstem O. Theory of games and economic behaviour [M]. Princeton University Press, Princeton, 1944.

博弈最优策略篇(2)

中图分类号:S-1文献标识码:C文章编号:0439-8114(2011)12-2575-03

Game Analysis of the Best Response Dynamics in Agro-technical Popularization

WU Zhe,LI Jing

(School of Economics, Yangtze University, Jingzhou 434025, Hubei, China)

Abstract: Promoting the development of agricultural technology in china was contributed to improve the standard of living of peasantry, to increase their incomes and to push the development of agriculture in our country. The popularization of agricultural technology through the bounded rationality repeated game approach and the best-response dynamics theory was analyzed. And at last some suggestions for the policy were given.

Key words: mechanization; repeated game approach; best-response dynamics

改革开放以来,我国农业和农村经济取得了较快的发展,正是由于农业经济的发展,使我们对如何发展农业,发展怎样的农业等发面有了新的认知,同时也提出了发展现代农业的要求,本文主要从农业技术推广的辐射效应论述我国现代农业的发展。

1农业发展现状

1.1机械化程度低

我国主要的粮食生产区分布在东北,黄淮海地区以及长江中下游地区。这些地区土地面积占全国总土地面积的22%,2003年耕地面积和总人口分别占全国的约53%、51.8%,粮食播种面积占全国的59%,粮食总产占全国的约61%。其他地区由于经济发展和地形等制约因素,粮食种植面积相对较小[1]。据统计测算,到2007年底我国耕、种、收的综合机械化水平已达到41%,农业劳动力占全社会从业人员比重已降至38%左右。当前我国农业机械化整体水平,只相当于韩国20世纪70年代水平。尽管我国机耕水平接近60%,小麦生产80%实现了机械化,水稻机械收割水平接近34%(2005年数据),但大宗农产品生产总体机械化水平较低,玉米机械收获水平仅有8%,水稻机械插秧水平只有11%,花生、马铃薯机械收获发展刚刚起步,油菜、甘蔗、园艺作物等优势农产品机械化基本空白[2]。

1.2农村劳动力素质偏低

在我国农村转移劳动力中大多数是受教育年限相对较长的中、青年劳动力。据统计,2000年,21~25岁的农村劳动力中有67.2%从事非农业活动,年龄段在26~30岁、31~35岁、36~40岁、41~50岁的农村劳动力从事非农业活动的比例依次为52.5%、47.6%、43.3%、37%。根据《中国农民工问题研究总报告》提供的资料显示,2004年,全国农民工中16~30岁的占61%,31~40岁的占23%,41岁以上的占16%;农民工的平均年龄为28.6岁;初中文化程度的占66%,接受过各种技能培训的占近24%[3]。可以看出,外出农民工平均年龄比较年轻,同时也是农村劳动力中受教育程度比较高的群体。虽然我国农村有大量的剩余劳动力,由于受教育程度较高的中、青年劳动力外出务工,农村只剩下老幼妇孺,必将会对农村经济的发展造成影响。由于留守农民的文化水平不高,致使他们习惯于其所掌握的落后生产方式,对外界的新事物缺乏兴趣,对信息、新技术的认识能力、消化能力都不高。这就使得许多新知识、新成果、新技术难以在农民的生产活动中得到应用和推广,导致农业科技成果转化率低。同时,农民不太了解市场经济运作的规律,不能及时捕捉经济信息从而做出合理的经济决策,造成很多农产品不能通畅销售,达不到提高农民收入的目的。农村留守农民文化素质偏低是农业科学技术推广难的主要因素。

农业技术近年来在我国农业发展过程中发展较快,但相对于日益增长的工业化进程,农村技术推广仍然存在障碍。农业技术能否快速有效的扩展直接关系到我国农业的发展和农民的生活水平。

2博弈分析

最优反应动态(Best-response dynamics)是进化博弈理论中典型的动态机制之一.该机制适用于少数有快速学习能力的有限理性博弈方之间的重复博弈和策略进化[4]。在此机制下,认为博弈方虽然缺乏在复杂局面下准确判断和全面预见的能力,但是具有较快的学习能力。在一次博弈结束之后,博弈方会对本期结果进行分析、总结,对不同策略的结果做出比较正确的事后评估并相应调整策略[5]。

2.1基本模型

首先,假设我国各地村庄作为行为主体,他们具有相当快的学习和一定的分析能力,同时又是有限理性的,这样的假设与实际情况是比较吻合的。所以,采用具有快速学习能力的有限理性博弈方之间的重复博弈模型。假设图l中得的矩阵为各村庄之间的博弈。每个博弈方都有两种策略选择:采用新技术(设为A策略);不采用新技术(设为B策略)。当博弈双方都采用A策略时,双方的得益都为α;当博弈双方都采用B策略时,双方的得益都为β;当双方采用的策略互不相同时,采用A策略的一方由于采用新技术将付出一定的代价(如资源共享、要素流动等)γ,其得益为β-γ;采用B策略一方由于搭便车等行为则从对方获得了额外好处)γ,其得益为β+γ。其中,α-β>>γ。

从得益矩阵可以看出,得益矩阵表示的双方博弈,又称为“协调博弈”,有两个纯策略纳什均衡(A,A)、(B,B),其中(A,A)是帕累托上策均衡。但是,如果考虑了博弈方相互对对方理性的信任问题,或者对风险的敏感性等因素,那么均衡(B,B)则更可能出现。

2.2最优反应动态

下面开始分析,随着时间的推移,各地村庄采用新技术与否的博弈策略给我国农业带来的不同影响。假设各村庄两两之间进行上述博弈。由于各方都是有限理性的,但又具有快速的学习能力,他们能对上一期的博弈结果进行总结,并立刻做出相应的策略调整,以使当期能够实现收益最大化。同时假设各村庄之间的交往具有重叠交互作用的特征,即同一村庄可以同时与不同的村庄进行博弈。

假设我国各村庄都处于一个圆周之上,每个村庄都与各自的左右邻居进行重复博弈。我们下面将按照从特殊到一般的思路,来讨论圆周博弈中的最优反应动态。

2.2.1考察5个村庄分布处于圆周上5个不同位置的情况我们假设有5个村庄分别处于圆周上的5个不同位置(图2),每个位置的博弈方可能采取A策略,也可能采取B策略。所以,初次博弈共有32种可能的情况,其中包括一种全部采用A策略,一种全部采用B策略的情况,其他都是两种策略均有人使用。

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

我们假设xi(t)为在t时期,博弈方i的邻居中采用A策略邻居的数量,该数量有0、l、2可能值。相应地,采用B策略邻居的数量为2-xi(t),也有0、1、2可能值。针对第t期的xi(t),博弈方采用A策略的得益为α×xi(t)+(β-γ)×[2-xi(t)],采用B策略的得益为(β+γ)xi(t)+β×[2-xi(t)]。根据最优反应动态机制,当

α×xi(t)+(β-γ)×[2-xi(t)]>(β+γ)xi(t)+β×[2-xi(t)]

即xi(t)>2γ/(α-β)时,博弈方i在t+1时期会采用B策略。

已知α-β>>γ,则2γ/(α-β)<1由于xi(t)只能取0、l、2整数,在实际上,如果在t时期博弈方i的两个邻居中只要有1个采用A策略,那么博弈方i在t+1时期就会采用A策略;如果两个邻居都没有采用A策略,那么博弈方i在t+1时期就会采用B策略。由此可以得出,当5个博弈方初次全部采用A策略(B策略)时,最终的稳定状态为所有博弈方都采用A策略(B策略);如果在初次博弈中有1个博弈方采用了A策略,而其他博弈方都采用B策略的时候,那么这5个博弈方经过4个时期的反复策略调整,最终收敛到了所有博弈方都采用A策略的稳定状态。图2给出了初次博弈只有一方采用A策略的最优反应动态过程。

2.2.2考察有6个村庄分布处于圆周上6个不同位置的情况如果在初始博弈中,有1个博弈方采用了A策略,而其他博弈方都采用B策略。按照同样的推理,可以得出,最优反应动态并没有使6个博弈方最终收敛于全部使用A策略的稳定状态,而是在(B,A,B,A,B,A)和(A,B,A,B,A,B)之间周期变动。也就是说明,每个博弈方都会在A策略和B策略中徘徊不定。如果在初次博弈中,有相邻的两个博弈方都使用了A策略,其他博弈方仍然使用B策略。那么,最优反应动态可以使得所有博弈方最终都收敛于全部使用A策略的稳定状态。如果在初始博弈中,有不相邻的两个博弈方采用了A策略(此两方之间存在另一个采用B策略的博弈方),而其他博弈方采用B策略,最优反应动态也不能使所有博弈方都收敛到全部使用A策略的稳定状态,而是又陷入了(B,A,B,A,B,A)和(A,B,A,B,A,B)之间的周期变动,与第一种情形(只有1个博弈方采用了A策略)的结果相同。如果在初始博弈中,有不相邻的两个博弈方采用了A策略(此两方之间存在另外两个采用B策略的博弈方),而其他博弈方采用B策略,各个博弈方通过反复调整策略,其间会出现相邻的两个博弈方同时采用A策略的情形,这种情形与上文的第二种情形本质上是相同的。所以,最优反应动态最终使所有的博弈方收敛于全部采用A策略的稳定状态。

通过以上对特定奇偶数量的博弈方的分析,我们不难推广到一般的情况,即存在n个村庄处于圆周上的n个不同位置,可以得出下列命题。

命题1:当所有n个博弈方在初次博弈中都采用A策略(B策略)时,最终的稳定状态则为所有的博弈方都采用A策略(B策略)。

命题2:当n为奇数时.在初次博弈中,如果有一个博弈方采用了A策略,其他博弈方采用B策略,那么各个博弈方经过多个时期的反复调整政策,最终能够收敛于所有博弈方全部采用A策略的稳定状态。

命题3:当n为偶数时.如果在初次博弈中,有一个博弈方采用了A策略,其他博弈方采用B策略,那么,最优反应动态无法使所有博弈方收敛于稳定状态,各博弈方对策略的调整只能陷入周期变动。

命题4:当存在n个博弈方时,如果我们通过安排博弈方在初次博弈中的策略,使得在重复博弈到达某一期时,出现相邻的两个博弈方同时采用了A策略。那么,经过之后的有限多次博弈,最优反应动态将最终使得所有博弈方收敛于全部采用A策略的稳定状态。

2.3结果分析

通过以上的分析可知,最优反应动态是否能够使得所有博弈方都收敛于采用A策略的稳定状态,主要取决于各个博弈方在初次博弈中的策略分布,此外,还与博弈方在得益矩阵中得益大小有关。

2.3.1关于各个博弈方在初次博弈中的策略分布根据命题4可知,如果某种策略的初始分布使得重复博弈在将来某一期中出现相邻的两个博弈方同时采用A策略,则最优反应动态最终会使所有博弈方达到全部采取A策略稳定状态。因此,要求各村庄在采用新技术的同时提升自身的素质和文化修养。

2.3.2关于各个博弈方在得益矩阵中的得益大小根据博弈模型可知,当xi(t)>2γ/(α-β)时,博弈方i在t+1时期会采用B策略。由于我们假设(α-β)>>γ,故2γ/(α-β)<1,即只要在时期博弈方i的两个邻居中只要有1个采用A策略,那么他在t+1时期就会采用A策略。若要保证(α-β)>>γ,必须使得我国农村中各村庄采用新技术的得益远大于不采用新技术的得益。同时,还须使得各村庄采用新技术的成本γ尽可能小[6]。

3结论

通过以上的博弈分析可知,我国农民是否采用新技术取决于不同的因素,由不同的演化路径,可以产生不同的结果。首先各地政府要根据各自地域的差异,采用不同的技术及推广机制,做到因地制宜。其次,政府应加大在农村的资金投入及农业科技人才的引进。最后,各地方政府应加大对农民的农业技术培训,使其掌握先进的农业技术,增加农民的收入。同时,还应加强各村庄之间技术信息的交流,加强合作。

参考文献:

[1] 杨进华.安徽省基层农业技术推广体系改革的思考与建议[J].安徽农学通报,2007,13(12):10-11.

[2] 高启杰,谢建华. 关于基层农业技术推广体系发展与改革的思考[J].调研世界,2005,16(12):13-14.

[3] 孙中才.农业与经济增长[M].北京:气象出版社,1995.

[4] 罗伯特・D・史蒂文斯.农业发展原理――经济理论和实证[M].南京:东南大学出版社,1992.

[5] 吕健,余政.文化生产力发展:一个进化博弈的视角[J].世界经济情况,2008,10(10):8-9.

博弈最优策略篇(3)

文章编号:ISSN1006―656X(2013)12-0043-01

一、博弈论的概述

博弈论(game theory),又称对策论,是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题,也就是一些个人或组织,面对特定的环境条件,在一定的规则约束下,同时或先后,一次或多次,从各自的行为或策略中进行选择并加以实施,各自取得相应结果的过程。

一个完整的博弈一般包含几个要素:参与者,行动,策略,结果,均衡等。参与者、行动和结果统称为博弈规则,博弈分析的目的是使用博弈规则来决定均衡。但是,博弈的行动不等同于博弈的策略,博弈的结果不等同于博弈的均衡。根据参与人的数量,可分为二人博弈和多人博弈;根据参与人是否合作,可分为合作博弈和非合作博弈;根据博弈结果的不同,可分为零和博弈、常和博弈和变和博弈。

博弈论对我们的经济生活有重要意义,人们之间决策行为相互影响的例子有很多:从国家角度出发,在国际贸易中合理运用博弈论可使本国和其他国家都受益,取得双赢效果;从个人角度出发,在生活中合理运用博弈论可使自己选择最优策略,减少不必要的成本开支。

二、非合作博弈――纳什均衡

非合作博弈是指不允许存在有约束力协议的博弈。完全信息静态博弈属于非合作博弈,该博弈中,每个博弈方的策略都是针对其他博弈方策略或策略组合的最佳对策,具有这种性质的策略组合,正是非合作博弈理论中最重要的一个概念“纳什均衡”。

用表示一个博弈,如果有个博弈方,每个博弈方的全部可选策略的集合称为“策略空间”,用表示;表示博弈方的第个策略,其中可取有限个值(有限策略博弈),也可取无限个值(无限策略博弈);博弈方的得益用表示,是各博弈方策略的多元函数。个博弈方的博弈常写成。在博弈中,如果由各个博弈方的每一个策略组成的某个策略组合中,任一博弈方的策略,都是对其余博弈方策略组合的最佳对策,即

,对任意都成立,则称为的一个“纳什均衡”。

纳什均衡的求解,常采用得益矩阵法。在囚徒困境中,每个参与者都能猜出对方策略,称该纳什均衡为纯策略纳什均衡。囚徒困境问题反映了非合作博弈的根本特征,体现了个人理性与集体理性的矛盾。两寡头企业选择产量的博弈就是囚徒困境问题在经济学上的应用。若两企业联合形成卡特尔,选择垄断利润最大化的产量,每个企业都能得到更多利润。但卡特尔协定不是纳什均衡,给定对方遵守协议,每个企业都有增加产量的冲动,最后每个企业只能得到纳什均衡产量的利润,它严格小于卡特尔产量下的利润。

在某类博弈中,每个理性人都不能猜出对方的策略,参与人是以一定的概率选择某种策略的,这样的策略称为混合策略,相应的均衡称为混合策略纳什均衡。纯策略是混合策略的特例。相关的例子有日常生活中的打扑克、划拳等。

三、治理河流污水排放的制度设计

环境保护,人人有责,限制企业的污水排放符合社会各界的呼声。检查和制止排污是政府的职责,对于以利润最大化为目标的企业,其一直采取各种措施尽可能降低生产成本。政府和企业间的关系可用经济学中的监督博弈来解释。

该博弈的参与者是政府和企业,政府的策略选择是检查或不检查,企业的策略选择是排污或不排污。假设是企业治理污水(不排污)增加的生产成本,若排污,为自己多得的收益。是政府检查所需成本。是政府对企业排污的罚款金额。是企业排污对社会利益的损害。假设且,即政府对排污企业采取重罚措施。对应不同策略组合的得益矩阵可见下表。

政府和企业的得益矩阵

在以上假设条件下,政府和企业都猜不出对方会采取何种策略,因而不存在纯策略纳什均衡,只能求解混合策略纳什均衡。如果假定条件不成立,通过劣策略剔除可得到占优策略,即(检查,不排污)或(不检查,排污)为占优均衡。

在得益矩阵中,用表示政府检查的概率,表示企业排污的概率。给定,政府检查和不检查的期望收益分别为:

由,得。即如果企业排污概率小于,政府的最优选择是不检查;如果大于,政府的最优选择是检查;如果等于,政府随机地选择检查或不检查。

政府的最终目标是降低企业排污概率并保护环境。据的结果,有两种措施:一是增大分母,即采取重罚措施,使企业平日不敢排污;二是减小分子,即降低检查成本。现阶段可行做法是设立举报电话,避免政府盲目检查,提高办事效率。

再者,给定,企业选择排污和不排污的期望收益分别为:

由得,即如果政府的检查概率小于,企业的最优选择是排污。现实中,政府对排污的惩罚越重,企业因排污获得的收益越低,企业的排污概率就越小。反之,企业的排污概率就越大。

企业因排污获得收益的大小,政府难以准确把握。前面谈到的企业都是以利润最大化为目标的企业,适于民营企业。现实中大多排污者是国有企业,这就涉及企业经营的控制权收益问题。企业因排污获得的生产成本降低部分可以很容易转化为企业经营者的控制权收益,这些收益包括奖金、福利或者因企业效益上升而带来的升迁机会。反过来,如果企业因为排污而受罚,经营者并没有控制权损失,因为罚款由企业出,经营者只是没有控制权收益而已。

四、小结

本文以纳什均衡为理论基础,分析了纯策略纳什均衡和混合策略纳什均衡在经济生活中的应用。但本文探讨的只是博弈论中一个很小的方面,对均衡问题中的子博弈精炼纳什均衡等没有涉及到,但它们的应用也很广泛。在日常经济生活中,小到购物时的讨价还价,大到企业间的竞争与合作、国家间的倾销与反倾销等,都可归结为博弈问题。

博弈最优策略篇(4)

(一)博弈论的名称

博弈论,英文名称为Game theory是研究各方策略相互影响的条件下,理性决策人的决策行为的一种理论。博弈论刚被介绍至我国时,曾有过多种译法。有的学者根据其英文名称,直译为游戏理论;有的学者则从该理论本身的研究对象出发,转译为对策论或对策运筹论。近年来,学术界越来越多地接受了博弈论这一名称。这除了由于博弈这个带有文言味的词本身的学究气浓郁而给人的第一印象较为深刻外,更重要的是博弈一词能更准确、全面地体现策略选择、依策而动以及最终结果三者的统一。

(二)博弈的要素

一个完整的博弈应包含如下四项要素:1,博弈的参加者(player)。也称局中人或博弈方。是指博弈中能独立决策、独立行动并承担决策结果的个人或组织。小到一个人,大到一个跨国公司乃至一个国家,只要能独立决策和行动,都可视作一个博弈方。比如柯达与富士公司的竞争,就可看作一个有二个博弈方的博弈。一般说来, 博弈的参加者越多,情况就越复杂,结果越难预料。2,策略空间(strategy space)。是指各博弈方可选择策略的集合。strategy直译应为战略,不过战略一词对大多数博弈来讲显然过于抽象和宽泛了。每一个策略都对应一个相应的结果。因此每个博弈方可选的策略数量越多,博弈就越复杂。3,进行博弈的次序(the order of play)。博弈中各博弈方行动的顺序对于博弈的结果是非常重要的。同样的博弈方、同样的策略空间,先后决策并行动和同时决策行动,其结果是大相径庭的。 4,博弈的信息(information)。知己知彼、百战不殆。可见信息对博弈的重要性古人早已知之。博弈中最重要的信息是有关对手策略以及各博弈方得益的信息。例如,在各博弈方同时决策的博弈中,必须保证不能让对手知道自己采取何种策略,否则自己将永远是博弈的输家。得益(play off),也称支付,是指博弈方策略实施后的结果。有关得益的信息是促使某博弈方选择某种策略的关键参考值。理性的博弈方总是选择能使自己获得最大得益的策略。一旦确定了以上四要素,一个博弈也就随之确定了。值得注意的是,博弈论特别强调“理性人”的前提假定,即参加博弈的各博弈方始终以自身利益最大化为惟一目标。除非为了实现自身最大利益的需要,否则不会考虑其他博弈方或社会利益。

(三)博弈论的结构

由于一个完整的博弈需具备上述四要素,因此博弈可以从不同的角度划分成不同类别:1,按博弈方划分,可分为单人博弈和多人博弈。单人博弈因为只有一个博弈方,所以它已退化为一般的最优化问题。经济学中常见的求最优问题,实际上是博弈的特例。多个博弈方的博弈较单人博弈复杂,而且两人以上的博弈会出现合作博弈问题。这样,多方博弈又将分为合作博弈与非合作博弈。因为在社会与经济关系中,竞争与不合作是基本方面。所以当前的博弈论主要研究的是非合作博弈。1994年诺贝尔经济学奖三位得主的主要贡献,即在非合作博弈方面。2,按策略空间划分,可分为有限策略博弈和无限策略博弈。因为每一种策略都相应地对应一个得益结果,所以从理论上讲,有限策略博弈的结果必然是有限的,而无限策略博弈的结果则有无穷多种可能。3,按进行博弈的次序划分,可分为静态博弈和动态博弈。各博弈方可同时决策并行动的博弈称为静态博弈。当然,严格讲各博弈方在非常精确的同一时点同时决策是不可能的。因此,同时决策是指可近似地看作同时作决定的过程,如乒乓球团体赛的出场顺序,虽双方决策可能有早有晚,但一旦敲定便谁也不许变更,因而可看作同时决策。各博弈方不是同时决策,而是先后、依次决策、行动的博弈叫动态博弈。弈棋就是一种典型的动态博弈,双方的每一步都将取决于前面的情势。4,按信息划分,如按得益信息分类,可分为完全信息博弈与不完全信息博弈。完全(complete)信息,是指各方对自己每种策略的得益情况完全清楚,否则是不完全信息;在动态博弈中,如按博弈进程信息分类,可分为完美信息动态博弈与不完美信息动态博弈。完美(perfect)信息,是指博弈方在决策前对其他博弈方的行为完全了解,否则是不完美信息。5,按得益情况划分,可分为零和博弈、常和博弈和变和博弈。一方收益必来自另一方的损失,这样的博弈叫零和博弈,零和博弈的博弈方始终是对立关系;各方都会有收益,但收益总和是一固定常数,这样的博弈为常和博弈;各方不同的策略组合会有不同的收益,这样的博弈称变和博弈。显然,零和博弈是常和博弈的特例,常和博弈是变和博弈的特例。6,综合分类。综合分类是将博弈次序与博弈信息结合起来的一种分类方法。按这两个标准,可将博弈分为:完全信息静态博弈、不完全信息静态博弈、完全且完美信息动态博弈、不完全但完美信息动态博弈、完全不完美信息动态博弈以及不完全不完美信息动态博弈。这种分类方式有助于针对不同特性的博弈进行研究和求解。

博弈论 (Game Theory),是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题。因此,博弈论又称为“对策论”,也就是说当一个主体,比如一个人或一个企业的选择受到其他人、其他企业选择的影响,而且反过来影响到其他的人、其他企业的决策问题和均衡问题。正是在这个意义上,博弈理论又译为“决策理论”。博弈论创立于20世纪40年代,到50年代博弈论的研究达到了顶峰。博弈论研究的决策不仅包括经济学领域,而妾包括政治学、军事、外交、国际关系、公共选择等各个领域,因而博弈论又被称之为方法论。本文拟将这种方法引入到反垄断法领域,具体分析反垄断法规则的制定过程。

二、反垄断法的博弈分析

博弈最优策略篇(5)

中图分类号:F83 文献标识码:A

一、融资难现状及原因

(一)融资渠道狭窄,融资方式单一。民营中小企业发展主要依靠内源融资渠道。据调查,中国民营企业的融资,无论是初创时期还是发展时期,都严重依赖自我融资渠道,即主要依靠创业者的熟人关系的民间融资,通过银行等正规金融机构的融资比例很小。调查还显示,80%左右的民营企业认为融资困难已严重阻碍了他们的发展,民营经济初创时的启动资金有90%以上主要来自资金持有者、当初的合伙人以及他们的家庭来解决。即使在企业成长期,至少60%的资金依靠业主资金或保留盈余来解决。当资金紧张需要外源融资时,90%以上的企业选择了金融机构贷款这一间接融资渠道,直接融资所占比重较小。此外,民营中小企业获得国际贷款的可能性也微乎其微。融资方式的单一化,使民营中小企业融资回旋余地极小。

(二)自有资金缺乏。中小企业一般自有资本和自有积累比较少,一般情况不足30%。企业内源融资匮乏,扩大再生产和简单再生产所需资金主要都依靠外源融资,特别是负债融资。这不仅使企业融资成本过高,债务负担过重,而且使企业自我积累的融资机制难以形成,企业抵御风险的能力极为乏弱。

(三)银行贷款难上加难。中小企业的贷款,目前主要依赖于国有商业银行,因为现有的民间小银行提供的贷款无论从数额上,还是从期限上,都难以满足中小企业的要求。然而,从其性质来讲,国有商业银行是国家的大型金融机构,主要服务于国有大型企业。首先,他们希望能够包揽数量比较大的业务,因而对小额贷款不屑一顾;其次,银行经营的原则之一是尽量减少呆账、坏账,而中小企业市场风险大,企业倒闭率高,财务制度不健全,资信状况堪忧,缺乏足额的财产抵押,又无人担保,银行考虑到安全性因素,必然对中小企业惜贷、惧贷。

二、融资过程中银行和企业之间的博弈分析

(一)完全信息下的银企静态博弈。银行与企业作为两个不同的利益主体,在借贷行为中的决策和利益相互影响、相互作用的关系正是博弈关系的具体体现,而且目前我国商业银行与企业之间的关系是纯粹的借贷关系模式,因此决定了我国借贷行为中银行与企业的利益关系实际上是一种博弈关系。在研究银企关系的过程中,可以应用完全信息静态博弈。假设银行和企业在双方博弈的过程中,博弈方对每个参与人可能选择的策略及其相应得益都完全了解。在银企博弈的对局中,假设企业的策略为还贷和不还贷;银行的策略为放贷和不放贷。k为贷款额,r为银行贷款利率,R为企业贷款后的经营利润率。如果企业还贷,银行放贷,则双方都获益,假设银行获利rk,企业获利Rk;如果企业还贷,银行不放贷,企业利益受损,设为-Rk,银行无利,设为0;如果企业不还贷,银行放贷,则企业获利,设为R1k,由于企业除了正常的获利,还因为拖欠银行的贷款而另外获利,因此可认为R1>R,银行利益受损设为-rk;企业不还贷,银行不放贷,则企业和银行都无利,均为0。这样,我们可以得到银行和企业的支付矩阵。如在表1这个支付矩阵中,我们可以利用划线法得到唯一的一个纳什均衡,即(0,0)。也就是说,企业不还贷,银行不放贷是企业和银行的最优策略。在这个博弈关系中我们看到,不管银行采取什么策略,企业的最优策略都是不还贷。由于在完全信息静态博弈的条件下,银行对企业的策略组合及损益得失的函数都有完全的了解,而且银企博弈是同时选择行动且只选择一次,因此银行最优策略是不放贷。(表1)

这样形成的纳什均衡,在特定条件下形成的一种没有经济效率的利益均衡,对内对外都存在不经济。而且银行和企业在此均衡中都无任何利益而言。所以,这是一种不稳定的均衡,有效的制度创新能打破这种均衡,从而可以增进银行、企业的效率以及社会的效率。

(二)完全信息下银企动态博弈。完全信息条件下的银企动态博弈过程可以用博弈树来表示,如图1所示。(图1)最上方的空心圆圈表示银行的选择节点,银行在此处可以选择的策略是放贷或者不贷。如果银行选择不放贷,则博弈结束;如果银行选择贷款,则博弈进行下去。第二个空心圆圈表示企业选择的信息集,企业在此处可以选择还贷或者不还贷,企业选择还贷,银企双方则皆大欢喜;企业选择不还贷,银行则血本无归。第三个空心圆圈表示银行选择的信息集,在此处银行的选择策略是回收或者不回收。回收是银行的法律手段,通过打官司来收回贷款,在有法律保障的情况下,银行可以收回贷款;在法律保障不足的情况下,银行不能收回贷款。不回收是对企业的不还贷行为不进行法律诉讼、不打官司。

又如,图2中的四个终端处黑点的数组,表示由博弈方各阶段行为依次构成的,到达这些终端的“路径”所实现的各博弈方支付,其中第一个数字是银行的支付,第二个数字是企业的支付。假设银行提供的贷款额为z,贷款利率为i。如果不贷款给企业,则将资金z用于低风险投资(如国债),并获得利润rz,并假设rc2为简化模型,假定c1=2,c2=1。企业还贷时,他的支付是θ-iz,银行的支付是iz。为简化分析,假设存在如下数量关系:θ=2,iz=1,rz=0.8。根据子博弈精练纳什均衡的定义,通过运用逆推归纳法,可以求解上述银企动态博弈中的子博弈精练纳什均衡。在上述三阶段银企博弈过程中,银企双方的策略组合:银行第一阶段选择‘放贷’,第三阶段选择‘回收’;企业第二阶段选择‘还贷’,虽然是整个博弈的一个纳什均衡,但是这个策略组合中银行的策略要求银行在第三阶段的子博弈中选择的‘回收’,不是这个子博弈的一个纳什均衡。因此,根据子博弈精练纳什均衡的定义判断,这个策略组合确实不是一个子博弈精练纳什均衡。这正是上述纳什均衡策略组合不稳定的根源。而策略组合银行在第一阶段选择‘不放贷’,如果有第三阶段选择则选‘不回收’;如果有第二阶段选择‘不还贷”,则是上述博弈中的子博弈精练纳什均衡。因为该策略组合的双方策略不仅在整个博弈中构成纳什均衡,而且在两极子博弈中也都构成纳什均衡,从而不存在任何不可信的威胁或承诺。根据子博弈精练纳什均衡的定义,该策略组合构成这个动态博弈的一个子博弈精练纳什均衡。事实上,这也是该动态博弈唯一的一个子博弈精练纳什均衡,因此也是这个博弈真正稳定的结果。银企双方按照这样的策略行为的结果,实现的博弈路径是银行第一阶段选择‘不放贷’,从而结束博弈,双方支付分别为0.8和0,也就是合作不能实现。

(三)不完全信息银企静态博弈。在完全信息博弈中,各博弈方对其他的收益都比较了解。但是在现实经济生活中,银行与企业在信息上往往是不对称的。我们假设好企业还贷能力强,差企业还贷能力弱。银行对于申请贷款的企业存在信息不完全了解,一时不能判定企业的好和差,也就是不能区分好企业和差企业。假定企业中有好企业和差企业两种类型,申请贷款额为k,银行贷款利率为r,好企业的收益率为rg,差企业的收益率为br;对应好企业和差企业的不同策略组合的收益矩阵如表2。(表2)

从表2中可以看出,如果企业是好企业,在好企业申贷的情况下,银行的最优策略是放贷;如果企业是差企业,在差企业申贷的情况下,银行的最优策略是不放贷。因此,在完全信息条件下,如果企业是好企业,银行的最优策略是放贷;如果是差企业,银行的最优策略是不放贷。但是,因为银行并不知道企业是好企业还是差企业,银行的最优策略的选择依赖于其在多大程度上认为企业是好企业或差企业。

假设银行认为企业是好企业的概率是p,差企业的概率是1-p。我们可以通过海萨尼转换将上述的不完全信息静态博弈转换为完全但不完美信息静态博弈。银行似乎是在与两种类型的企业进行博弈,一种是好企业,一种是差企业。不完全信息银企静态博弈通过海萨尼转换就转换为完全但不完美银企动态博弈,如图2所示。(图2)在图2中,N为自然,自然首先行动,将企业分为两种类型:一种是概率为p的好企业;一种是概率为1-p的差企业。根据自然的行动,银行也认为企业是好企业的概率是p,企业是差企业的概率是1-p。那么,银行选择放贷的期望收益是pkr+(1-p)(-k),选择不放贷的期望收益是0。因此,银行的最优选择是:若p≥1/1+r,则选择放贷;若p

博弈论是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题的理论。如果按博弈方行动的先后顺序划分,博弈可以分为静态博弈和动态博弈;如果按博弈方对有关其他参与人的特征、战略空间及支付函数知识的角度划分,博弈可以分为完全信息博弈和不完全信息博弈。这样得到四种不同类型的博弈,与之相应有四个均衡概念,即完全信息静态博弈――纳什均衡,完全信息动态博弈――子博弈精炼纳什均衡,不完全信息静态博弈――贝叶斯纳什均衡,不完全信息动态博弈─―精炼贝叶斯纳什均衡。纳什均衡是指,在其他局中人的策略选择既定的前提下,每个局中人都会选择自己的最优策略,所有局中人的最优策略组合就是纳什均衡。将博弈论的基本博弈模型应用到银企关系的研究当中,得到了三种银企博弈模型。在各自的假设条件下,每个银企博弈模型都求出了纳什均衡解。各种银企博弈纳什均衡都说明了银行和企业在博弈过程中,都采取了维护自身利益、寻求收益最大化的行为,虽然这些纳什均衡并不都是有效率的,但是博弈论思想为研究银企信贷行为提供了有力的分析工具。因此,我们可以再引入其他假设,比如我们假定相信好企业都会按期还款,而面对劣企业到期不还款,银行将清算抵押品,银行具有硬的约束机制,从而将还贷阶段与融资阶段结合在一起建立不完全信息动态博弈模型,从而找到解决中小企业融资难问题中银企信息不畅通的矛盾,更好地促进中小企业的发展。

(作者单位:安徽大学工商管理学院)

博弈最优策略篇(6)

“博弈论”原本是数学的一个分支,但由于它较好地解决了对竞争等问题的可操作性分析,成为经济学中激荡人心的一个研究领域。可以说,“博弈论”已经改变了经济学的传统轮廓线。从对“博弈论”简要、通俗的介绍中可以发现,我们身边充满了博弈,或者说,我们身边的许多行为、现象都可用博弈来概括。“博弈论”不仅属于经济学,也理应属于社会学、政治学、心理学、历史学等,这些学科也有理由分享“博弈论”那旖旎的学术风光和精细的分析技巧。“博弈论”的英语原文是Game Theory,直译过来就是游戏论、运动论或竞赛论。譬如在足球比赛中,双方都想在努力巩固防守的同时,积极进攻以置对方于“死地”。这种行为就是一种博弈。“弈”在汉语中是下棋的意思,下棋中的双方行为特征也如同足球比赛中双方的行为。当然,扩展开来讲,企业之间的竞争、国家之间的角力等等,都是“游戏”,只是游戏的内容不同而已。

一、博弈简介

“博弈论”就是分析博弈行为和博弈决策的一门科学。

今年的诺贝尔经济学奖,已于前不久为“博弈论”研究专家罗伯特・奥曼和托马斯・谢林所获得,1994年度和1996年度的诺贝尔经济学奖,也分别由纳什、泽尔滕、海萨尼、莫里斯和维克瑞等“博弈论”专家分享。如此众多的“博弈论”研究专家的频频获奖,凸现了“博弈论”在主流经济学中日益重要的地位。

“博弈论”原本是数学的一个分支,但由于它较好地解决了对竞争等问题的可操作性分析,成为经济学中激荡人心的一个研究领域。可以说,“博弈论”已经改变了经济学的传统轮廓线。

我国古代有个“田忌赛马”的故事,说的是齐威王与大将田忌各出三匹马,一对一比赛三场,由于齐威王的最优、次优和较差的三匹马分别跑得比田忌的三匹马快,所以田忌总是以0∶3告负。后来田忌的谋士孙膑给田忌出主意,让最差的马去与齐威王最快的马比,而让最优的马去赢齐威王次优的马,让次优的马去赢齐威王最差的马,这样便以2∶1取胜。但我们还可进一步设想,如果齐威王知道了田忌的花招后,便会在以后的比赛中也更改出马的次序,当然田忌的出马次序也应改动。双方的出马次序怎样才是最合理的呢?这便是“博弈论”更深一层次研究的问题了。

二、一个非技术性的定义

博弈即一些个人、队组或其他组织,面对一定的环境条件,在一定的规则下,同时或先后,一次或多次,从各自允许选择的行为或策略中进行选择并加以实施,各自取得相应结果的过程。从定义我们可以看出,规定或定义一个博弈需要设定下面四个条件。

1.博弈的参加者。即在所定义的博弈中究竟有哪几个独立决策、独立承担结果的个人或组织。

2.各博弈方各自可选择的全部策略或行为的集合。即规定每个博弈方在进行决策时,可以选择的方法、做法或经济活动的水平、量值等。

3.进行博弈的次序。在现实的各种策略活动中,当存在多个独立决策方进行决策时,有时候需要这些博弈方同时作出选择,以为这样能保证公平合理,而很多时候各博弈方的决策又有先后之分,并且有时一个博弈方还要作不止一次的决策选择。

4.博弈方的得益。对应于各博弈方的每一组可能的决策选择,都应有一个结果表示该策略组合下各博弈方的所得或所失。

以上四个方面是定义一个博弈时必须首先设定的,确定了上述四个方面就确定了一个博弈。博弈论就是系统研究可以用上述方法定义的各种博弈问题,寻求在各博弈方具有充分或者有限理性、能力的条件下,合理的策略的选择和合理选择策略时博弈结果,并分析这些结果的经济意义、效率意义的理论和方法。

三、博弈的结构和博弈的分类

由于博弈研究的问题多种多样,因此博弈模型相互之间的差别可能会很大。这些差别可以理解为都是博弈问题的结果差别。当博弈结构有差别时,博弈的结果和分析方法往往也有不同,因此对博弈的结构特点有所了解是很有价值的,在此我们提出博弈论问题的分类和博弈理论的结构。

1.博弈中的博弈方:博弈中独立决策、独立承担博弈结果的个人或组织为博弈方。因此我们把博弈方分为“单人博弈”、“两人博弈”和“多人博弈”。这里的“单人博弈”和“两人博弈”,并不一定是自然人,而是指前面所说的博弈方,既可以是个人,也可以是经济社会组织。

2.博弈中的策略:博弈中各博弈方的策略内容称为“策略”。

3.博弈中的得益:得益即参加博弈的各个博弈方从博弈中所获得的利益,它是各博弈方追求的根本目标,也就是他们行为和判断的主要依据。

(1)零和博弈:它是常见的博弈类型,同时也是被研究得最早、最多的博弈问题。

(2)常和博弈:它也是很普遍的博弈类型。常和博弈可以看作零和博弈的扩展,零和博弈则可以看作常和博弈的特例。

(3)变和博弈:零和博弈和常和博弈以外的所有博弈都称为“变和博弈”。

(4)博弈的过程:博弈的过程也是博弈结构的重要方面。根据博弈过程方面的这些差异,博弈问题通常分为“静态博弈”、“动态博弈”和“重复博弈”几个大类。

①静态博弈:所有博弈方同时或可看作同时选择策略,采取行动的博弈是静态博弈。

②动态博弈:指博弈方的选择和行动有先后之分,后行者可以根据先行者的策略选择来决定自己的策略。

③重复博弈:所谓重复博弈实际上就是同一个博弈反复进行所构成的博弈过程。构成重复博弈的一次性博弈也成为“原博弈”或“阶段博弈”。

我们研究的大部分是重复博弈的原博弈都是静态博弈,或者说是由静态博弈构成的。这种由同样一些博弈方,在完全同样的环境和规则下重复进行的博弈,在现实中有很多实际的例子。如:体育竞技中的多局制比赛、商业中的回头客问题、企业之间的长期合作或竞争等等,如果不考虑环境条件方面的细小变化,都可以看作是重复博弈问题。

5.博弈的分类和博弈理论的结构

博弈结构这些方面的差异对博弈结果和博弈分析都有重要的影响,而且博弈分类相互之间都是交叉的,并不存在严格的层次关系,但我们还可以根据各种分类对博弈分析方法影响程度的大小排除大致的次序。

(1)是分为合作博弈与非合作博弈。如果各博弈方能达成某种有约束力的契约或默契,以选择共同的策略,此种博弈就是合作博弈。反之,就属于非合作博弈。

(2)是分为零和博弈、常和博弈与变和博弈。

(3)是分为静态博弈与动态博弈。

(4)是分为完全信息博弈与不完全信息博弈。在前一种博弈中,每一个参与者都拥有全部的相关信息,只拥有部分相关信息的便属于后一种博弈。

四、“博弈论”中的经典博弈模型

根据博弈定义,小到企业之间的竞争和合作,国家之间的倾销反倾销、制裁和报复等,都有可以归结为博弈问题。“博弈论”中有一些由点及面、发人深思的经典案例,这些案例不仅使专业研究人士如醉如痴,也使一些普通民众兴致盎然;不仅成为“博弈论”中的一道亮丽风景,也是整个经济学领域中的学术奇葩。

1.囚徒困境

假设警察局抓住了两个合伙犯罪的嫌疑犯,但获得的证据并不十分确切,对于两者的量刑就可能取决于两者对于犯罪事实的供认。警察局将这两名嫌疑犯分别关押以防他们串供。两名囚徒明白,如果他们都交代犯罪事实,则可能将各被判刑5年;如果他们都不交代,则有可能只会被以较轻的妨碍公务罪各判1年;如果一人交代,另一人不交代,交代者有可能会被立即释放,不交代者则将可能被重判8年。

对于两个囚徒总体而言,他们设想的最好的策略可能是都不交代。但任何一个囚徒在选择不交代的策略时,都要冒很大的风险,一旦自己不交代而另一囚徒交代了,自己就将可能处于非常不利的境地。对于囚徒A而言,不管囚徒B采取何种策略,他的最佳策略都是交代。对于囚徒B而言也是如此。最后两人都会选择交代。因此,囚徒困境反映了个体理与集体理之间的矛盾、冲突。

囚徒的困境博弈的重要意义,在于类似的情况在社会经济活动中具有很大的普遍性,在市场竞争的各个领域和方面,在资源利用和环境保护,以及政治、军事和法律等各个领域问题中,都有类似囚徒困境的现象。

2.智猪博弈

假设猪圈里有一大一小两只猪,猪圈的一头有一个猪食槽,另一头有一个控制猪食供应的按钮,揿一下按钮会有10个单位的猪食进槽。若小猪去揿,大猪先吃,大猪可吃到9个单位,小猪揿好后奔过来,则只能吃到1个单位;若大猪去揿,小猪先吃,小猪可吃到6个单位,大猪吃到4个单位;若同时去揿,奔过来再同时吃,大猪可吃到7个单位,小猪吃到3个单位。在这种情况下,不论大猪采取何种策略,小猪的最佳策略是等待,即在食槽边等待大猪去揿按钮,然后坐享其成。而由于小猪总是会选择等待,大猪无奈之下只好去揿按钮。这种策略组合就是名闻遐迩的“纳什均衡”。它指的是,在给定一方采取某种策略的条件下,另一方所采取的最佳策略(此处为大猪揿按钮)。

智猪博弈现象在日常生活中也是司空见惯的。如大股东行使监督上市公司的职责,而小股东则坐享这种监督带来的利益,即所谓“搭便车”;爱清洁的人经常打扫公共楼道,其他人搭便车;等等。

3.斗鸡博弈

两只公鸡面对面争斗,继续斗下去,两败俱伤,一方退却便意味着认输。在这样的博弈中,要想取胜,就要在气势上压倒对方,至少要显示出破釜沉舟、背水一战的决心来,以迫使对方退却。但到最后的关键时刻,必有一方要退下来,除非真正抱定鱼死网破的决心。

博弈最优策略篇(7)

纳什均衡(Nash equilibrium),又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰・纳什命名。博弈论,又叫做游戏理论或对策论,是一门以数学为基础,研究对抗冲突中最优解问题的学科。虽然博弈论从本质上来讲是研究决策问题,但与传统的决策分析相比,博弈论更加关注的是博弈决策弈各方的互动行为。博弈论思想最早源于中国古代,成书于春秋时期的《孙子兵法》中的军事理论与治国策略就蕴含了丰富深刻的对策思想。博弈论真正成为数学的一个分支始于1944年,Von Neumann和Morgenstern合作的《博弈论与经济行为》一书的出版,第一次给博弈(game)以明确的数学描述;对博弈现象最早用数学方法来研究的则是数学家E.Zermelo,始于国际象棋,体现于其论文《集合论在象棋对策中的应用》(1912);其后法国数学家Borel讨论引入了“最优策略”,并证明了其普遍存在性,同时预测了一些结论;在1950年和1951年,纳什提出了非合作博弈的均衡解,并证明了均衡解的存在,自此博弈发展到了一个很重要的阶段;到了二十世纪八九十年代,博弈论逐渐走向成熟,其发展已进入前所未有的辉煌时期,博弈论重构经济学大厦的趋势正逐步变为现实,在经济学中的应用越来越广泛,并正以主流经济学的面貌出现。随着博弈论的不断成熟,它不仅仅在经济领域和数学领域被广泛研究,我们发现博弈的思想在日常生活中无处不在,博弈就像空气,时刻伴随在我们身边,例如有名的“囚徒困境”、“智猪博弈”、“性别大战”等,还有小孩子们玩的“石头剪刀布”、“掷硬币”,大人们玩的“”、麻将、象棋、乒乓球等都是博弈论的应用。如果将博弈论与生活结合起来,那么生活中每个人都如同棋手,其每一种行为如同在一张隐形的棋盘上布一个子,精明慎重的棋手们相互揣摩、相互牵制,人人争赢,下出许多精彩纷呈、变化多端的棋局,而博弈论正是研究棋手们的策略与技巧,并将其系统化的一门科学。换句话说,就是研究个体如何在错综复杂的相互影响中找到最合理的策略。

在博弈论中,纳什是完全信息静态博弈的代表人物,他在1950年和1951年发表的两篇论文中定义了非合作博弈及其均衡解,并给出了均衡解的证明,后来人们称它为纳什均衡,即是假设有个参与人博弈,给定其他人战略的情况下,每个人选择自己的最优策略(个人最优策略可依赖于也可能不依赖于其他人的策略),所有参与人选择的策略一起构成一个策略组合。纳什均衡指的就是所有参与人的最优策略组合。为了清楚地了解纳什均衡,我们就以“囚徒困境”为例。据说有一位富翁家中财物被盗,警方通过此侦破此案,发现有两个嫌疑人A和B,将他们抓获后从他们的住处搜出受害人家中丢失的财物。但是,他们都矢口否认,于是警方将两人分开审讯。为了击垮他们的心理防线,警方告诉他们,如果主动坦白,可以从轻处罚;如果顽抗到底,一旦同伙招供,就要受到严惩。当然,如果两人都坦白,就不存在“主动交代”,两人都要受到严惩,只不过比抵赖要处罚轻一些。在这种情形下,两个囚犯都可以作出自己的选择,或者招供,即与警察合作,从而背叛他的同伙;或者保持沉默,与警察对抗到底。这样,就会出现以下几种情况:

在这个例子里,纳什均衡就是(坦白,坦白),在给定B坦白的情况下,A的最优策略是坦白,同理,给定A坦白的情况下,B的最优策略也是坦白。实际上,这里的(坦白,坦白)不仅是纳什均衡,而且是一个占优策略均衡,就是说,不论对方如何选择,个人的最优选择都是坦白。比如说,若B抵赖,A坦白的话被放出来,抵赖的话被判1年,所以坦白比抵赖好;若B坦白,A坦白的话被判8年,抵赖的话被判10年,所以坦白还是比抵赖好,这样坦白既是A的占优策略,又是B的占优策略,结果是每个人都选择坦白,各判8年。“囚徒困境”反映了个人理性与集体理性的矛盾,虽然两个都抵赖各判刑1年显然比都坦白各判刑8年好,但是他不满足个人理性要求,即(抵赖,抵赖)不是纳什均衡。

“囚徒困境”的思想在我们的日常生活中有着广泛的应用,比如市场上的商家常常通过降价来争夺市场,假设商家A和商家B是某市场上的两个竞争对手,他们原来用同一种较高的价格销售相同的产品,若这两商家不满足他们原来的市场份额和利润,就都想通过降价来争夺更大的市场份额和利润。但值得注意的是,当自己的降价引起对手的报复时,这种目的就不一定达到。假设两商家在原来的高价策略下各可以获利200万元,若商家A单独降价可以获得250万元利润,此时商家B因为市场份额被商家A抢去利润将下降到80万元,此时商家B也采取了降价,则两商家都只能得到120万元利润,此时博弈可以由下表表示:

由此表容易看出,假设商家B采用高价策略,那么商家A采用高价的200万,采用低价得250万,由于250大于200,商家A应采用低价,假设商家B采用低价,那么商家A采用高价得益80万,采用低价得益120万,由于120大于80,因此商家A也采用低价,用同样的方法分析商家B,商家B也应选低价策略,因而这个博弈的最终结果就是两商家都采用低价,最终各得120万元利润,即(120,120)就是纳什均衡解。当然囚徒困境思想的应用不仅仅是这一个例子,它还应用在公共产品的供给、军备竞赛、股票市场等许多方面。

由于一个博弈的纳什均衡解不止一个,有些博弈可能有无数个纳什均衡解,于是泽尔腾在1965年通过对动态博弈的分析完善了纳什均衡的概念,定义了“子博弈精炼纳什均衡”,这个概念的中心意义是将纳什均衡中包含的不可置信的威胁战略剔除去,使均衡战略不再包含不可置信的威胁。他要求参与人的决策在任何时点上都是最优的,决策者要随机应变,而不是固守旧略。由于剔除了不可置信的威胁,在许多情况下,精炼纳什均衡也缩小了纳什均衡的个数。当然这里应该指出的是一个精炼均衡首先必须是一个纳什均衡,但纳什均衡不一定是精炼均衡,只有那些不包含不可置信威胁的纳什均衡才是精炼纳什均衡。例如:假如有一个富家千金爱上了一个穷小子,可是姑娘的母亲觉得并不门当户对,于是姑娘的母亲坚决不同意,并威胁说,若女儿与小伙子不断绝恋爱关系,她就与女儿断绝母女关系。若女儿相信母亲的话,女儿就会中断与小伙子的恋爱关系,因为恋人可以重新选择,而母亲则无法重新选择。问题是假设女儿坚持到底最终与小伙子结婚,母亲难道真的会去断绝母女关系吗?一般来说是不会的,因为断绝母女关系对母亲的损害会更大,这就是说,母亲的威胁是不可置信的。聪明的女儿当然会明白,一旦与男友生米煮成熟饭,母亲只好妥协。结果是女儿会勇敢地坚持恋爱并结婚,母亲最终承认那个她当初并不喜欢的女婿。这就是此博弈中唯一的精炼纳什均衡。

纳什均衡和子博弈完美纳什均衡所反映的博弈都包括了一个基本假设,即博弈的结构、博弈的规则、所有局中人的策略空间和支付函数都是共同知道的,满足这样一个假设的博弈称为“完全信息博弈”,但在现实生活中这一假设往往得不到满足。在非合作博弈中,局中人对博弈的结构和其他局中人的特征并没有准确的了解的情况叫“不完全信息博弈”。在1967年以前,博弈论专家对不完全信息博弈是束手无策的,直到1967年至1968年海萨尼提出了不完全信息静态博弈,并定义了贝叶斯纳什均衡,即在不完全信息静态博弈中,参与人同时行动,没有机会观察到别人的选择,给定别人的战略选择,每个参与人的最优策略依赖于自己的类型,由于每个参与人仅知道其他参与人的类型的概率分布而不知道其真实类型,他不可能准确地知道其他参与人实际上会选择什么策略,这样他决策的目标就是在给定自己的类型和别人的类型依从策略的情况下,最大化自己的期望效用。也就是说,贝叶斯纳什均衡就是给定自己的类型和别人类型的概率分布的情况下,每个参与人的期望效用达到了最大化。这种类型的例子在生活中也是无处不在,例如:某交通局有一段柏油路要包出去,通过招投标来进行。假设招标的办法为一级密封投标,让每个投标者将自己的标价写下并装入信封,一同交给交通局,信封打开后交通局选择标价最低者为中标者,此时不同的投标者之间进行的就是一场博弈。假定每个投标者都不知道其他投标者的真实生产成本而仅仅知道其概率分布,那么他在选择自己的报价时就面临着一种交替:一方面报价越低,中标的可能性越大,但另一方面,给定中标的情况,报价越低,利润就越小。分析证明,每个投标人的标价都依赖于他的生产成本,但一般来说,生产成本会低于贝叶斯纳什均衡标价,二者之间的差异随总投标人数的增加而减少,也就是说,投标人越多,交通局越有利。

前面说了静态博弈,其实在生活中还有动态博弈。在一个动态博弈中,行动是分先后次序的,后行动者可以通过观察先行动者的行动获得有关后者偏好、战略空间等方面的信息,修正自己的判断。就像日常生活中通过观察某人的行为表现来了解其品德一样,显然,先行动者知道自己的行为有传递自己特征信息的作用,就会有意识地选择某种行动来掩饰自己的真实面目。当然,在均衡状态下,理性人是不会被蒙混的。1975年泽尔腾和克瑞普斯(1982年)等人相继给出了不完全信息动态博弈的精炼贝叶斯纳什均衡的定义,即是当事人根据所观察到的他人的行为来修正自己有关后者类型的主观概率,并由此选择自己的行动。在我们的生活中,这样的例子也很多,例如:“黔驴之技”的故事就是一个不完全信息动态博弈:一头毛驴被带到贵州时,老虎从没见过驴子见它威武高大,心想它的本领一定很大。老虎就很好奇,于是凭着这个判断,老虎就躲在树林里偷偷观察毛驴,这是它的最优选择。过了一会儿,老虎走出树林,逐渐靠近毛驴,就想获得这个庞然大物的真实本领的信息。突然毛驴大叫一声,老虎吓了一跳,急忙逃走,这也是老虎的最优选择,因为毛驴的叫声是老虎意料之外的。过了两天,老虎又来观看,发现毛驴除了会大声叫之外没什么本领,可是仍然不敢吃毛驴,因为它还是不完全了解毛驴的真实本领。后来,老虎逐渐靠近毛驴,并故意往毛驴身上挤,毛驴实在忍无可忍,就往老虎身上踢了一脚,这下老虎反倒高兴了,因为它知道了毛驴不过就这点真实本领,此时,老虎对毛驴就有了全面的了解,于是扑过去就把毛驴吃掉了。在这个故事里,老虎通过观察毛驴的行为逐渐修正了对毛驴的看法,直到看清它的真实本领,最后把它吃掉,就是一个精炼贝叶斯均衡,而老虎的每一步行动都是给定它的判断下最优的。事实上,毛驴的行为也是理性的,它知道自己技能有限,不到万不得已它不会用仅有的一技,否则它早就被老虎吃掉了。这种博弈的思想在生活中也很多,比如:强者欺负弱者,信号传递模型,等等。

以上这些例子是我们日常生活中经常碰到的,这些博弈的思想也不知不觉地被人们使用,虽然博弈的例子数不胜数,但有一个共同特点,即参与者都是在每一场博弈中寻求自己的最优解。其实,人生就是一个不断合作和竞争的过程,在这些合作与竞争中,每个人都想使自己的利益最大化,从而得到一个自己认为满意的结果。由此看来,学习博弈论的目的不在于解法而在于寻求巧妙的策略,学习博弈论不是为了享受分析博弈的过程,而在于赢得更好的结果。博弈的思想来自现实生活,它既可以高度抽象地用数学来表述,又可以用日常事例来说明,并运用到生活中去,没有高深的数学知识,我们同样可以学习博弈论并成为生活中的策略高手,就像孙膑没有学过高数,但是这并不影响他通过最优策略来帮助田忌赢得赛马。

博弈最优策略篇(8)

一、背景介绍

中国行业企业信息中心《2012年前三季度中国饮料行业运行状况分析报告》显示,中国饮料行业整体正稳步增长,其中凉茶市场增幅超过30%,远高于行业平均水平。

此为宏观大背景,微观层面聚焦到广药和加多宝。从1997年广药集团与加多宝母公司香港鸿道集团签订“王老吉”商标租赁合同,到鸿道集团停用“王老吉”商标,开始自营加多宝凉茶品牌,再到广州中院裁定加多宝立即停用“王老吉改名为加多宝”等宣传广告。这场凉茶之战,是商业利益追逐的竞赛,更是双方进行策略博弈的精彩演绎。

二、博弈基本理论

运用博弈论思想分析广药与加多宝凉茶之战,首先需理解博弈论的基本理论。

(一)何为博弈论

博弈论是一门研究策略的科学,即将自己置于对手的位置来考虑问题,并尽可能提前对竞争对手可能的所有反应做出反应对策。广药与加多宝的商战中诸多环节运用了博弈论的知识,下面将进行阐述。

(二)博弈论四要素

广药与加多宝的博弈包含四要素:参与者、策略、次序和得益。

(1)参与者,即博弈中的博弈方。广药集团与加多宝即是博弈的参与者。

(2)策略,即各博弈方可选择的方法、量值等。在博弈中,决策主体根据自身判断及所获信息,制定一个行动方案。例如加多宝拥有策略集{重塑品牌与广药竞争,退出竞争。

(3)次序,即博弈进行的顺序。例如广药集团要求收回“王老吉”商标在先,加多宝在失去“王老吉”品牌之后塑造加多宝凉茶新品牌在后。

(4)得益,又称支付,即对于各博弈方来说,作出策略选择后所对应的收益。对于广药来说,鉴于王老吉品牌效益可观,收回迫在眉睫,而加多宝从长远利益出发,利用自身营销和渠道优势移植“怕上火”这一宝贵心智资源于新品牌加多宝上并精心培育。

(三)纳什均衡

在博弈中,每个人会根据他人策略制定自己的最优策略,在这些策略组成的策略组合中,由于考虑自身收益,没有人有动力去改变自己的策略,这时所有参与者的策略达到平衡,即为“纳什均衡”。广药集团与加多宝争锋相对的竞争,皆出于各自收益的考虑,采取的策略最终达到纳什均衡,下文中进行具体阐述。

三、广药集团PK加多宝的博弈策略思考

综观广药与加多宝多年来的商战,可以看作是同时行动与序贯行动并存的混合博弈。笔者为了清晰便捷地描述博弈理论在其中的运用,采用假设收益数值对博弈双方进行分析,得出博弈树及策略支付表如下:

为便于描述博弈过程,此处假设加多宝为先行动方,广药为后行动方。

若加多宝选择不进入中国内地市场,博弈双方收益为(0,0)。当加多宝采用进入内地市场策略时,广药若不租予其王老吉商标使用权,双方收益仍为(0,0),但当广药将“王老吉”商标使用权租给加多宝,此时,加多宝有策略集{经营王老吉品牌,经营自己品牌}。对于加多宝来说,王老吉是蕴含着中国传统文化基因的百年品牌,前景是广阔的,而冒然经营自己品牌,在没有历史文化背景的情况下,凉茶难以推广而出现一定地亏损,假设品牌使用租金为1个单位支付,则双方的收益为(-2,1)。当加多宝把王老吉做到红遍中国大江南北之时,广药若选择如增加租金的方式而不收回商标使用权,双方支付为(10,2)。而如果广药集团收回王老吉商标,加多宝面临着重塑品牌与广药竞争和退出竞争两种策略,若退出竞争,则意味着市场拱手相让,则收益为(0,10),若重塑品牌与广药竞争,则此处为同时行动博弈。加多宝与广药集团面对彼此间竞争,皆拥有策略集{积极战略,保守战略},策略两两组合后收益如策略支付表所示。积极战略可带来市场效益的扩大,通过划线法得出(6,6)为纳什均衡。最后,博弈树采用逆推归纳法进行路径选择,加多宝和广药描绘出子博弈完美纳什均衡路径,即上图的棕色线条路径。

四、结束语

在现代经济生活中,博弈论的思维已经延伸至各种领域,大到经济、社会、政治、军事,小到父母与子女之间、夫妻之间,许多问题皆可用博弈理论进行解释与演绎。此文中广药集团与加多宝商战的主线即是双方为了自身利益最大化而进行博弈的过程。长远来看,运用博弈论的思维进行商业分析,能够较客观地描绘行动策略集以及收益,相信博弈论未来将会在多领域得到更深层地运用。

参考文献:

[1]中国行业企业信息中心. 2012年前三季度中国饮料行业运行状况分析报告[R].2012

博弈最优策略篇(9)

纳什博弈论:指假设有n个局中人参与博弈,如果某情况下无一参与者可以独自行动而增加收益,即为了自身利益的最大化,没有任何单独的一方愿意改变其策略的,则此策略组合被称为纳什均衡;所有局中人策略构成一个策略组合,纳什博弈论,从实质上是一种非合作博弈状态;

纳什均衡达成时,并不意味着博弈双方都处于不动的状态,在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的;纳什均衡也不意味着博弈双方达到了一个整体的最优状态,最优策略不一定达成纳什均衡,严格劣势策略不可能成为最佳对策,而弱优势和弱劣势策略是有可能达成纳什均衡的。

(来源:文章屋网 )

博弈最优策略篇(10)

Abstract: The existing problems of performance evaluation system in construction enterprises and its improvement methods are analyzed in the perspective of game theory. The modeling of game theory is described by prisoner's dilemma case and is applied in the project performance evaluation of construction enterprises, and the game model of project performance evaluation is proposed. The profit and loss by cooperation and non-cooperation with its strategy adopted is demonstrated both from the side of head office and project team. Improvement strategies such as enhancing the project management and control and increasing the proportion of performance awards of the project team are proposed for the management of project performance evaluation, by analyzing of the model, to maximize the project profits by cooperation of the two sides.

Key words: project performance evaluation;prisoner's dilemma;game theory;project management and control model;

中图分类号: C29 文献标识码: A 文章编号:

传统的建筑企业采用粗放式项目管控模式,承接到项目后,由建筑公司总部(以下简称公司)与项目部签订目标责任书,项目实施的所有权力移交给项目经理,公司作为管理层,一般不参与项目的材料采购、分包选择等工作,工程结束后,公司根据目标责任书对项目进行指标考核,收取约定的项目管理费用。这种传统项目管控模式存在的问题有:公司缺少对项目的深度控制权,却要承担成本、质量和安全等风险,责权利不匹配;公司没有对项目部管理团队进行有效的激励和约束,容易形成管理漏洞滋生腐败,无法实现项目利润的最大化。本文从博弈论的角度对项目绩效考核的管理进行了分析,为建筑企业完善和落实项目绩效考核体系提供了理论支持和依据。

1博弈论模型分析

博弈论是双方在平等的对局中各自利用对方的策略变换自身的对抗策略,从而达到取胜或者自身利益最大化的目的。假设有N个博弈主体参与博弈,给定其他人策略的条件下,每个局中人选择自己的最优策略,从而使自己利益最大化。所有局中人策略构成一个策略组合。纳什均衡指的是这样一种战略组合,这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下,没有人有足够理由打破这种均衡。纳什均衡[1]的数学定义如下:在博弈G=S1,…,Sn:u1,…,un中,如果由各个博弈方的各一个策略组成的某个策论组合(s1*,…,sn*)中,任意博弈方i的策论si*,都是对其余博弈方策略的组合(s1*,…si-1*,si+1*,…,sn*)的最佳对策,也即ui(s1*,…si-1*,si*,si+1*,…,sn*)≥ui(s1*,…si-1*,sij*,si+1*,…,sn*)对任意sij∈Si都成立,则称(s1*,…,sn*)为G的一个纳什均衡。纳什均衡并不意味着博弈双方达到了一个整体的最优状态,囚徒困境就是一个著名的例子。

在囚徒困境模型中,假设有两个小偷A和B被警察抓获,被分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果两个犯罪嫌疑人都坦白了罪行,则各被判刑8年;如果一个犯罪嫌疑人坦白而另一个人选择抵赖,则抵赖者判刑10年,而坦白者立即释放。如果两人都抵赖,则警方只能以私入民宅的罪名将两人各判入狱1年。下表给出了这个博弈的支付矩阵。

表1 囚徒困境博弈

对A来说,无论B作何选择,他选择“坦白”总是对自己最优的。而同理B也会选择“坦白”,结果是两人都被判刑8年。但是,倘若他们都选择“抵赖”,每人只被判刑1年。表1中的四种行动选择组合中,(抵赖、抵赖)是帕累托最优的,因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差。不难看出,“坦白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡。

2模型在项目绩效考核中的应用

公司和项目部是两个相对对立的博弈主体,公司具有行政和资源优势,可以向项目部下达行政和管理指令,同时掌控项目部的部分资源,而项目部也拥有一定的自,具备现场管理优势。双方主要博弈的目标是项目的潜在收益,公司希望获得更大的项目总收益,而项目部则有可能通过转移或牺牲潜在收益来增加个人收入[2]。

上一篇: 初中地理教学感悟 下一篇: 高中历史备考策略
相关精选
相关期刊