《完全信息动态博弈.docx》由会员分享,可在线阅读,更多相关《完全信息动态博弈.docx(10页珍藏版)》请在第壹文秘上搜索。
1、完全信息动态博弈博弈中的得益,是各参与人追求的根本目标,关于得益的信息是博弈中最重要的信息之一。在一些博弈中参与人对自己的得益情况完全清楚,对其他参与人的得益也都很清楚,如前面介绍过的囚徒困境,猜硬币等;还有一些博弈中,参与人对其他参与人的得益情况并不了解,例如投标、拍卖活动中,各参与人对其他参与人的标的的估价很难了解,即使最后的成交价是明确的,但各参与人仍然无法知道其他参与人中标、拍得标的的真正得益是多少。一般地,参与人完全了解所有参与人的得益情况的博弈称为“完全信息博弈”,不完全了解其他参与人的得益情况的博弈称为“不完全信息博弈”。博弈中的过程,是博弈结构的重要部分,根据博弈过程的不同,可
2、以将博弈分为:静态博弈”、“动态博弈”和“重复博弈”。如果参与人选择战略时是同时或可以看作同时的博弈称为“静态博弈”;若各参与人战略的选择和行动不仅有先后顺序,后选择、后行动的参与人在自己选择行动之前,可以看到前面的过程,这种博弈称为“动态博弈”(也称为“多阶段博弈动态博弈中在轮到行为时对博弈的进程完全了解的参与人,称为具有“完美信息”的参与人,如果动态博弈的所有参与人都有完美信息,称为“完美信息的动态博弈”。相西舱由两,闲聊Kffi衡降解惨队披期,诩的慰娜飒螂o1完全且完美信息动态博弈动态博弈中一个参与人的一次行为称为一个“阶段”。由于每个参与人在动态博弈中可能不止一次行为,因此,每个参与人
3、在一个动态博弈中就可能有数个甚至许多个博弈阶段。动态博弈一般用扩展形表示,括弧中前一个数字代表乙的得益,后一个数字代表甲的得益。动态博弈的一个中心问题是“可信性”问题。所谓可信性是指动态博弈中先行为的参与人是否该相信后行为的参与人会采取对自己有利的或不利的行为。因为后行为方将来会采取对先行为方有利的行为相当于一种“许诺”,而将来会采取对先行为方不利的行为相当于一种“威胁”,因此我们可将可信性分为“许诺的可信性”和“威胁的可信性”。1.1 开金矿博弈我们以“开金矿博弈”为例来讨论可信性问题。甲要开采一价值4万元的金矿,缺1万元的资金,向乙借1万元,许诺采到金子后与乙平分。乙是否借钱给甲呢?乙最需
4、要关心的就是甲采到金子后是否会履行诺言跟自己平分,因为万一甲采到金子后不但不跟乙平分,而且还赖帐或卷款潜逃,则乙连自己的本钱都收不回来。关键的是要判断的许诺是否可信!以自身利益最大化原则,甲必然选择不分!乙清楚甲的行为准则,最好的选择是不借!对乙来说,甲的许诺是不可信的!让乙在甲违约时采用法律手段-一 “打官要想使甲的许诺成为可信的,加上第三阶段,甲的许诺是可信的。乙在第一阶段选择借,甲在第二阶段选择司”,乙的利益受到法律保护,图2可信的诺言和威胁图3法律保障不足的开金矿博弈在第三阶段乙打官司不能收回本钱,还要承受1万元的损失,这时乙打官司的威胁是不可信的。本博弈的分析可以看出,在一个个体都有
5、私心,都只注重自身的利益的社会里,完善公正的法律制度不淡能够保障社会的公平,还能提高社会经济活动的效率,是实现最有效率的社会分工的重要保障。可信性是动态博弈分析的一个中心问题。1.2 逆推归纳法分析动态博弈的方法是从最后一个阶段参与人的行为开始分析,逐步倒退何前一个阶段相应参与人的行为选择,一直到第一阶段的方法,称为“逆推归纳法”。逆推归纳法实际上是重复剔除劣战略方法在扩展式博弈中的应用。我们从最后一个决策结开始往回倒推,每一步剔除在该决策结上参与人的劣选择,因此,在均衡路径,每一个参与人在每一个信息集上的选择都是占优选择。逆推归纳法可以用于许多动态博弈的分析求解,除了有些不完美信息动态博弈以
6、外,是解析动态博弈的基本方法。在分析动态博弈问题时,我们必须发展新的均衡概念。2子博弈完美纳什均衡动态博弈中存在不可信的行为选择,纳什均衡具有不稳定性。为了排除不可信的威胁或承诺因素,博弈理论又一次得到了发展,泽尔腾(1965)提出了“子博弈完美纳什均衡”,用来分析动态博弈。子博弈完美纳什均衡要求均衡战略的行为在每一个信息集上都是最优的。为此,我们首先引进“子博弈”的概念。简单的说,子博弈是原博弈的一个局部构成的次级博弈,它本身可以作为一个独立的博弈进行分析。2.1 子博弈定义8.1由一个动态博弈第一阶段以外的某个阶段开始的后续博弈阶段构成,它必须有初始信息集,具备进行博弈所需要的各种信息,能
7、够自成一个博弈的原博弈的一部分,称为原动态博弈的一个子博弈以三阶段开金矿博弈为例,如果乙在第一阶段选择了“借”,动态博弈进行到第二阶段甲作选择。这时甲选择是否分成,然后轮到乙作选择是否打官司。这本身构成了一个两阶段的动态博弈,是原博弈的一个“子博弈”。当甲选择不分,博弈进行到乙选择打官司还是不打的第三阶段,是子博弈的子博弈,称后面的子博弈是原博弈的二级子博弈”。如图中两层虚线框出。图4开金矿博弈的两级子博弈例如,开金矿博弈,两个虚线框代表两个“子博弈”。应用逆推归纳法分析,在最后的子博弈中,乙在“打官司”和“不打”中选择“打官司”,因为10,成为图5;这时甲在分与不分中选择分,因为21,成为图
8、6;第一阶段乙的选择是借。图5开金矿(守信)-逆推第一步图6开金矿(守信)-逆推第二步上面用逆推归纳法导出的动态博弈的结果是由各阶段轮到行为的参与人的一种行为依次构成的,在开金矿博弈中结果为(借,分),是由乙在第一阶段的借和甲在第二阶段的分构成。当然该博弈本来应该有三个阶段,但当甲在第二阶段选择分时第三阶段就没有必要进行下去了,因此结果中只有两个阶段的行为。需要注意的是乙的第三阶段虽然没有进行,但是它是保证第二阶段甲选择分的关键,所以乙的战略中必须包含这个选择。2.2 子博弈完美纳什均衡有了子博弈的概念,我们引进适合动态博弈的新的均衡概念,它必须满足(1)既是纳什均衡,从而具有战略稳定性,(2
9、)又不能包含任何的不会信守的许诺或威胁。这样的动态博弈的战略组合称为“子博弈完美纳什均衡”。定义8.2如果动态博弈中各参与人的策略在动态博弈本身和所有子博弈中都构成一个纳什均衡,则称该策略组合为一个“子博弈完美纳什均衡”。“子博弈完美纳什均衡”是分析动态博弈,或者说完全且完美信息动态博弈的关键概念。而逆推归纳法正是(至少在完美信息动态博弈范围之内)寻找动态博弈的子博弈完美纳什均衡的基本方法。子博弈完美纳什均衡能够排除均衡策略中不可信的威胁或许诺,就意味着每阶段各参与人的选择都是按最大利益原则决策的,因此在每个子博弈中都只能采用纳什均衡的策略或行为选择。3应用举例3.1寡占的斯塔克博格(StaC
10、kelberg)模型斯塔克博格模型是一种动态的寡头市场博弈模型。该模型假设寡头市场上的两个厂商中,一方较强一方较弱。较强的一方领先行动,而较弱的一方则跟在较强的一方之后行动。由于该模型中两厂商的选择是有先后的,且后一厂商(跟随者看着前一厂商的选择的,因此这是一个动态博弈。但是,因为两参与人的决策内容是产量水平,而可能的产量水平有无限多个,因此这是一个双方都有无限多种可能的选择的无限策略博弈。斯塔克博格模型与古诺模型相比,唯一的不同是前者有一个选择的次序问题,其他如参与人、策略空间和得益函数等完全都是相同的。价格函数:P=P(Q)=8-Q;产品完全相同(没有固定成本,边际成本相等)c;c2=2;
11、总产量(连续产量)。=4+q;总成本分别为:和2。1212得益函数:u=qP(Q)-cq=8Tq+q)-2q=6q-qq-4211111211121w=qP(Q)-cq=g8-(g+q)-2g=6q-qq-q2222221222122根据逆推归纳法的思路,我们首先要分析第二阶段厂商2的决策,为此,我们先假设厂商1的选择为4是已经确定的。这实际上就是在q定的情况下求使w实现最大值的q,它必1122须满足:6-q-2q=O1 qq=_(6-q)=3-_i8.12 212实际上它就是厂商2对厂商1的策略的一个反应函数。厂商1知道厂商2的这种决策思路,因此他在选择4的时就知道夕,是根据(1)式确定的,
12、因此可将(1)式代入他自己的得益12函数,然后再求其最大值。(q,qD=6q-qq-q2=6q8.2II2112I1=3q-q2=u(q)12I,上式对q的导数为0,可得3-T=0,夕*=3,此时,=3-1.5=1.5,双方的得益分别为4.5和2.25与两寡头同时选择的古诺模型的结果相比,斯塔克博格模型的结果有很大的不同。它的产量大于古诺模型,价格低于古诺模型,总利润(两厂商得益之和)小于古诺模型。但是,厂商1的得益却大于古诺模型中厂商1的得益,更大于厂商2的得益。这是因为该模型中两厂商所处地位不同,厂商1具有先行的主动,且他又把握住了理性的厂商2总归会根据自己的选择而合理抉择的心理,选择较大
13、的产量得到了好处。结论:本博弈也揭示了这样一个事实,即在信息不对称的博弈中,信息较多的参与人(如本博弈中的厂商2,他在决策之前可先知道厂商1的实际选择,因此他拥有较多的信息)不一定能得到较多的得益。这一点也正是多人博弈与单人博弈的不同之处。3.2 工会和厂商的博弈里昂惕夫(Leontief)1946年提出了一个工会和厂商之间关于工资和雇佣的博弈模型。假设完全由工会决定工资,而厂商则根据工资的高低决定雇佣工人的数量。假设工会和厂商之间关于工资率和雇佣数的博弈过程是这样的:首先由工会决定工资率,然后厂商根据工会决定的工资率决定雇佣多少劳动,工会和厂商选择的内容分别是工资率和雇佣数。工会的效用必然是
14、工资困和雇佣数人L两者的函数,即(W,L);假设收益是劳动雇佣数L的函数R(L),厂商的利润也是工资率和劳动雇佣数的函数=(W,D=R(L)-WL得益:效用(W,L)和利润MW,L)我们用逆推归纳法来解这个博弈,第一步我们先求第二阶段(最后一阶段)厂商对工会的工资率的反应函数L(W),应该是下面最大值问题的解。max(lV,L)=maxR(L)-WL,对L的导数为零,R(L)-W=O0L0经济意义是厂商增加雇佣的边际收益(雇佣最后一个单位劳动所能增加的收益)要等于工资率(边际成本)。L*(W)处R(L)与帆的距离最大,而这距离当然就是厂商的利润了。图7厂商的反应函数图8工会的无差异曲线第二步回
15、到第一阶段工会面临的选择。由于工会了解厂商的决策规则和方法,因此它完全清楚对应自己的每种工资率W,厂商将会选择的雇佣数一定是L(W)。工会需要解决的决策问题就变成如下的最大值问题,即如何选择W*使它满足:maxW5Lft(VV)WO该博弈的均衡解就是Wd(W),因为该路径中不包含任何不会信守的威胁或诺言,因此它是一个子博弈完美纳什均衡。根据工会的效用函数作出它在W和L之间的无差异曲线,如图8,则越是位置高的无差异曲线越代表工会的效用较高。3.3 讨价还价博弈假设有两人就如何分割1万元进行谈判,并且已经定下了这样的规则:首先由参与人1提出一个分割比例,对此,参与人2可以接受也可以拒绝;如果参与人2拒绝参与人1的方案,则他自己应提出另一个方案,让参与人1选择接受与否。如此循环。在上述循环过程中,只要有任何一方接受对方的方案博弈就告结束,而如果方案被拒绝,则被拒绝的方案就与以后的讨价还价过程不再有关系。由于谈判费用和利息损失等,双方的得益都要打一次折扣,折扣率为3(O1),我们称它为消耗系数。如果限制讨价还价最多只能进行三个阶段,到第三阶段乙必须接受甲的方案,这就是一个三阶段的讨价还价博弈。本博弈有两个关键点:第一是第三阶段参与人1的