博弈最优策略(精选5篇)

首页文章中心学术期刊科普订阅 SCI期刊 SCI发表

会员中心购物车(0)

首页 > 文章中心 > 博弈最优策略

博弈最优策略

时间：2023-08-17 18:16:21

博弈最优策略

博弈最优策略范文第1篇

关键词：矩阵博弈；严格优势策略；均衡

博弈论是现代数学的一个新分支，也是运筹学的一个重要学科。博弈论主要研究公式化了的激励结构间的相互作用。如今，博弈论在金融学、证券学、生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。

均衡是博弈论一个重要研究对象。均衡是一种策略组合，使得同一时间内每个参与人的策略是对其他参与人策略的最优反应。1951年纳什提出著名的纳什定理，即在矩阵博弈中一定存在均衡。这里的均衡可能是纯策略均衡，也可能是混合策略均衡。

2×2矩阵博弈是一类最基本且被广泛应用的重要博弈类型，它是指在博弈过程中只有两个参与人（参与人1和参与人2），且每个参与人只有两个可选策略。经典博弈诸如囚徒困境、性别战争、古诺双寡头垄断、贝特兰德双寡头垄断等博弈都可以归为此类博弈。

本文分析了2×2矩阵博弈中的混合策略均衡，讨论了此类博弈的严格优势策略和纯策略均衡，得到了在没有严格优势策略且存在唯一均衡的2×2矩阵博弈中，均衡必为混合策略均衡。

考虑2×2矩阵博弈。对于参与人1和参与人2，参与人1的可选策略为U和D，参与人2的可选策略为L和R。他们的收益情况如下：

（1）当参与人1选择策略且参与人2选则策略时，他们的收益分别为和；

（2）当参与人1选择策略且参与人2选则策略时，他们的收益分别为和；

（3）当参与人1选择策略且参与人2选则策略时，他们的收益分别为和；

（4）当参与人1选择策略且参与人2选则策略时，他们的收益分别为和。

我们可以用如下的矩阵表示：

其中第一列表示参与人1的可选策略，第一行表示参与人2的可选策略，收益中前者为参与人1的收益，后者为参与人2的收益。

设参与人1选取策略的概率为，参与人2选取策略的概率为。这样，参与人1选取策略的概率为，参与人2选取策略的概率为。

可见，对参与人1而言，选取策略的期望收益为，选取策略的期望收益为，于是参与人1选取策略和策略无差异当且仅当。令表示参与人1对参与人2随机化概率的反应函数。则

类似地，对参与人2而言，选取策略的期望收益为，选取策略的期望收益为，于是参与人2选取策略和策略无差异当且仅当。令表示参与人2对参与人1随机化概率的反应函数。则

在博弈中，参与人的严格优势策略是使得参与人选取该策略所获收益严格大于选取其他策略所获收益。在2×2矩阵博弈中，严格优势策略具有如下特征：

对参与人1而言，策略严格优于策略当且仅当；策略严格优于策略当且仅当。

对参与人2而言，策略严格优于策略当且仅当；策略严格优于策略当且仅当。

由于均衡是每个参与人对其对手策略选择的最优反应，则在2×2矩阵博弈中，纯策略均衡具有如下特征：

是均衡当且仅当且；是均衡当且仅当且；是均衡当且仅当且；是均衡当且仅当且。

定理在2×2矩阵博弈中，如果不存在严格优势策略，且存在唯一的均衡，则此均衡必为混合策略均衡。

证明（反证法）假设此博弈中唯一的均衡是纯策略组合，设为，不失一般性，取，对策略组合，和可类似地讨论。由于是均衡当且仅当且。对此分情况进行讨论。

（1）且。由于对参与人1而言，策略不严格优于策略，则，于是；对参与人2而言，策略不严格优于策略，则。于是策略组合是博弈中的一个均衡，这与是唯一的均衡矛盾。

（2）且。此时，则，于是存在使得，即，从而令参与人1选取策略的概率为，可见混合策略组合是博弈的一个均衡，其中表示参与人1以概率选取策略，以概率选取策略，表示参与人2选取策略。这与是唯一的均衡矛盾。

（3）且。此时，则，于是存在使得，即，从而令参与人2选取策略的概率为，可见混合策略组合是博弈的一个均衡，其中表示参与人1选取策略，表示参与人2以概率选取策略，以概率选取策略。这与是唯一的均衡矛盾。

（4）且。此时若策略组合不是均衡，则；若策略组合不是均衡，则。这样策略组合是博弈的一个均衡，与是唯一的均衡矛盾。

综上可知，策略组合不是此博弈的均衡，从而此2×2矩阵博弈的均衡必为混合策略组合。

参考文献：

[1]车竞，钱炜祺，和争春.基于矩阵博弈的两机攻防对抗空战仿真[J].飞行力学，2015，33（2）： 173-177.

[2]马国勇，石春生.基于博弈矩阵模型的企业研发策略[J].统计与决策，2012，1： 54-55.

[3]R.Gibbons.A Primer in Game Theory[M].Prentice Hall，1994.

[4]D.Fudenberg，J.Tirole.Game Theory[M].MIT Press，1991.

[5]张维迎.博弈与社会[M].北京大学出版社，2013.

博弈最优策略范文第2篇

【关键词】非合作博弈；合作博弈；优势策略

The Subcontract Management Dominant Strategy of General Contractor based on Game Theory

Zhang Chang

（Chongqing communications construction group Chongqing 401121）

【Abstract】Based on the"Nash equilibrium" principle of non-cooperative game "prisoner's dilemma"， this paper discusses how to avoid to the "prisoner's dilemma" in game strategy through to the general contractor subcontract management strategy research. Then put forward to the long-term cooperation mechanism which general contracto and subcontractors should actively comply with.At last， we should take advantage of dominant strategy to ultimately achieve a win-win goal.

【Key words】Non-cooperative game；Cooperative game；Dominant strategy

1. 引言

（1）建筑市场施工环节中的总承包商与分包商之间经常矛盾重重，纠纷不断，致使项目质量下降，工期拖延时有发生。如何处理好总包与分包管理方式，促进建筑市场有序健康发展已经成为人们的研究课题。

（2）博弈论在经济管理中已经得到广泛应用，研究表明施工企业总承包商和分包商在工程项目实施中作为相对独立的利益团体，其利益目标不可能完全一致，双方之间存在明显的博弈关系[1～2]。“囚徒困境”是博弈论中非合作博弈最为经典的博弈模型，通过“囚徒困境”原理，我们看到，假如每个人都从利已的角度出发，最后的结果竟然是对大家都不利的“纳什均衡”，个人的理性导致的竟然是集体的非理性，是非合作的博弈均衡，而合作则是好的走出“囚徒困境”的利己策略。“囚徒困境”深刻地反应了社会中人与人的一种博弈状态，从博弈论的角度来说有限次的博弈双方是没有兴趣进行合作的，如果博弈多次重复，合作就可能出现，均衡结果可能与一次博弈大不相同[3～7]。

（3）本文立足于合作博弈可能得到共赢局面，探讨走出共输达到共赢对应的劣势与优势策略组合取舍，找到使双方获得满意收益，即共赢的优势策略。同时借鉴现行的一些项目管理理论对当前企业总承包商与分包商之间存在的问题和解决方法进行一定的研究。

表1 T和J博弈的支付矩阵

2. “囚徒困境”博弈模型

（1）假设有两个小偷T和J共同犯案、私入民宅被警察抓住。警方将两人隔离审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果一个犯罪嫌疑人坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪；如果另一个犯罪嫌疑人也作了坦白，则两人各被判刑8年；如果另一个犯罪嫌人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。

T和J博弈的支付矩阵（表1）

（2）用博弈论术语来说，T或J可以做出的选择被称为“策略”，如“坦白”或者“抵赖”都是策略行为，对T来说尽管他不知道道J是选择了“坦白”还是“抵赖”，他认为他自己选择“坦白”还是比选择“抵赖”好些。也就是说“抵赖”是相对于“坦白”的劣势策略，T不会选择劣势策略，他一般会选择“坦白”的优势策略。对J来说也会动这样的脑筋，最终，两个人都选择了坦白，结果都被判8年刑期。

（3）在这个案例中，T和J所选择的策略组合（坦白，坦白）和（抵赖，抵赖）都能实现博弈均衡。这个策略组合存在优劣之分，前者是优势策略，后者是劣势策略，但T和J一般都不会选择对大家有利的劣势策略“抵赖”，也就是“坦白”是优于“抵赖”的好的策略。类似的这种博弈均衡是1994年诺贝尔经济学奖得主纳什论证的，所以被称为“纳什均衡”，这是一种非合作博弈均衡，并不是对所有人都有利的均衡。

3. 总包与分包的博弈模型

（1）在本节的博弈里，有两个参与人：总承包商和分包商。其中总承包商的策略是：第一种是按照国家规定，保证分包商具有一定的利润空间，及时拨付工程款，设为A1；另一种是降低分包商的利润空间，将工程价格尽可能的压到最低，并延期付款，设为A2。分包商的策略有两种：第一种是信守合同，保证质量和工期，设为B1；另一种是合同违约，设为B2。

表2 参与人双方的支付矩阵

（2）设Q为符合合同要求的合格工程； UQ为不符合合同要求的不合格工程；P为工程款； E1为总承包商挤压分包商利润获得的收益和延期付款节省的财务费用；E2为分包商的适度利润和及时得到工程款而减少的财务费用；C表示分包商为了短期利益而节约的成本（在采取减少必要的劳力投入或材料、设备投入行为的情况下），不包括分包商在保证工程正常施工情况下运用科学的管理方法节约的费用。

参与人双方的支付矩阵为（表2）。

（3）由支付矩阵可以看出：无论总承包商选择A1及时付款还是A2延期付款，分包商在没有其它约束情况下的最优策略为B2合同违约；无论分包商选择信守合同，还是合同违约，在没有其它约束的情况下，总承包商的最优策略为A2延期付款。博弈的纳什均衡为：（ A2，B2），这个纳什均衡对于博弈的某一方来说是理性的选择，但是对于集体来说是一个最不利的结果，总承包商和分包商陷入了“囚徒困境”。

4. 避免博弈中陷入“囚徒困境”的策略

进入“囚徒困境”对总承包商和分包商都没有好处，从博弈论的角度看，出现“囚徒困境”的主要原因是双方不合作。在工程实际中，为了改变这种状况，就需要对博弈过程和规则进行一定的改变，使非合作博弈转化为合作博弈，最后博弈结果能够达到最优或次优。

4.1 增加影响制约因素调整支付矩阵。

（1）在实际工程中，建立健全有关规章制度，加强建设项目过程中的监控机制，强化违约处罚，迫使总承包商、分包商的行为自律，同时总包做好对分包商的服务工作，具有积极引导分包商作出理智决策的作用，从而走向合作。如在分包领域强制性地建立完备的工程担保和保险制度，双方各自出具的合同履行担保会极大地促进双方积极履行合同。

博弈中在加入了工程违约罚金的支付矩阵（表3）。

表3

其中：F1——总承包商违约罚金； F2——分包商违约罚金。

（2）从支付矩阵中可以看出，当总承包商的违约罚金在一个合理的水平时，挤压分包商利润获得的收益和延期付款节省的财务费用E1与违约罚金F1的差值将是负值，总承包商策略A2延期付款将会得不偿失。同理，分包商的违约罚金也调节了分包商的收益，使分包商信守合同的收益大于合同违约的收益。在这种收益状况下，博弈的均衡就会是：（A1，B1），这是对双方有利的优势策略组合。

表4

其中：L1——总承包商长期收益； L2——分包商长期收益。

4.2 长期合作多次博弈。

（1）以上讨论的是总承包商同分包商的一次博弈，双方考虑的只是一次博弈过程中的最优利益。如果博弈模型为多次博弈，博弈方考虑的将会不仅仅是短期的利益，长期利益将会是考虑的重点。

博弈中加入双方长期收益情况下的支付矩阵（表4）。

（2）从支付矩阵可看出，当总承包商诚信履约，保证分包商适度利润并及时付款获得的长期收益大于挤压分包商利润获得的收益和延期付款节省的财务费用时，即L1≥I1，总承包商策略A2将不再是最优选择。同理，当分包商信守合同并积极施工获得长期收益大于分包商为了短期利益节约的成本时，即L2≥C，分包商为了获得更加可观的长期收益将不再采取减少投入，甚至偷工减料的成本节约措施。在这种收益状况下，博弈的均衡就将是（A1，B1），这是对双方有利的优势策略组合。可见当长期收益更为重要的时候，长期的收益将会成为博弈决策的决定因素。

5. 结论

施工企业总承包商是在分包过程中占主导地位，拥有大量的分包商，其分包管理策略对项目最终收益有重要影响，非合作博弈会导致总承包商和分包商在个体理性下，分包商会选择合同违约、不积极施工，总承包商会选择挤压分包商利润并延期付款，双方陷入“囚徒困境”。这就需要在博弈过程中加入有利的影响制约因素，改变双方的支付矩阵，如建立健全建设项目过程中的监控机制，强化违约处罚，迫使双方行为自律，而做好总包管理服务工作，具有积极引导分包商作出理智决策的作用，最终促进双方积极履行合同。而建立合作伙伴机制创造多次博弈的情况下，无论是总承包商还是分包商都将会严守信用，在决策的过程中，不会只看重眼前的利益，而会为了以后的发展选择更为理智的决策，为此必须建立总承包商和分包商的长效合作机制，双方由合同关系转变为合伙关系，采取优势策略开展合作博弈能使双方获得满意收益，最终实现共赢目标。

参考文献

[1] 王家辉.博弈论中的“囚徒困境”模型[J].《统计与决策》，2005（15）.

[2] 方芳，杨琦峰.张斯航.工程项目管理中的“囚徒困境”博弈研究[J].《当代经济》，2008（12） .

[3] 毕春丽陈鹏王长峰.企业工程项目总承包商与分包商博弈模型与策略研究[J].《项目管理技术》 2010（5） .

[4] 朱高明，王喜军，王孟均.博弈论在工程管理中的应用 [J].长沙铁道学院学报，2002，（1）.

[5] 刘振奎.博弈论在工程项目冲突管理中的应用[J] .《基建优化》2007（6）.

[6] 谢识予.经济博弈论[M].上海：复旦大学出版社.2002.

[7] 杨晓林. 建设项目总承包商与分包商合作关系的单期博弈分析[J].《工程管理学报》. 2010（5） .

博弈最优策略范文第3篇

【关键词】多维博弈;不完全信息;价格;贝叶斯纳什均衡

一、引言

在现实经济活动中，企业之间存在多个具有相互影响的博弈问题，如企业对具有一定替代性的多种产品的生产进行博弈的问题。当企业对每一种产品进行博弈时，除了要考虑竞争对手同类产品策略对本企业产品的影响外，还要考虑其他替代性产品策略对该产品的影响，这就构成了多维博弈问题。

谭德庆在论文中系统的介绍了多维博弈的定义和基本理论，并给出了完全信息和不完全信息下的静态和动态博弈基本模型和均衡解;[1]其后又分别研究了产量――价格策略多维静态博弈、类型空间连续的不完全信息多维静态价格博弈、类型空间离散的不完全信息多维静态产量博弈以及不完全信息动态二维价格博弈等多种多维博弈模型;文献[2]则研究了关于具有一定替代性的新旧两种产品在完全信息下的动态产量-价格策略下的双寡头二维博弈模型及其均衡，并与单独博弈的情形作比较，体现了多维博弈在具有替代性产品的博弈中的优越性;文献[3]比较了完全信息与不完全信息下具有替代性产品的古诺竞争的均衡结果，表明了不完全信息下产品的替代性对均衡产量和利润均有影响;本人也曾在论文中探讨了不完全信息条件下的产量――价格策略二维静态博弈模型及均衡[4]。

在实际的市场竞争中，企业在进行产品竞争时，对产品采取价格策略来争夺对手顾客。针对这种情况，已有讨论针对完全信息下的静态双寡头价格策略二维博弈模型及其均衡和类型空间连续的不完全信息双寡头价格策略博弈模型。本文将其拓展到类型空间离散的不完全信息情况下进行相关研究，以期填补这一空缺。

二、类型空间离散的不完全信息二维静态价格博弈

为构建博弈模型，现提出以下假设：

第一，某一地区有两个企业――企业1和企业2――均生产甲乙两种产品，这两种产品具有一定的相互替代性，两个企业生产产品同类但不完全同质，即所生产的同种产品在质量上有一定差异;

第二，两个企业对该地区的产品市场形成垄断，且生产的产品完全供给该地区;

第三，企业1生产的甲乙两种产品的单位生产成本是完全信息，即企业1和企业2均确切知晓企业1所生产的甲乙两种产品的单位生产成本;

第四，企业2所生产的甲产品单位生产成本是完全信息，即企业1和企业2均确切知晓企业2所生产甲产品的单位生产成本;企业2所生产的乙产品单位生产成本为类型空间离散的不完全信息，即企业2确切知晓本企业生产乙产品的单位生产成本，而企业1只知道其生产成本的可能取值及其相应概率。

在静态价格博弈模型下两个企业将同时做出选择，决定自己所生产产品的价格，从而使各自的总利润达到最大。由于其成本信息是类型空间离散的不完全信息，就形成了一个类型空间离散的不完全信息二维静态价格博弈。模型的具体构建过程如下：

设企业i将两种产品的市场价格定为（p，p）≥0，（i=1，2），（p，p）∈p×p，其中第一个下标表示企业，第二个下标表示产品，p×p则表示企业i两种产品可选择的价格策略集合，即价格策略空间。由于两种产品之间存在一定的相互替代性，那么对于企业的一种产品，其需求量不仅受市场上同种商品（本企业和竞争对手企业的该种产品）价格的影响，同时也受本企业和竞争对手企业的另一种产品价格影响，用函数的形式表达即，企业i第j种产品需求函数为。假设，不同企业生产的同种产品在市场上相互间的影响程度相同（即，如果企业i的甲产品价格对企业j的甲产品需求量的影响系数为，那么企业j的甲产品价格对企业i的甲产品需求量的影响系数也是）;某种产品的市场均价对其他产品的需求量影响系数相同（即，如果乙产品的市场均价对企业i的甲产品需求量的影响系数为r1，那么乙产品的市场均价对企业j的甲产品需求量的影响系数也是r1）。根据以上假设关系，可发现企业某种产品的需求量受本企业该产品价格、竞争对手企业同种产品价格、市场上替代性产品平均价格的影响。假设需求函数为如下的线性关系：

（1）

（2）

其中，i，j=1，2，i≠j;、（，>0）分别表示企业j的甲、乙产品价格对企业i的甲、乙产品需求量的影响系数;r1（r1>0）表示乙产品的平均市场价格对甲产品需求量的影响系数，r2（r2>0）表示甲产品的平均市场价格对乙产品需求量的影响系数。

在模型讨论中，只考虑产品生产的单位成本（忽略产品生产的固定成本），并假设其为常数。企业1的甲和乙产品的单位生产成本分别为C11、C12，企业2的甲产品的单位生产成本为C21，为共同知识;企业j的乙产品的单位生产成本有两种可能，以的概率取低成本C，以1-的概率取高成本C，其中可能成本取值及其相关概率为共同知识。

企业1：不知道企业2所有产品确切的单位生产成本，该博弈是不完全信息博弈。企业1在知道企业2乙产品可能成本取值及相应概率的情形下，只能最大化自己的期望收益。企业1盈利函数的期望为：

EU1=E[Q11（p11-C12）+Q12（p12-C12）]

={[a-p11+

企业2：乙产品的成本是固定的，该博弈为完全信息博弈。当乙产品采取低成本时，企业2的盈利函数为：

当乙产品采取高成本时，企业2的盈利函数为：

由于盈利函数光滑可导，对企业1的盈利函数EU1、企业2的盈利函数U和U，通过最优化一阶条件并整理为矩阵形式，可得企业1与企业2的向量反应函数。

为了计算和表达方便，联立三个反应函数方程，得出三个未知向量的贝叶斯纳什均衡解

企业1有唯一的贝叶斯纳什均衡解，即当企业2的成本和概率确定时，企业1的产品定价是固定的;企业2根据自己的成本高低选择相应的贝叶斯纳什均衡解。即企业1的策略为，企业2的策略为{}。此解可推广到两种产品成本均为不完全信息的情形，若企业2两种产品成本都有高低两种选择时，则有五个矩阵方程、五个未知向量，也可得解。

三、单独博弈与二维博弈的均衡结果比较

上面研究了不完全信息条件的双寡头价格策略二维静态博弈模型及其均衡，下面讨论其特殊情形。当甲乙两种产品在市场上不存在任何替代性（即）时，即两个企业分别通过对甲产品进行完全信息价格策略静态博弈，对乙产品进行不完全信息价格策略静态博弈时有关的均衡策略问题。

当两企业只对甲产品进行完全信息价格策略静态博弈时，企业1甲产品的盈利函数为：

U11=Q11（p11-C11）=（a-p11+）（p11-C11）

企业2甲产品的盈利函数为：

U21=Q21（p21-C21）=（a-p21+）（p21-C21）

盈利函数光滑可导，利用最优化一阶条件和求出唯一均衡解

（6）

（7）

当两企业只对乙产品进行不完全信息价格策略静态博弈时，企业1乙产品的期望盈利为：

当乙产品采取低成本时，企业2乙产品的盈利函数为：

当乙产品采取高成本时，企业2的盈利函数为：

盈利函数光滑可导，通过最优化条件求出均衡解为：

（8）

（9）

（10）

当甲乙产品不存在替代性时，，代入式（3）、（4）、（5），计算得到价格策略静态博弈（企业1和企业2对甲产品进行完全信息博弈、对乙产品进行不完全信息博弈）的贝叶斯二维纳什均衡解。通过比对贝叶斯二维纳什均衡结果式的分量与单独博弈的一维纳什均衡结果式（6）（7）（8）（9）（10），二者完全相同。因此，对甲产品进行完全信息价格博弈、对乙产品进行不完全信息价格博弈的双寡头静态博弈模型的一维纳什均衡结果的简单组合，就构成了无替代性的两种产品不完全信息价格策略二维静态博弈模型的贝叶斯纳什均衡解。

四、算例分析

对具有一定相互替代性的两种产品进行定价，企业是二维博弈均衡策略的总利润更高，还是对每种产品进行单独博弈均衡策略的总利润更高，可以通过一个算例来进行比较。不失一般性地，假定a=10，b=12，=0.2，=0.3，=0.18，=0.2;企业1甲产品成本为C11=0.5，乙产品单位成本为C12=0.6;企业2甲产品成本为C21=0.7，乙产品单位成本为=0.4，=0.55，=0.5。

将参数值代入式（3）（4）（5）得贝叶斯纳什均衡下的最优策略向量;相应的各自总利润为。将参数值代入式（6）（7）（8）（9）（10）得单独博弈时纳什均衡下的最优策略为;相应的各自总利润为。

算例分析的结果显示，对具有一定替代性的两种产品进行价格博弈时，企业对两种产品进行多维博弈均衡下的总利润，大于对每种产品进行单独博弈均衡下的总利润，多维博弈均衡策略更优。

五、结论

本文研究了在信息不对称的情形下，两个企业对具有一定替代性的两种产品均采取价格策略，所建立的不完全信息静态二维博弈模型，并得到其贝叶斯纳什均衡解。分析证明了当两种产品不相关时，分别采取价格策略的一维静态博弈模型是本文二维静态博弈模型的特殊情形，即，在不存在替代性的情况下，不完全信息条件下的双寡头价格策略二维静态博弈会退化为两种产品双寡头采取价格策略一维静态博弈的组合。通过算例分析得出，对具有一定相互替代性的两种产品进行价格博弈时，对两种产品联合二维博弈的均衡策略优于对每一种产品进行单独博弈的均衡策略，所以此时将两种产品的相关决策联合起来考虑才会得到较高利润。

【参考文献】

[1] 谭德庆.多维博弈及应用研究[D].成都：西南交通大学，2004.1.

[2] 刘军，李成金.产量-价格策略下的双寡头动态多维博弈[J].中国管理科学，2008.16（6）150-155.

[3] 王强，陈圻.不完全成本信息下差异产品厂商古诺竞争博弈分析[J].运筹与管理，2010.19（4）52-58.

[4] Xiang Xiaodong，Cao Bing. Multidimensional game of Cournot-Bertrand model with incomplete information and its analysis[J].Procedia Engineering，2012.29.895-902.

博弈最优策略范文第4篇

关键词：纳什均衡；进化稳定策略；随机稳定状态

中图分类号：C93―03　文献标识码：A　文章编号：1003―7217(2007)04―0087―05

影响因素的不断变化使得经济系统可能长期无法达到均衡，但均衡作为一种参照，无论对理论研究还是实践探索都具有十分重要意义。以互动为基础的博弈理论(包括非合作博弈理论与进化博弈理论)较传统经济理论在研究方法上更进了一步，均衡思想贯穿于整个体系。为了更好地描述真实生活中参与人的行为，从纳什均衡到进化稳定策略再到随机稳定状态等博弈理论的基本均衡概念也在发展中不断完善，纳什均衡只能描述均衡点的局部静态性质，进化稳定策略可以描述系统的局部动态性质，随机稳定状态能描述系统的全局性质。本文在系统论述纳什均衡、进化稳定策略的基础上，重点研究了随机稳定状态及其所隐含的演化思想，同时运用Ellison(2000)的吸引域半径法与Freidlin，M.AndWentzell，A.D.1984)的方向树法分别给出了两状态与多状态情形下的算法。

一、非合作博弈与进化博弈中的均衡思想

非合作博弈理论研究有利益冲突个体在互动时的策略反应，给定利益冲突的每一个体都有既定的选择集，且对选择集中的各个策略都有既定偏好，所有参与人的选择决定博弈结果。该理论关心的问题之一是面对特定博弈，其解是什么?核心概念是Nash在研究非合作博弈问题时提出来的纳什均衡。纳什均衡是指在其他参与人选择一定的条件下，每一个参与人都选择获得最大支付的策略，换句话说，纳什均衡是任何参与人都不会单独偏离的一种状态。纳什运用角谷静夫不动点定理证明了“任何有限博弈都存在纳什均衡”，解决了博弈论发展的核心问题，为非合作博弈理论的快速发展奠定了理论基础。纳什均衡是一个局部最优而非全局最优均衡概念，并不关注均衡效率。非合作博弈理论关心的问题之二就是参与人如何进行策略选择，为什么会选择纳什均衡策略?非合作博弈理论假定参与人是完全理性的，在处理动态博弈时，还要求参与人满足序贯理性这一更强要求。在完全理性假定下，参与人对世界任何变化都会作出最优反应，如果存在均衡，那么他们总会选择均衡策略。但在处理多重均衡时，由于参与人难以推测对方的行为预期，因此，难以在多重均衡特别是多重严格纳什均衡之间作出选择。

非合作博弈理论存在着两大致命缺陷：一是完全理性假定，二是多重均衡问题。完全理性要求使得研究对象脱离现实，多重均衡问题使得理论预测效果大打折扣。与传统方法不同，进化博弈理论以参与人群体为研究对象，因为，参与人都是处于一定社会网络之中，且基于经济关系与其周围的亲戚朋友发生直接互动，参与人的直接互动被限制在一个小的群体范围内，随着时间演化，参与人可能在同一个商店购买物品、同一个企业工作、同一个旅馆休息。进化博弈理论包含了一大类模型，这些模型的核心思想就是强调信念形成过程，并运用动态过程来描述参与人是如何在重复博弈中形成适应的。动态过程可以描述年复一年的文化形成过程、可以描述参与人一代一代的学习过程、可以描述一轮一轮的试验过程，能够较好地解释信念与行动之间的关系。进化模型主要基于两个假设，一是假定每个参与人都通过与其他人行为互动的学习过程来改变其策略的，通过特定的方法来修正对其他参与人行为的预期，在细节上虽然此过程与适应性过程不完全相同，但是大量的结果表明博弈会收敛到纳什均衡的；二是假定参与人进行随机匹配博弈且没有固定博弈对手。进化博弈理论的核心概念――进化稳定策略描述的是这样一种状态：假设存在一个全部选择某一特定策略的大群体和一个选择不同策略的突变小群体，突变小群体进入到大群体而形成一个混合群体。如果突变小群体在混合群体弈所得到的支付大于原群体中个体在混合群体弈所得到的支付，那么小群体就能够侵入大群体，反之就不能够侵入大群体而在演化过程中消失。如果一个群体能够消除任何小突变群体的侵入，那么该群体达到了进化稳定状态，此时该群体所选择的策略就是进化稳定策略。

二、随机因素影响下系统长期行为的稳定性

进化稳定策略概念要求突变因素不连续且不重叠，只能描述单个随机因素影响下任何偏离均衡状态的行为都会随着时间的演化自动回复到原来的进化稳定状态。进化稳定策略描述了局部动态性质，但没有把更为现实的随机因素影响纳入到模型之中，难以准确地给出系统的全局性质。

(一)直面现实的随机系统

现实中经济系统常常会受到来自突变和其他偶然事件的随机冲击，这些随机冲击产生的原因是多方面的：第一，参与人随机匹配的互动过程本身会对系统带来随机性影响；第二，参与人如果是采取混合策略，那么就会有意识地对系统产生随机性影响；第三，博弈支付所受到的未被预期冲击会对系统产生无意识的影响；第四，突变过程本身会对系统产生随机性影响；第五，群体中个体的进入与退出会对系统产生随机影响；第六，系统本身会被累积的随机因素影响。当然，这些因素不是绝对的，但它的确能够说明产生随机影响的主要原因。早期有关进化博弈理论文献表明，由于群体模型足够大，基于个体水平上的随机影响在群体中平均而变得可以忽略，不会对系统的选择行为产生任何影响。这种考虑问题的思想对短期、中长期是有说服力的，但如果考虑一个很长时期，那么即使随机冲击的概率非常少，其累积效果也会对系统长期行为产生不可忽略的影响。Young and Foster首次把影响系统的随机因素纳入到进化模型之中，并提出了既不同于传统ESS也不同于吸引子的随机稳定性概念，使多重均衡问题转变成不同均衡吸引域宽度的比较。随机稳定状态与系统所定义的动态有关，是一个全局动态概念。如果是支付单调动态并且有不变突变率，那么它直接由博弈常返状态的吸引域宽度决定，计算方法源于“方向树法”，其实质是通过比较不同状态的吸引域半径来确定系统的随机稳定状态。

(二)经济系统的随机稳定性

一般的进化模型中参与人都是选择那些相对于群体分布的最优反应策略，群体分布随着时间的演化而不断变化，这是一种奈特不确定性，在支付单调动态下，系统一定会收敛到严格纳什均衡，偶尔也可能出现极限环的情况，但从长期来看，运用进化稳定策略概念是无法在严格纳什均衡之间作出选择。下面以猎鹿博弈为例说明随机稳定状态的求法，支付

矩阵表1。

考察由n个参与人组成的群体，用zt∈Z={0，1，2，∧，n}表示群体在时刻t所处的状态，其中zt为时刻t群体中选择猎鹿策略的人数，时间是离散的。假定群体共有10个人，如果系统有超过6个人选择猎鹿策略，那么最优反应策略就是猎鹿；如果系统少于6个人选择策略猎鹿，那么最优反应策略就是猎兔。如果系统恰好有6个人选择猎鹿，那么系统达到内点均衡状态，但此状态是不稳定的鞍点均衡。

利用Ellison2000的吸引域半径法求随机稳定状态的实质就是比较系统中两个常返状态吸引域的宽度，并由较宽吸引域来决定系统随机稳定状态。在上面例子中，猎鹿状态吸引域就是6，7，8，9，10；而猎兔状态吸引域是0，1，2，3，4，5，6；在不变突变率的条件下，由于猎兔状态的吸引域比猎鹿状态的吸引域宽，所以从长期来看，当突变率趋向于零时，系统将花费大部分时间于吸引域宽的猎兔状态，因此，猎兔状态是随机稳定的，系统存在多个常返状态时，就不能简单地套用上述方法，而需要通过比较不同常返状态所有路径的最小阻抗来确定系统的随机稳定状态。

随机稳定状态是通过概率来度量系统长期行为的。如果系统是连续情形，那么可通过求随机潜力的方法来确定系统的随机稳定状态，并且，有最小随机潜力的状态就是随机稳定状态。现实中，多数情况是离散的，需要根据“方向树法”来计算有多个常返状态的随机潜力。如果每个参与人在任何状态、任何时候都以相同且不为零的突变率选择其他任何策略，就可以保证马尔可夫链的遍历性而使系统存在平稳分布。下面用一个例子来给予说明，假定系统有五个状态，每两个状态之间的阻抗如图2。

显然：该系统有四个常返状态。C1={x1}，C2={x2}，C3={x3}，C4={x4，x5}，由常返状态之间的最短路径所确定的最小阻抗如图3。

四个常返状态对应的随机潜力分别为φ(C1)=1，φ(C2)=5，φ(C4)=3，φ(C4)=6。经过计算可以得到具有最小随机潜力的状态{X1}就是随机稳定状态。

三、严格劣策略对随机稳定性的影响

非合作博弈理论认为，理性人是不会选择严格劣策略的，因此，在作均衡分析时可以优先剔除。然而，有关重复囚徒困境博弈实验研究表明，参与人常常会选择严格劣的合作策略。实验经济学研究表明，在协调博弈中，支付优势并不是均衡选择的唯一标准，劣策略影响博弈的均衡结果，也就是说在博弈中参与人肯定以正的概率相信对手会选择严格劣策略。因此，由博弈支付定义的劣策略可能对均衡选择产生较大的影响，在某些情况下，优先剔除劣策略的分析方法是值得商榷的。

在现实经济系统中，参与人行为受到确定的、随机的等更复杂因素影响，因而，要更真实地描述参与人行为长期演化的合适概念就是随机稳定状态。根据前述定义，动态系统的随机稳定状态是由吸引域宽度或者最小随机潜力来确定的，而吸引域宽度是由博弈支付确定的，在这里的支付不仅包括均衡支付也包括非均衡支付，因而，严格劣策略自然会影响吸引域的宽度，进而影响到系统的随机稳定状态。从理论上证明严格劣策略影响吸引域宽度比较复杂，下面将通过一个具体例子来给予论证，如表2所示的支付矩阵。

首先看支付矩阵左上方的协调博弈。从静态来看，该博弈有两个严格纳什均衡与一个混合策略纳什均衡。从动态来看，如果引入确定性动态或者单次、不重叠影响因素，该博弈两个纯策略严格纳什均衡是进化稳定的，混合策略纳什均衡是不稳定的鞍点均衡，因而，进化稳定策略是对纳什均衡的精炼；如果引入不随系统时间与状态变化而变化的变突变率，则该博弈只有纳什均衡B是随机稳定的，因此，随机稳定状态是进化稳定策略的再次精炼。

在引入不变突变率的随机动态下，加入第三个策略C，要使动态系统随机稳定于状态A，则参数需要满足什么条件，根据Ellison的算法，只要计算状态A的吸引域半径与共轭半径，再比较即可以得到相应的结论。由计算，状态A的吸引域半径为R(A)=5/11；而共轭半径为CR(A)=6/(a+5)，再由Ellison(2000)的定理1可知，仅当R(A)>CR(A)时才可使状态A满足随机稳定性条件，满足。

6/(a+5)41/5

计算表明，只要支付a>41/5>4，那么状态A是随机稳定的，如图4。

可以看出，使A为随机稳定状态的条件是a>41/5>5，也就是说策略C是严格劣策略的。本例说明，虽然严格劣策略C不会成为均衡策略，但它却可以影响参与人的选择，通过改变常返状态的吸引域宽度而改变长期均衡。

从以上例证可以看出，论证严格劣策略影响系统随机稳定状态时，我们在系统中引入了随机影响因素，那么为何要引入呢?下面给予解释：考察表3的协调博弈，因为，1+8>6+2，因此，均衡B是风险占优的，由不变突变率模型结论可知，它就是系统的随机稳定状态。现在加入严格劣策略C。如果列参与人选择策略B，那么行参与人的最优反应策略也是策略B；如果列参与人选择策略A，那么行参与人的最优反应策略也是策略A；但如果列参与人由于错误地选择了严格劣策略C，那么行参与人的最优反应策略又变成了A，同样，如果行参与人错误地选择了策略C，那么列参与人的最优反应策略就变成了A。在这里所说的错误就是随机影响因素，在理性框架下，如果不引入错误，那么就不需要考察随机稳定性，只用纳什均衡即可以表示博弈结果；在模型中引入随机因素使得系统在不同状态之间跳跃，也就是说，系统不会被锁定。结合上述例子，加入严格劣策略C与随机因素以后就增加了行、列参与人选择策略A的可能性，从而拓展了吸引域A的宽度，使得均衡A变成了系统的随机稳定状态。严格劣策略影响系统的随机稳定性这一结论能够解释传统理论下许多难以用数学模型来解释的社会现象，如“迂回战役”、“曲线救国”等等，因为正面攻击无法使得博弈均衡发生改变，而通过非正面攻击却可以使得系统常返状态的吸引域发生变化，进而改变博弈的随机稳定性。

四、纳什均衡、进化稳定策略与随机稳定状态的区别与联系

纳什均衡是指在其他参与人选择不变时，每个人都选择了最大化自己期望支付的策略组合。显然，它是一个点的概念，因此，纳什在证明“任何有限博弈至少有一个纳什均衡”用到了不动点定理，它并不考虑均衡的稳定性，没有把影响因素纳入到模型当中。强调均衡点的不动性而不考虑稳定性，不需要引入外在冲击。进化稳定策略是一种邻域概念，要求对在突变边界内一次性、不连续冲击保持稳健性。引入了孤立的随机冲击，强调局部回复性与被粘性即路径依赖，但它只考察系统进入到吸引域后的情况而把系统进入到吸引域归结到突变。

随机稳定状态是描述系统长期行为的概念，它是指在随机因素影响下，随着影响趋向于零，系统几乎一定回复到相应吸引域的任意少邻域，即系统在该状态出现的概率几乎为1，它不仅是一个邻域概念而且考虑到了邻域的宽度。由于定义，随机稳定状态取决于系统回复到吸引状态的次数，而次数与吸引域的宽度正相关，因此，随机稳定状态就是有最宽吸引域状态。随机稳定状态纳入了连续随机冲击，要求系统不被粘住，强调全局稳定性。为了更直观地比较它们之间的区别与联系，下面运用一个图来给予描述。

显然，从直观上看图中各个点都是纳什均衡点，但只有B、D、F为进化稳定状态点，又因为D的吸引域最宽，只有状态D才是随机稳定状态，博弈支付完全确定的吸引域宽度决定了长期随机稳定状态。

博弈最优策略范文第5篇

[关键词]图书馆联盟；博弈；策略

[中图分类号]G250[文献标识码]A[文章编号]1005-6432（2014）47-0169-02

1前言

图书馆联盟是21世纪文化信息服务领域的一大热点，也是一个崭新的应用研究领域。目前调查结果显示，图书馆联盟合作存在诸多优势，但同时也发现许多问题和风险：联盟合作层次不高，联盟成功率偏低，多数图书馆共建共享的成本大于收益等。图书馆联盟合作中的不稳定性和各种风险困扰着联盟的组织者和参与者，影响着各成员馆参与联盟的积极性和联盟的可持续发展。目前研究者更多地关注图书馆联盟的优势和效用，缺少对图书馆联盟不稳定性及其所导致的风险研究。本文应用博弈论对图书馆联盟合作不稳定性及其风险进行深入探讨，有利于增强联盟稳定性和有效性，进一步完善图书馆联盟的理论。

2图书馆联盟的博弈分析特征

博弈论是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。博弈论的根本特征是策略的依存性。博弈方的得益不仅取决于自己所选择的策略，还依赖其他博弈方选择的策略。图书馆联盟是以实现资源共享、利益互惠为目的而组织起来的、受共同认可的协议和合同制约的图书馆联合体。它既包括从事资源类似活动的图书馆之间的联合，也包括从事资源互补性活动的图书馆之间的合作；既包括强强联合，也包括强弱联合。资源共享是图书馆联盟得以形成的根本动因，成员馆为了获取自己的最大利益，联合在一起犹如一个超级图书馆一样行动。单个成员馆必须考虑与其他成员馆的相互作用，其利益不仅与自己的决策有关，而且还与其他成员馆决策有关。博弈论思想的策略依存的特点反映出博弈论与图书馆联盟策略问题有着天然的联系。

博弈分析的基本要素有参与人、策略、得益和均衡。图书馆联盟的参与人就是成员图书馆。博弈可分为合作博弈与非合作博弈。合作博弈与非合作博弈的主要区别是博弈方能否达成具有约束力的有效协议，能是合作博弈，否则，就是非合作博弈。合作博弈的主要问题是如何分享合作带来的收益。非合作博弈强调的是个人理性或个人最优决策，其结果往往是低效率的甚至是无效率的。合作博弈强调是团体理性，效率、公正、公平是考虑的重点，合作博弈是一种“多赢”策略，能获得较高的效益。可见，图书馆联盟是一种合作博弈，战略目标是集体理性最大化，图书馆通过联盟组织形式，可以获得较高的效益。

3图书馆联盟不稳定性分析

资源共享是图书馆联盟得以形成的根本动因，资源共建是图书馆联盟机能运转的核心和实现共享的前提。尽管联盟内各成员馆都有信息资源共享的愿望，但图书馆联盟实际运行中却存在很大困难。图书馆联盟是一种非正式组织，对成员馆没有强制约束力，各个图书馆在形成联盟时，必须达成一个具有约束力的协议，主要通过规章制度进行约束。但各个图书馆存在“各自为政”现象，成员馆为了追求个体利益最大化的机会主义行为，想方设法的违反联盟协议制定的规则，从而达到使其他成员馆不能充分使用本图书资源的目的。在图书馆联盟中，由于涉及多个图书馆主体，而主体具有个体理性，单个图书馆的违约行为必然引起其他馆的违约反应，最终导致联盟失败，严重影响联盟效益和资源共享。

“囚徒困境”是最经典的博弈模型，其实质反映了个人理性和集体理性的矛盾。下面分析图书馆联盟违约的“囚徒困境”现象，揭示图书馆联盟合作不稳定性。

为便于理解，考虑图书馆联盟中两个成员馆博弈，图书馆A 和B之间的博弈。假设图书馆A和B的行动策略都是“违约”或“不违约”，若A选择“违约”B选择“不违约”，则图书馆A得益是4，图书馆B所得收益为-1。若两家图书馆都采取“违约”策略，则两家图书馆所得收益分别为0、0。若两家图书馆都“不违约”，则两家图书馆得益分别为2、2。博弈的得益矩阵如下图所示。

很容易求得此博弈的纳什均衡是（0，0），这显然是“囚徒困境”的一个变种。如果图书馆A选择对B“不违约”的策略，而图书馆B选择对“违约”策略，则博弈结果是（-1，4），反之结果是（4，-1），即一方采用对另一方违约的行为而得益，另一方则因采用“不违约”行为而遭受损失，最后导致博弈双方都“违约”的困境。如果双方选择相互合作的行为，则博弈结果是（2，2），得益之和可以达到最优，这是一个非合作的纳什均衡。可见，相互合作是实现联盟整体利益最大化的策略，是达到双赢或多赢的重要条件。博弈双方如果只进行一次博弈则无法实现双方利益最大化，也不能实现联盟整体利益最大化。只要某个图书馆选择“违约”，导致所有的图书馆都采取“违约”策略，其他成员馆的利益都将受到损害。图书馆联盟效益和稳定则很难得到保证。这充分说明成员馆违约的风险和联盟的难处。

事实上，在图书馆联盟运行机制中，成员馆之间的博弈往往是重复进行的。重复博弈是指同样结构的博弈重复多次。重复博弈分为有限次重复博弈和无限次重复博弈。有限次重复博弈均衡解和无限次重复博弈均衡解并不相同。在图书馆联盟成员馆间有限重复博弈中，两个博弈方必定都在最后一期实施“违约”行为，因为违约行为将提高他们在最后一期的收益而且不会有未来的惩罚。根据逆推归纳法可得，博弈方在每一阶段的策略组合都是（违约，违约），这与单次博弈的均衡解相同。

无限次重复博弈的结果不同，因为违约这种威胁战略，在一次博弈中是不可置信的，但在多次重复博弈中却可能变得置信的。因此在后一种情况下，成员馆考虑的是所有未来收益之和大于不施行违约的贴现值之和，使得不违约变得可置信，则博弈结果有所改变。在无限次重复博弈中，如果能使双方保持合作（均不违约）给各自所带来的长期收益之和大于不合作（均违约）带来的短期收益，则能够达到最优点。比如，图书馆A欲使图书馆B和它一起组成（不违约，不违约）的策略合作关系，使双方收益最大。A可以宣称，如果你采取“不违约”策略，我将一直选择“不违约”，这对双方均有好处；如果你中途变卦，转换到“违约”，你可能一时得益，但我从下一次将对你进行惩罚，也使用“违约”策略。那么，站在图书馆B的角度看，如果与图书馆A合作，每个阶段上均能获得较高收益；如果中途背信弃义，只顾一时收益，从而引起图书馆A的报复，在以后足够多次的子博弈中只会得到较低的收益，显然得不偿失。因此，无限次重复博弈的均衡解为（不违约，不违约）。可见，无限次重复条件下，成员馆间的合作关系能够自发形成。而在有限次重复的条件下，成员馆之间仍然会陷入个人理性与集体理性的矛盾之中。重复次数主要来自于成员馆在短期利益和长远利益之间的权衡。如果博弈重复多次，成员馆可能就会为了长远的利益而牺牲眼前利益。

在博弈分析中，根据博弈方得益总和是否为零，分为零和博弈和非零和博弈，非零和博弈又把它分为常和博弈和变和博弈。在零和博弈中，一方的赢意味着另一方的输，不管各博弈方如何决策，其博弈结果是各博弈方得益之和都为零。在常和博弈中，博弈结果是各博弈方得益之和总是等于一个非零常数。在变和博弈中，不同的策略组合下各博弈方的得益之和是不同的，若博弈各方之间相互合作，博弈各方的得益能达到较大值。可见，图书馆联盟是一种非零和博弈机制，即是一种效益大于零的博弈。当成员馆各方都从自身利益最大化进行决策时，最终结果只能是共输。只有当双方都持合作、信任和守约进行决策时，才能实现共赢。图书馆只有寻求非零和博弈的战略联盟，通过联盟提高图书馆竞争力，才能实现协同效应。

4联盟不稳定性控制措施

上述博弈分析给我们启示，说明违约导致的风险是可以避免的。下面提出若干控制图书馆联盟不稳定性的策略，有利于防止成员馆违约行为，增强联盟稳定性和有效性。

（1）建立长期合作关系。长期合作意味博弈次数增加，成员馆各方在合作中取得长远利益，减少机会主义行为，降低风险。对各成员馆不合作行为的约束，需要社会和组织的道德、责任、习惯、信仰等引导和约束。图书馆联盟是一种非正式组织，对各成员馆没有强制约束力，约束力度不够。这些都需要建立统一联盟文化，才能有效加强沟通和交流，强化合作意识，增强资源共享理念。

（2）建立基于第三方的联盟组织机构。健全的组织机构是图书馆联盟的基础。建立第三方协调管理中心组织，组织机构要求扁平化结构，能够减少管理层次、消除信息不对称，更有利于成员馆之间的横向沟通和高效运作。

（3）设计基于第三方的联盟利益机制、监督和评估机制。制定利益协调机制、监督和评估机制是强化联盟合作的有效制度保障。通过制定合作协议对各成员馆的责、权、利作出规定，对积极合作者给予奖励，对违约者实施惩罚。建立科学绩效评价体系，合理分配联盟所得利益，利用利益分配机制驱动联盟发展。建立预警指标体系，定期监测，防止成员馆违约带来的风险，保障成员馆多赢目标实现。

参考文献：

上一篇：公园绿色景观设计下一篇：扫黑除恶整改情况汇报

博弈最优策略

相关推荐更多

热门文章排行更多

精品文章排行更多

相关期刊更多

玻璃艺术

逻辑学研究

管理工程学报