囚徒困境的纳什均衡囚徒困境的破解方法囚徒困境的最优策略

一：关于囚徒困境与纳什均衡 30分

础20世纪50年代的一系列博弈论的论文提出的约翰·纳什纳什均衡。他假设的玩家在游戏中，每个玩家选择自己的最优策略，在给定条件的其他人策略（个人最优策略可能依赖于也可能不依赖于他人的战略），从而使效用最大化。所有球员的策略构成的组合策略（策略模式）。纳什均衡是指这样一个战略组合，这种策略的最优策略组合由所有参加者，即，给定其他战略的情况下，没有足够的理由来打破这种平衡。囚徒困境形成均衡解纳什均衡解，两名囚犯的角度考虑自身效用最大化来清洁，但是这是不是帕累托最优的。

二：囚徒困境的纳什均衡为什么只有一个？

因为做坦白选择的后果是-8,0；而抵赖的后果是-10，-1；期望一比较，很明显，显然坦白的损失会少，因此两人都会选择坦白，而不会选择都抵赖，所以均衡只有一个就是都坦白

三：囚徒困境和纳什均衡、帕累托效应之间的关系是什么

囚徒困境的过程恰好是占优均衡的表现。然后是我对于纳什均衡与帕累托最优关系的理解。纳什均衡从根本上来说,是为了满足个人利益最大化的决策结果。

四：博弈论是什么？纳什均衡又是什么？囚徒困境是什么？智猪问题又是什么？ 5分

博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略，达到取胜的意义，它是研究互动决策的理论，即各行动方的决策是相互影响。——搜狗百科

纳什均衡又称为非合作博弈均衡，是在给定其他人策略的条件下，每个局中人选择自己的最优策略（个人最优策略可能依赖于也可能不依赖于他人的战略），从而使自己利益最大化。所有局中人策略构成一个策略组合。纳什均衡指的是这样一种战略组合。——搜狗百科

囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。囚徒困境的故事讲的是，两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里接受审讯。警察知道两人有罪，但缺乏足够的证据。警察告诉每个人：如果两人都抵赖，各判刑一年；如果两人都坦白，各判八年；如果两人中一个坦白而另一个抵赖，坦白的放出去，抵赖的判十年。于是，每个囚徒都面临两种选择：坦白或抵赖。然而，不管同伙选择什么，每个囚徒的最优选择是坦白：如果同伙抵赖、自己坦白的话放出去，不坦白的话判一年，坦白比不坦白好；如果同伙坦白、自己坦白的话判八年，不坦白的话判十年，坦白还是比不坦白好。结果，两个嫌疑犯都选择坦白，各判刑八年。如果两人都抵赖，各判一年，显然这个结果好。——搜狗百科

智猪博弈问题：假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽，另一头安装着控制猪食供应的按钮，按一下按钮会有10个单位的猪食进槽，但是谁按按钮就会首先付出2个单位的成本，若大猪先到槽边，大小猪吃到食物的收益比是9∶1；同时到槽边，收益比是7∶3；小猪先到槽边，收益比是6∶4。那么，在两头猪都有智慧的前提下，最终结果是什么？

小猪绝对不会按按钮

因为小猪只要按下按钮大猪就会先吃到食物

小猪只有2种收益情况

一 p=-1(大猪不按)

二 p=1（大猪按）

如果小猪不按按钮那么收益情况也是两种

一 p=0（大猪不按）

二 p=4（大猪按）

因此可以看出大猪不管做哪种决定

小猪只要按下按钮它就意味着肯定吃亏

因此小猪肯定不会按

那么大猪也会分析在小猪不按按钮的情况下自己的收益

大猪不按收益p=0

大猪按收益p=4

此时大猪发现如果自己按收益会高一些

毕竟有收益好过没有收益

因此大猪决定会按下按钮 ——百度知道

故在大小猪都聪明的情况下

两只猪的收益都是4

并且此时的策略集为大猪按键，小猪等待

五：请举一个类似“囚徒困境”的例子，说明纳什均衡（写出二阶支付矩阵)

双头垄断的俩家公司，他们平分了整个相关产业的全部市场份额，

所以，

公司A决定本年产量在预计了B公司的产量后，

而B也进行了同样的预计并增产，

增产不增产

增产都增产 (利润各提高5%） A增产，B不增产（A利润提高50%）

不增产 B增产，A不增产（B提高50％）都不增产　（都不提高）

这种那时均衡的实例最典型的就是双寡头，请自己再参考百度百科相关的内容和模型。

六：多次的囚徒困境有没有纳什均衡？为什么说混合策略一定存在纳什均衡 250分

你这条提问包含5问。其中有的提问大前提就不对。

多次的囚徒困境，和单次发生的囚徒困境，结果是不会一样。

多次的囚徒困境，存在纳什均衡。

纳什均衡，Nash equilibrium ,又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。纳什均衡是一种策略组合，使得每个参与人的策略是对其他参与人策略的最优反应。

在完全信息博弈中，如果在每个给定信息下，只能选择一种特定策略，这个策略为纯策略(pure strategy)。如果在每个给定信息下只以某种概率选择不同策略，称为混合策略(mixed strategy)。

在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去"惩罚"另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

囚徒困境的纳什均衡