博弈论07——Lemke-Howson 算法
Lemke-Howson 算法超详解
- Best response Diagrams 最佳响应图
- Best response polytopes 最佳响应多面体
- Lemke-Howson algorithm Lemke-Howson算法
- 过程
- 第一对纳什均衡
- 1.1 drop 标签3
- 1.2 drop 标签4
- 1.3 drop 标签1
- 第二对纳什均衡
- 2.1 drop 标签2
- 2.2 drop 标签5
- 2.3 drop 标签3
- 2.4 drop 标签4
- 第三对纳什均衡
- 3.1 drop 标签3
- 3.2 drop 标签1
- 结果
- Complementary pivoting 互补枢纽
Best response Diagrams 最佳响应图
示例
对于玩家III
玩家III的最佳响应图
对于玩家IIIIII,
玩家IIIIII的最佳响应图
给图表/结果加上标签,用来标明某个纯策略的选择概率为 0 的情况(红蓝是对应玩家,没有别的含义)
Note1: 标签的打法是,对于玩家本身的策略,是概率问题。对于对位玩家的策略,概率 = 0 打标签。
比如左图,y5=100%y_5 = 100\%y5=100% 是玩家IIIIII选择策略5,这点标签是 444,因为 y4=0y_4 = 0y4=0。
Note 2:左图 {1,2,3}是段,{4,5}是点。右图{4,5}是面,{1,2,3}是边。
现在,其中一个图中的标签表示策略的概率为 0,或者表示策略是最佳响应。例如,第一个图中的标签 5 表示策略 5 的概率为 0,而第二个图中的标签 5 表示策略 5 何时是对玩家 I 的混合策略的最佳回应。因此,为了使这些图中的一对点对应于纳什均衡,我们必须确保这对点覆盖所有 5 个标签。如果是这样,那么我们才具有任何一个属性,即任何一个玩家的每种纯策略要么是最好的回应,要么是概率为 0。下面标记了纳什均衡的一个例子。
左图中的点涵盖标签 2 和 3,右图中的点涵盖标签 1、4 和 5。所以所有 5 个标签都被覆盖了。由此这一对便是纳什均衡。
Best response polytopes 最佳响应多面体
还是这个示例
对于玩家III的最佳响应图
可以绘制玩家III 在三种纯策略中分别获得的预期收益(下图中标记为vvv),并取其中的最大值(上包络线)
最大预期收益上方的区域称为最佳响应多面体 HHH。由于 HHH 由位于三个预期收益函数上方的所有点组成,因此我们也可以用代数方式将点集 HHH 描述为
为了获得最佳响应多面体 QQQ,现在将多面体 HHH 投影到水平面上其中 v=1v = 1v=1,此操作与简单地将 H 的代数描述中的不等式除以 vvv 并 删除 y4+y5=1y_4 + y_5 = 1y4+y5=1 的限制相同。
描述同一集合的更简洁的方式是 Q=y∣Ay≤1,y≥0Q = {y | Ay ≤ 1,y ≥ 0}Q=y∣Ay≤1,y≥0,其中 AAA 是玩家 III 的收益矩阵。这个 QQQ 是玩家的最佳响应多面体,如下所示。
上图都是线段,显然{4,5}是为0的策略,因为策略 y4y_4y4和 y5y_5y5本来就平行,不可能相交。所以这个直角点也是起点。
同理,对于玩家IIIIII,
最佳响应图
最佳响应体
简略版
这个{1,2,3}标签都是面,概率都是0,对应的都是对面轴。尤其是这个333,是底面,这是一个五面多面体3D立体图(上图)。没想到吧,3是底面,都给我整笑了。
Lemke-Howson algorithm Lemke-Howson算法
上述准备工作做完了,如下图
这个算法是干嘛的?找混合纳什均衡(Mixed Nash Equilibrium)
算法 | 解决什么 |
---|---|
迭代消除主导策略、迭代消除弱主导策略、best response画框法 | 纯纳什均衡 |
极大极小(maxmin = minmax)定理 | 双人零和博弈的混合纳什均衡 |
Lemke-Howson 算法 | 一般双人博弈(不一定是零和)混合纳什均衡 |
过程
起点:两个图同时都要有起点,起点选人工标记点(the artificial fully labeled pair of points)。如上图中的绿色圆点。因为左图标签4和5不可能相交,右图1,2,3不可能相交。选这两个。
也可以不选人工标记点,只要能覆盖全标签{1,2,3,4,5}就行
第一对纳什均衡
1.1 drop 标签3
玩家III: {4,5}
玩家IIIIII: {1,2,3}
drop 3 随便选的
drop 3什么意思?
现在哪个点有标签3,移动这个点,让它没有3。
现在只有玩家IIIIII有3,移动玩家IIIIII的点,只有{1,2,4}这个点没有3。
此时
玩家III: {4,5}
玩家IIIIII: {1,2,4}
1.2 drop 标签4
因为标签4重叠了,drop 4
玩家IIIIII相邻点都有标签4。移动玩家III。
此时
玩家III: {1,5}
玩家IIIIII: {1,2,4}
1.3 drop 标签1
因为标签1重叠了,drop 1
玩家III不能走回头路,还有一条路,依旧有标签1。移动玩家IIIIII。
此时
玩家III: {1,5}
玩家IIIIII: {2,3,4}
found a fully labeled pair of points, whichcorresponds to a Nash equilibrium. 找到了一对完全标记的点,这对应于纳什均衡。
第二对纳什均衡
2.1 drop 标签2
玩家III: {4,5}
玩家IIIIII: {1,2,3}
drop 2 随便选的
此时
玩家III: {4,5}
玩家IIIIII: {1,3,5}
2.2 drop 标签5
此时
玩家III: {3,4}
玩家IIIIII: {1,3,5}
2.3 drop 标签3
此时
玩家III: {3,4}
玩家IIIIII: {1,4,5}
2.4 drop 标签4
此时
玩家III: {2,3}
玩家IIIIII: {1,4,5}
nash均衡
第三对纳什均衡
上图起点是人工的时候,有5条路可走。上面走了2条,其他3条,经过尝试,结果都和上面2条结果相同。所以,
不一定必须从人工点开始
如果你 事先已经知道某个 fully labeled 点(比如通过别的算法/手算/对称性),也可以直接从那里开始,然后 drop 一个标签,走路径,最后会到达 另一个 fully labeled 点(也就是另一个纳什均衡)。
3.1 drop 标签3
以上面得到的纳什均衡点为起点
玩家III: {2,3}
玩家IIIIII: {1,4,5}
此时
玩家III: {1,2}
玩家IIIIII: {1,4,5}
3.2 drop 标签1
此时
玩家III: {1,2}
玩家IIIIII: {3,4,5}
纳什均衡
结果
一共三对
Note:
1 起点是人工标记点,后再从纳什均衡点出发作为起点,找;
2 不走回头路;
3 一次走一步,到邻接节点;
4 不同的drop可能会得到相同的结果。
Complementary pivoting 互补枢纽
还是这个示例
对于玩家III
用y1,y2,y3y_1,y_2,y_3y1,y2,y3把数据补上,变成=1=1=1。
把可以为0的放在左边。
同理,两个玩家就是:
可以从对应于人工完全标记点对的字典开始
我们任意选择一个标签来放置。我们先放置标签 3。
x3x_3x3从0开始逐渐变大,1/41/41/4的时候 x4x_4x4先为0,1/31/31/3的时候x5x_5x5再为0。所以更替的是x4x_4x4
x4=1−x1−4x34x3=1−x1−x4x_4 = 1-x_1-4x_3\\ 4x_3 = 1-x_1-x_4x4=1−x1−4x34x3=1−x1−x4
x3=14−14x1−14x4x_3 = \frac{1}{4}- \frac{1}{4}x_1- \frac{1}{4}x_4x3=41−41x1−41x4
又因为
x5=1−2x2−3x3x_5 = 1-2x_2-3x_3 x5=1−2x2−3x3
代入x3x_3x3,
=1−2x2−3(14−14x1−14x4)=1−2x2−34+34x1+34x4=14+34x1−2x2+34x4=1-2x_2-3 (\frac{1}{4}- \frac{1}{4}x_1- \frac{1}{4}x_4)\\ = 1-2x_2 -\frac{3}{4} +\frac{3}{4}x_1+\frac{3}{4}x_4\\ = \frac{1}{4}+\frac{3}{4}x_1-2x_2+\frac{3}{4}x_4=1−2x2−3(41−41x1−41x4)=1−2x2−43+43x1+43x4=41+43x1−2x2+43x4
发现在左边,缺标签4。drop 标签4。看右边,1\3更小。再次进行同上的操作。
欧克,两边的右侧标签齐了。得到了纳什均衡。
理解一下这个过程就行了,确实有点恶心。