当前位置：首页 > news >正文

博弈论07——Lemke-Howson 算法

news 2025/8/17 14:19:33

Lemke-Howson 算法超详解

Best response Diagrams 最佳响应图
Best response polytopes 最佳响应多面体
Lemke-Howson algorithm Lemke-Howson算法
- 过程
- - 第一对纳什均衡
  - 1.1 drop 标签3
  - 1.2 drop 标签4
  - 1.3 drop 标签1
  - 第二对纳什均衡
  - 2.1 drop 标签2
  - 2.2 drop 标签5
  - 2.3 drop 标签3
  - 2.4 drop 标签4
  - 第三对纳什均衡
  - 3.1 drop 标签3
  - 3.2 drop 标签1
- 结果
Complementary pivoting 互补枢纽

Best response Diagrams 最佳响应图

示例
在这里插入图片描述
对于玩家 $I$

玩家 $I$ 的最佳响应图

对于玩家 $II$ ，
在这里插入图片描述

玩家 $II$ 的最佳响应图

给图表/结果加上标签，用来标明某个纯策略的选择概率为 0 的情况（红蓝是对应玩家，没有别的含义）

Note1: 标签的打法是，对于玩家本身的策略，是概率问题。对于对位玩家的策略，概率 = 0 打标签。比如左图， $y_5 = 100\%$ 是玩家 $II$ 选择策略5，这点标签是 $4$ ，因为 $y_4 = 0$ 。

Note 2：左图 {1，2，3}是段，{4，5}是点。右图{4，5}是面，{1，2，3}是边。

现在，其中一个图中的标签表示策略的概率为 0，或者表示策略是最佳响应。例如，第一个图中的标签 5 表示策略 5 的概率为 0，而第二个图中的标签 5 表示策略 5 何时是对玩家 I 的混合策略的最佳回应。因此，为了使这些图中的一对点对应于纳什均衡，我们必须确保这对点覆盖所有 5 个标签。如果是这样，那么我们才具有任何一个属性，即任何一个玩家的每种纯策略要么是最好的回应，要么是概率为 0。下面标记了纳什均衡的一个例子。

左图中的点涵盖标签 2 和 3，右图中的点涵盖标签 1、4 和 5。所以所有 5 个标签都被覆盖了。由此这一对便是纳什均衡。

Best response polytopes 最佳响应多面体

还是这个示例
在这里插入图片描述
对于玩家 $I$ 的最佳响应图

可以绘制玩家 $I$ 在三种纯策略中分别获得的预期收益（下图中标记为 $v$ ），并取其中的最大值（上包络线）

最大预期收益上方的区域称为最佳响应多面体 $H$ 。由于 $H$ 由位于三个预期收益函数上方的所有点组成，因此我们也可以用代数方式将点集 $H$ 描述为

在这里插入图片描述
为了获得最佳响应多面体 $Q$ ，现在将多面体 $H$ 投影到水平面上其中 $v = 1$ ，此操作与简单地将 H 的代数描述中的不等式除以 $v$ 并删除 $y_4 + y_5 = 1$ 的限制相同。

描述同一集合的更简洁的方式是 $Q = {y | Ay ≤ 1,y ≥ 0}$ ，其中 $A$ 是玩家 $I$ 的收益矩阵。这个 $Q$ 是玩家的最佳响应多面体，如下所示。
在这里插入图片描述
上图都是线段，显然{4，5}是为0的策略，因为策略 $y_4$ 和 $y_5$ 本来就平行，不可能相交。所以这个直角点也是起点。

同理，对于玩家 $II$ ，
最佳响应图
在这里插入图片描述
最佳响应体

简略版

这个{1，2，3}标签都是面，概率都是0，对应的都是对面轴。尤其是这个 $3$ ，是底面，这是一个五面多面体3D立体图（上图）。没想到吧，3是底面，都给我整笑了。

Lemke-Howson algorithm Lemke-Howson算法

在这里插入图片描述
上述准备工作做完了，如下图

这个算法是干嘛的？找混合纳什均衡（Mixed Nash Equilibrium）

算法	解决什么
迭代消除主导策略、迭代消除弱主导策略、best response画框法	纯纳什均衡
极大极小（maxmin = minmax）定理	双人零和博弈的混合纳什均衡
Lemke-Howson 算法	一般双人博弈（不一定是零和）混合纳什均衡

过程

起点：两个图同时都要有起点，起点选人工标记点（the artificial fully labeled pair of points）。如上图中的绿色圆点。因为左图标签4和5不可能相交，右图1，2，3不可能相交。选这两个。
也可以不选人工标记点，只要能覆盖全标签{1，2，3，4，5}就行

第一对纳什均衡

1.1 drop 标签3

玩家 $I$ ： {4，5}
玩家 $II$ ： {1，2，3}

drop 3 随便选的
drop 3什么意思？
现在哪个点有标签3，移动这个点，让它没有3。
现在只有玩家 $II$ 有3，移动玩家 $II$ 的点，只有{1，2，4}这个点没有3。
在这里插入图片描述

在这里插入图片描述
此时

玩家 $I$ ： {4，5}
玩家 $II$ ： {1，2，4}

1.2 drop 标签4

因为标签4重叠了，drop 4
玩家 $II$ 相邻点都有标签4。移动玩家 $I$ 。
在这里插入图片描述
此时

玩家 $I$ ： {1，5}
玩家 $II$ ： {1，2，4}

1.3 drop 标签1

因为标签1重叠了，drop 1
玩家 $I$ 不能走回头路，还有一条路，依旧有标签1。移动玩家 $II$ 。

在这里插入图片描述
此时

玩家 $I$ ： {1，5}
玩家 $II$ ： {2，3，4}
found a fully labeled pair of points, whichcorresponds to a Nash equilibrium. 找到了一对完全标记的点，这对应于纳什均衡。

第二对纳什均衡

2.1 drop 标签2

玩家 $I$ ： {4，5}
玩家 $II$ ： {1，2，3}

drop 2 随便选的
在这里插入图片描述
此时

玩家 $I$ ： {4，5}
玩家 $II$ ： {1，3，5}

2.2 drop 标签5

在这里插入图片描述
此时

玩家 $I$ ： {3，4}
玩家 $II$ ： {1，3，5}

2.3 drop 标签3

在这里插入图片描述
此时

玩家 $I$ ： {3，4}
玩家 $II$ ： {1，4，5}

2.4 drop 标签4

在这里插入图片描述
此时

玩家 $I$ ： {2，3}
玩家 $II$ ： {1，4，5}
nash均衡

在这里插入图片描述

第三对纳什均衡

上图起点是人工的时候，有5条路可走。上面走了2条，其他3条，经过尝试，结果都和上面2条结果相同。所以，
不一定必须从人工点开始
如果你事先已经知道某个 fully labeled 点（比如通过别的算法/手算/对称性），也可以直接从那里开始，然后 drop 一个标签，走路径，最后会到达另一个 fully labeled 点（也就是另一个纳什均衡）。

3.1 drop 标签3

以上面得到的纳什均衡点为起点

玩家 $I$ ： {2，3}
玩家 $II$ ： {1，4，5}

在这里插入图片描述

此时

玩家 $I$ ： {1，2}
玩家 $II$ ： {1，4，5}

3.2 drop 标签1

在这里插入图片描述
此时

玩家 $I$ ： {1，2}
玩家 $II$ ： {3，4，5}
纳什均衡

结果

一共三对
在这里插入图片描述
Note:
1 起点是人工标记点，后再从纳什均衡点出发作为起点，找；
2 不走回头路；
3 一次走一步，到邻接节点；
4 不同的drop可能会得到相同的结果。

Complementary pivoting 互补枢纽

还是这个示例
在这里插入图片描述
对于玩家 $I$

用 $y_1,y_2,y_3$ 把数据补上，变成 $= 1$ 。

在这里插入图片描述
把可以为0的放在左边。

同理，两个玩家就是：
可以从对应于人工完全标记点对的字典开始
在这里插入图片描述
我们任意选择一个标签来放置。我们先放置标签 3。
$x_3$ 从0开始逐渐变大， $1/4$ 的时候 $x_4$ 先为0， $1/3$ 的时候 $x_5$ 再为0。所以更替的是 $x_4$
$x_4 = 1-x_1-4x_3\\ 4x_3 = 1-x_1-x_4$
$x3=14−14x1−14x4x_3 = \frac{1}{4}- \frac{1}{4}x_1- \frac{1}{4}x_4$
又因为
$x_5 = 1-2x_2-3x_3$
代入 $x_3$ ，
$=1−2x2−3(14−14x1−14x4)=1−2x2−34+34x1+34x4=14+34x1−2x2+34x4=1-2x_2-3 (\frac{1}{4}- \frac{1}{4}x_1- \frac{1}{4}x_4)\\ = 1-2x_2 -\frac{3}{4} +\frac{3}{4}x_1+\frac{3}{4}x_4\\ = \frac{1}{4}+\frac{3}{4}x_1-2x_2+\frac{3}{4}x_4$