TFT

开始合作,然后做对手在上一局地选择,即如果对手在上一局cooperate,那本局就cooperate,如果对手在上一局defect,那么就在本局defect。

Pavlov

如果两名玩家都在上局合作则本局合作,如果两名玩家都在上局背叛则本局选择背叛。

新的框架

  1. policy generating function:
  2. belief $\beta_j$
  3. Influence function $\theta$

在想这三个指标是作者自己提出来的么?并没有在其他文章中见到过

Best response 多智能体学习最优反应

$$
B R_{i}(\hat{\theta})=\pi_{i}^{*}(s, a, \hat{\theta})=B R_{i}\left(\boldsymbol{\pi}{-i} \mid \pi{j} \sim \beta_{j}\left(\tau \mid h_{j}\right), h_{j} \sim p\left(h_{j} \mid h_{i}\right)\right)
$$

五种方式应对non-stationarity 行为

  1. 忽略,假设环境是平稳的

    image-20220626112714475
  2. 遗忘,通过忘掉一些信息来适应环境的改变,并实时更新观测,大多属于model-free类算法

    image-20220626112807568
  3. 对目标对手反应,通常有定义好的明确的目标对手,并且根据目标对手行为来优化策略

    image-20220626112825776
  4. 学习一个敌对模型并且据此来优化行为策略,当敌对目标改变的时候也需要相应地更i性能模型和策略

    image-20220626112935669
  5. 模拟假设对手也在模拟自己,形成了一种循环推理

    image-20220626112954137

算法比较

image-20220626130110705

算法联系

image-20220626130143575