TFT

开始合作，然后做对手在上一局地选择，即如果对手在上一局cooperate，那本局就cooperate，如果对手在上一局defect，那么就在本局defect。

Pavlov

如果两名玩家都在上局合作则本局合作，如果两名玩家都在上局背叛则本局选择背叛。

新的框架

policy generating function:
belief $\beta_j$
Influence function $\theta$

在想这三个指标是作者自己提出来的么？并没有在其他文章中见到过

Best response 多智能体学习最优反应

$$
B R_{i}(\hat{\theta})=\pi_{i}^{*}(s, a, \hat{\theta})=B R_{i}\left(\boldsymbol{\pi}{-i} \mid \pi{j} \sim \beta_{j}\left(\tau \mid h_{j}\right), h_{j} \sim p\left(h_{j} \mid h_{i}\right)\right)
$$

五种方式应对non-stationarity 行为

忽略，假设环境是平稳的
遗忘，通过忘掉一些信息来适应环境的改变，并实时更新观测，大多属于model-free类算法
对目标对手反应，通常有定义好的明确的目标对手，并且根据目标对手行为来优化策略
学习一个敌对模型并且据此来优化行为策略，当敌对目标改变的时候也需要相应地更i性能模型和策略
模拟假设对手也在模拟自己，形成了一种循环推理

综述在涉及非平稳性的多种环境中学习的调查 A Survey of Learning in Multiagent Environments Dealing with Non-Stationarity

TFT

Pavlov

新的框架

Best response 多智能体学习最优反应

五种方式应对non-stationarity 行为

算法比较

算法联系