综述在涉及非平稳性的多种环境中学习的调查 A Survey of Learning in Multiagent Environments Dealing with Non-Stationarity
TFT
开始合作,然后做对手在上一局地选择,即如果对手在上一局cooperate,那本局就cooperate,如果对手在上一局defect,那么就在本局defect。
Pavlov
如果两名玩家都在上局合作则本局合作,如果两名玩家都在上局背叛则本局选择背叛。
新的框架
- policy generating function:
- belief $\beta_j$
- Influence function $\theta$
在想这三个指标是作者自己提出来的么?并没有在其他文章中见到过
Best response 多智能体学习最优反应
$$
B R_{i}(\hat{\theta})=\pi_{i}^{*}(s, a, \hat{\theta})=B R_{i}\left(\boldsymbol{\pi}{-i} \mid \pi{j} \sim \beta_{j}\left(\tau \mid h_{j}\right), h_{j} \sim p\left(h_{j} \mid h_{i}\right)\right)
$$
五种方式应对non-stationarity 行为
忽略,假设环境是平稳的
遗忘,通过忘掉一些信息来适应环境的改变,并实时更新观测,大多属于model-free类算法
对目标对手反应,通常有定义好的明确的目标对手,并且根据目标对手行为来优化策略
学习一个敌对模型并且据此来优化行为策略,当敌对目标改变的时候也需要相应地更i性能模型和策略
模拟假设对手也在模拟自己,形成了一种循环推理

算法比较

算法联系

All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.
Comments