针对区块链中工作量证明共识机制(Proof of Work,PoW)下区块截留攻击导致的挖矿困境问题,将矿池间的博 弈行为视作迭代的囚徒困境模型(Iterative Prisoner's Dilemma,IPD),采用深度强化学习的策略梯度(policy gradient)算法 研究 IPD 的策略选择。利用该算法将每个矿池视为独立的智能体(agent),将矿工的潜入率量化为强化学习中的行为分布,通过 policy gradient 中的策略网络对 agent 的行为进行预测和优化,最大化矿工的人均收益,并通过模拟实验验证了 policy gradient 算法的有效性。实验发现,前期矿池处于相互攻击状态,平均收益小于 1,出现了纳什均衡的问题;经过 policy gradient 算法 的自我调整后,矿池由相互攻击转变为相互合作,双方的潜入率趋于 0,人均收益趋于 1。结果表明,policy gradient 算法可以 解决挖矿困境的纳什均衡问题,最大化矿池人均收益。
在工作量证明(PoW)共识机制下,基于比特币挖 矿困境创建了矿池间博弈的模型,采用博弈的思想解决了矿 难问题中策略的选择。通过对比特币区块截留攻击的漏洞进 行分析,将矿难模型视为迭代的囚徒困境模型,采用深度强 化学习的 policy gradient 算法对每个矿池创建了独立的策略 梯度网络,利用网络对矿池间合作与竞争(即攻击)的行为 选择进行优化。通过模拟实验发现,最初阶段,双方可以通 过增加潜入率来提高收益,然而不断地相互攻击,会导致纳 什均衡局面的出现,随后在 policy gradient 算法的决策下, 双方由相互攻击转变为相互合作,实现了人均收益的最大化, 达到了互利共赢的状态。由整个过程可以看出,policy gradient 算法的使用有效地解决了 PoW 共识机制下的挖矿困 境问题,也为解决纳什均衡问题提供了新的思路。