基于 PolicyGradient算法的PoW挖矿困境研究

基于 PolicyGradient算法的PoW挖矿困境研究基于 PolicyGradient算法的PoW挖矿困境研究
针对区块链中工作量证明共识机制(Proof of Work，PoW)下区块截留攻击导致的挖矿困境问题，将矿池间的博弈行为视作迭代的囚徒困境模型(Iterative Prisoner's Dilemma，IPD)，采用深度强化学习的策略梯度(policy gradient)算法研究 IPD 的策略选择。利用该算法将每个矿池视为独立的智能体(agent)，将矿工的潜入率量化为强化学习中的行为分布，通过 policy gradient 中的策略网络对 agent 的行为进行预测和优化，最大化矿工的人均收益，并通过模拟实验验证了 policy gradient 算法的有效性。实验发现，前期矿池处于相互攻击状态，平均收益小于 1，出现了纳什均衡的问题;经过 policy gradient 算法的自我调整后，矿池由相互攻击转变为相互合作，双方的潜入率趋于 0，人均收益趋于 1。结果表明，policy gradient 算法可以解决挖矿困境的纳什均衡问题，最大化矿池人均收益。
在工作量证明(PoW)共识机制下，基于比特币挖矿困境创建了矿池间博弈的模型，采用博弈的思想解决了矿难问题中策略的选择。通过对比特币区块截留攻击的漏洞进行分析，将矿难模型视为迭代的囚徒困境模型，采用深度强化学习的 policy gradient 算法对每个矿池创建了独立的策略梯度网络，利用网络对矿池间合作与竞争(即攻击)的行为选择进行优化。通过模拟实验发现，最初阶段，双方可以通过增加潜入率来提高收益，然而不断地相互攻击，会导致纳什均衡局面的出现，随后在 policy gradient 算法的决策下，双方由相互攻击转变为相互合作，实现了人均收益的最大化，达到了互利共赢的状态。由整个过程可以看出，policy gradient 算法的使用有效地解决了 PoW 共识机制下的挖矿困境问题，也为解决纳什均衡问题提供了新的思路。免责声明：本网部分内容来自互联网媒体、机构或其他网站的信息转载以及网友自行发布，并不意味着赞同其观点或证实其内容的真实性。本网所有信息仅供参考，不做交易和服务的根据。本网内容如有侵权或其它问题请及时告之，本网将及时修改或删除。凡以任何方式登录本网站或直接、间接使用本网站资料者，视为自愿接受本网站声明的约束。

我的煤炭网

首页

新闻
价格
供应
求购
企业
会展
百科
知道
视频
下载
VIP

基于 PolicyGradient算法的PoW挖矿困境研究

相关内容