我的煤炭网

我的煤炭网>新闻>综合信息>选矿知识>基于 PolicyGradient算法的PoW挖矿困境研究

基于 PolicyGradient算法的PoW挖矿困境研究

基于 PolicyGradient算法的PoW挖矿困境研究 基于 PolicyGradient算法的PoW挖矿困境研究
 针对区块链中工作量证明共识机制(Proof of Work,PoW)下区块截留攻击导致的挖矿困境问题,将矿池间的博 弈行为视作迭代的囚徒困境模型(Iterative Prisoner's Dilemma,IPD),采用深度强化学习的策略梯度(policy gradient)算法 研究 IPD 的策略选择。利用该算法将每个矿池视为独立的智能体(agent),将矿工的潜入率量化为强化学习中的行为分布,通过 policy gradient 中的策略网络对 agent 的行为进行预测和优化,最大化矿工的人均收益,并通过模拟实验验证了 policy gradient 算法的有效性。实验发现,前期矿池处于相互攻击状态,平均收益小于 1,出现了纳什均衡的问题;经过 policy gradient 算法 的自我调整后,矿池由相互攻击转变为相互合作,双方的潜入率趋于 0,人均收益趋于 1。结果表明,policy gradient 算法可以 解决挖矿困境的纳什均衡问题,最大化矿池人均收益。
在工作量证明(PoW)共识机制下,基于比特币挖 矿困境创建了矿池间博弈的模型,采用博弈的思想解决了矿 难问题中策略的选择。通过对比特币区块截留攻击的漏洞进 行分析,将矿难模型视为迭代的囚徒困境模型,采用深度强 化学习的 policy gradient 算法对每个矿池创建了独立的策略 梯度网络,利用网络对矿池间合作与竞争(即攻击)的行为 选择进行优化。通过模拟实验发现,最初阶段,双方可以通 过增加潜入率来提高收益,然而不断地相互攻击,会导致纳 什均衡局面的出现,随后在 policy gradient 算法的决策下, 双方由相互攻击转变为相互合作,实现了人均收益的最大化, 达到了互利共赢的状态。由整个过程可以看出,policy gradient 算法的使用有效地解决了 PoW 共识机制下的挖矿困 境问题,也为解决纳什均衡问题提供了新的思路。 
免责声明:本网部分内容来自互联网媒体、机构或其他网站的信息转载以及网友自行发布,并不意味着赞同其观点或证实其内容的真实性。本网所有信息仅供参考,不做交易和服务的根据。本网内容如有侵权或其它问题请及时告之,本网将及时修改或删除。凡以任何方式登录本网站或直接、间接使用本网站资料者,视为自愿接受本网站声明的约束。

下一篇:电气石与电石(电气石有哪些)

上一篇:页岩气三维地震勘探(遥感在地质矿产方面的应用)