我们研究汉密尔顿蒙特卡罗(HMC)从强积分密度中抽样,其密度与$ e ^ { - f} $成比例,其中$ f:\ mathbb {R} ^ d \到\ mathbb {R} $是$ \ mu $ -strongly凸和$ L $ - 平滑(条件数是$ \ kappa = L / \ mu $)。我们证明理想HMC的弛豫时间(光谱间隙的倒数)是$ O(\ kappa)$,改善了之前的最佳界限$ O(\ kappa ^ {1.5})$;我们用一个放松时间为$ \ Omega(\ kappa)$的例子来补充这一点。当使用近乎最优的ODE求解器实现时,HMC使用$ \ widetilde {O}((\ kappa d)^ {0.5} \ varepsilon ^ { - 1})$ $ $ $ Wasserstein距离返回$ \ varepsilon $ - 近似点。$渐变评估perstep和$ \ widetilde {O}((\ kappa d)^ {1.5} \ varepsilon ^ { - 1})$总时间。
translated by 谷歌翻译
基于机器学习的基于流的生成大小单双倍投公式的马尔可夫链更新方案被提出用于格子场理论中的蒙特卡罗采样。可以优化(训练)生成大小单双倍投公式以从近似于由所研究的理论的晶格作用确定的期望玻尔兹曼分布的分布产生样本。系统地训练大小单双倍投公式改善了马尔可夫链中的自相关时间,甚至在参数空间的区域中,标准马尔可夫链蒙特卡罗算法在产生去相关更新时显示出减慢的速度。此外,可以在没有来自期望分布的现有样本的情况下训练大小单双倍投公式。该算法在两个维度上与HMC和本地大都市抽样理论进行了比较。\ phi ^ 4 $理论。
translated by 谷歌翻译
哈密??顿蒙特卡罗是一种强大的算法,用于从难以归一化的后验分布中进行采样。然而,当后部的几何形状不利时,可能需要对目标分布及其梯度进行许多昂贵的评估以收敛和混合。我们提出神经传输(NeuTra)HMC,这是一种学习使用逆自回归流(IAF)来校正这种不利几何的技术,这是一种强大的神经变分推理技术。 IAF经过训练以最小化从各向同性高斯到翘曲后向的KL发散,然后在翘曲空间中执行HMC采样。我们在各种合成和实际问题上对NeuTra HMC进行了评估,发现它在达到静止分布和渐近有效样本大小率的过程中显着优于vanilla HMC。
translated by 谷歌翻译
本技术报告记录了计算智能游戏(CIG)2018年Hanabi比赛的获胜者。我们介绍了重新确定IS-MCTS,信息集蒙特卡罗树搜索(IS-MCTS)\ cite {IS-MCTS}的新扩展,它可以防止隐藏信息泄漏到IS-MCTS中可能发生的对手大小单双倍投公式中,特别是在Hanabi中重新确定IS-MCTS得分在Hanabi中的分数高于2-4名参与者,而不是之前发表的作品。考虑到每次移动40ms的竞争时间限制,我们使用学习的评估函数来估计叶节点值并避免在MCTS期间的完全模拟。对于混合赛道比赛,其中其他球员的身份未知,使用简单的贝叶斯对手大小单双倍投公式,该大小单双倍投公式随着每场比赛的进行而更新。
translated by 谷歌翻译
大小单双倍投公式 受到AlphaGo Zero(AGZ)成功的启发,它利用蒙特卡罗树搜索(MCTS)和神经网络监督学习来学习最优政策和价值功能,在这项工作中,我们专注于正式建立这样一种方法确实找到了渐近的最优政策,以及在此过程中建立非渐近保证。我们将重点关注无限期贴现马尔可夫决策过程以确定结果。首先,它需要在文献中建立MCTS声称的属性,对于任何给定的查询状态,MCTS为具有足够模拟MDP步骤的状态提供近似值函数。我们提供了非渐近分析,通过分析非固定多臂匪装置来建立这种性质。我们的证据表明MCTS需要利用多项式而不是对数“上置信度限制”来建立其期望的性能 - 有趣的是,AGZ选择这样的多项式约束。使用它作为构建块,结合最近邻监督学习,我们认为MCTS充当“政策改进”运营商;它具有自然的“自举”属性,可以迭代地改进所有状态的值函数逼近,这是由于与超级学习相结合,尽管仅在有限多个状态下进行评估。实际上,我们建立了学习$ \ _ \ _ \ _ \ _ \ _ \ _间/ $ inform中值函数的$ \ varepsilon $近似值,MCTS与最近邻居相结合需要samplesscaling为$ \ widetilde {O} \ big(\ varepsilon ^ { - (d + 4)} \ big)$,其中$ d $是状态空间的维度。这几乎是最优的,因为$ \ widetilde {\ Omega} \ big(\ varepsilon ^ { - (d + 2)} \ big)的minimax下限。$
translated by 谷歌翻译
本文提出了蒙特卡罗Softmax搜索的两个建议,这是最近提出的方法,被归类为像蒙特卡罗树搜索这样的选择性搜索。第一个提案分别定义了节点选择和备份策略,以允许研究人员根据他们的搜索策略自由设计阳极选择策略,并确认蒙特卡洛Softmax搜索产生的主要变化是由极小极大搜索产生的。第二个提议修改了常用的学习方法,用于位置评估功能。在我们的新提案中,评估函数通过Monte Carlo抽样学习,该抽样是使用Monte Carlo Softmax Search生成的搜索树中的备份策略执行的。所考虑的学习方法包括监督学习,强化学习,回归学习和搜索引导。我们基于抽样的学习不仅使用当前位置和主要变化,还使用内部节点和搜索树的重要变体。该步骤减少了学习所需的游戏数量。基于Monte Carlo Softmax搜索的新学习规则是基于基于采样的学习,本文还提出了修改学习方法的组合。
translated by 谷歌翻译
最近对基于扩散的采样方法的研究表明,LangevinMonte Carlo(LMC)算法可以有利于非凸优化,并且已经证明了渐近和有限时间机制的粗糙理论保证。在算法上,基于LMC的算法类似于众所周知的梯度下降(GD)算法,其中GD递归受到加性高斯噪声的扰动,其方差具有特定形式。 FractionalLangevin Monte Carlo(FLMC)是最近提出的LMC扩展,其中高斯噪声被重尾{\ alpha} - 稳定噪声所取代。与高斯对应物相反,这些重尾扰动可能导致大跳跃,并且经验证明,{\ alpha} - 稳定噪声的选择可以在优化和采样环境中的现代机器学习问题中提供若干优势。然而,与LMC相反,只有FLMC的渐近收敛性已经建立。本研究中,我们分析了FLMC非凸优化的非渐近行为,并证明了其预期次优性的有限时间界限。我们的结果表明,FLMC的弱误差比LMC增加得更快,这表明在FLMC中使用较小的步长。我们最终将结果扩展到精确渐变被随机梯度替换的情况,并显示在此设置中也保持类似的结果。
translated by 谷歌翻译
在许多问题设置中,最值得注意的是在游戏中,代理接收到其动作的可挽回的延迟奖励。通常,这些奖励是手工制作的,而不是自然给出的。即使是简单的终端奖励,例如赢得等于1和失去等于-1,也不能被视为无偏见的陈述,因为这些值是任意选择的,并且学习者的行为可能随着不同的编码而改变,例如设置损失的值至-0:5,这在实践中是为了鼓励学习而完成的。关于goodrewards很难争论,代理人的表现往往取决于那里的信号设计。特别地,在状态本质上仅具有基本排名并且游戏状态值之间的有意义的距离信息不可用的域中,数字奖励信号必然是有偏差的。在本文中,我们来看一下蒙特卡罗树搜索(MCTS),这是一种解决MDP的大众算法,突出了一个关于其使用问题的重复问题,并表明对奖励的序数处理克服了这个问题。使用通用视频游戏播放框架,我们显示了新提出的序数MCTS算法优于基于偏好的MCTS,vanillaMCTS和各种其他MCTS变体。
translated by 谷歌翻译
概率图形大小单双倍投公式(PGM)中的近似推断可以分组为确定性方法和基于蒙特卡罗的方法。前者通常可以提供准确和快速的推论,但通常与难以量化的偏见相关联。后者享有渐近一致性,但可以从高计算成本中解脱出来。在本文中,我们提出了一种弥合确定性和随机推理之间差距的方法。具体来说,我们建议一种有效的PGM序列蒙特卡罗(SMC)算法,该算法可以利用确定性推理方法的输出。虽然通常适用,但我们明确地说明了如何利用循环信念传播,期望传播和拉普拉斯近似来完成这一过程。得到的算法可以被视为与这些方法相关的偏差的后校正,实际上,数值结果显示出对基线确定性方法以及“普通”SMC的明显改进。
translated by 谷歌翻译
状态空间大小单双倍投公式(SSM)已被广泛应用于大型序列数据集的分析和可视化。顺序蒙特卡罗(SMC)是一种非常流行的基于粒子的方法,用于从难处理的外壳中对潜伏状态进行采样。然而,SSM受到提案选择的显着影响。最近哈密尔顿蒙特卡洛(HMC)抽样在许多实际问题上取得了成功。在本文中,我们提出了一个由HMC(HSMC)增强的SMC,用于非线性SSM的推理和大小单双倍投公式学习,这可以使我们免于学习建议并显着降低大小单双倍投公式复杂度。基于HMC的测量保持特性,由过渡函数直接产生的粒子可以任意地近似于潜状态的后验。为了更好地适应潜在空间的局部几何,HMC是在由正定量度量定义的黎曼流形上进行的。此外,我们证明了所提出的HSMC方法可以改善由高斯过程(GP)和神经网络(NN)实现的SSM。
translated by 谷歌翻译