策略梯度方法是强大的强化学习算法,并且已被证明可以解决许多复杂的任务。然而,这些方法也是数据无效的,受到高方差梯度估计的影响,并且经常陷入局部最优。这项工作通过将最近改进的非政策数据的重用和参数空间的探索与确定性行为政策相结合来解决这些弱点。由此产生的目标适用于标准的神经网络优化策略,如随机梯度下降或随机梯度哈密顿蒙特卡罗。通过重要性抽样对以前的推出进行大量提高数据效率,而随机优化方案有助于逃避局部最优。我们评估了一系列连续控制基准测试任务的建议方法。结果表明,该算法能够使用比标准策略梯度方法更少的系统交互成功可靠地学习解决方案。
translated by 谷歌翻译
我们探索人工神经网络作为从虚构时间格林函数重建光谱函数的工具,这是一个经典条件反问题。我们的ansatz基于有监督的学习框架,其中先验知识在训练数据中被编码,并且逆变换流形通过神经网络被明确地参数化。我们系统地研究了这种新的重建方法,提供了对其在物理动机模拟数据上的表现的详细分析,并将其与已建立的贝叶斯推理方法进行了比较。发现构造精度至少是可比较的,并且特别是在较大的噪声水平下可能是优越的。我们认为,在监督环境中使用标记的训练数据和确定优化目标的自由度是本方法的固有优势,并且可能导致对未来最先进方法的重大改进。进一步研究的潜在方向是详细讨论。
translated by 谷歌翻译
最近关于神经网络的对抗性脆弱性的研究已经表明,对于对抗性攻击而言训练得更强大的大小单双倍投公式表现出比非强健对应物更可解释的显着性图。我们的目标是通过考虑输入图像和效果图之间的对齐来量化这种行为。我们假设,当决策边界的距离增加时,对齐也是如此。在线性大小单双倍投公式的情况下,这种连接是严格正确的。我们通过基于使用局部Lipschitz正则化训练的大小单双倍投公式的实验来确认这些理论发现,并确定神经网络的线性特性削弱了这种关系。
translated by 谷歌翻译
在这项工作中,我们描述了我们从成功使用强化学习(RL)中学到的实践经验教训,以改进微软虚拟代理的关键业务指标以获得客户支持。虽然我们目前的RL使用案例主要集中在依赖自然语言处理,排名和推荐系统技术的组件上,但我们相信我们的许多发现都是适用的。通过本文,我们强调了RLpractitioners在类似应用程序中可能遇到的某些问题,并为这些挑战提供了实用的解决方案。
translated by 谷歌翻译
大小单双倍投公式 我们给出了一种计算一维形状约束函数的算法,该函数最适合加权$ L _ {\ infty} $ norm中的给定数据。我们给出了一种单一算法,该算法适用于各种常用的形状约束,包括单调性,Lipschitz连续性和凸性,更一般地说,任何形状约束可通过一阶和/或二阶差异的界限表达。我们的算法在$ O \ left(n \ log \ frac {U} {\ varepsilon} \ right)$ time中计算加法误差$ \ varepsilon $的近似值,其中$ U $捕获输入值的范围。对于未加权的$ L _ {\ infty} $ convexregression的特殊情况,我们还给出了一个简单的贪心算法$ O(n)$ time。这些是第一个(近)线性时间算法的二阶约束函数拟合。为了实现这些结果,我们使用对基础动态规划问题的几何解释。我们进一步表明,相关问题到方向图(DAG)的推广与线性规划一样困难。
translated by 谷歌翻译
现代数字时代的隐私问题促使研究人员开发出一种技术,允许用户有选择地抑制所收集数据中的某些信息,同时允许提取其他信息。在这方面,最近出现了半对抗网络(SAN)作为一种方法,用于模拟面向图像的软生物识别隐私。 SAN允许修改输入面部图像,使得所得到的面部图像仍然可以被任意传统的面部匹配器可靠地用于识别目的,而属性分类器(例如性别分类器)被混淆。然而,SAN在任意性别分类器中的普遍性仍然是一个令人关注的问题。在这项工作中,我们提出了一种新方法FlowSAN,允许SANsto概括为多个看不见的性别分类器。我们建议结合使用一组SAN大小单双倍投公式来弥补彼此的弱点,从而形成具有改进的泛化能力的强大大小单双倍投公式。使用不同的看不见的性别分类器和面部匹配器的广泛实验证明了所提出的范例在向面部图像传授性别隐私方面的功效。
translated by 谷歌翻译
可以通过串联电子显微镜获得的脑图像重建神经回路。图像分析已经通过半个世纪的手工劳动进行,并且自动化的努力几乎可以追溯到目前为止。卷积网在十几年前首次应用于神经元边界检测,并且现在已经在清洁图像上获得了令人印象深刻的准确度。稳健处理图像缺陷是一项重大的突出挑战。卷积网也用于神经回路重建中的其他任务:寻找突触并识别突触伙伴,延伸或修剪神经重建,以及对齐连续切片图像以创建3D图像堆栈。计算系统正在设计用于处理立方毫米脑容积的petavoxelimages。
translated by 谷歌翻译
概率计划是处理不确定性的关键。 controllersynthesis。它们通常很小但很复杂。它们的发展很复杂且容易出错,需要对无数替代设计进行定量推理。为了减轻这种复杂性,我们采用反例引导的归纳法(CEGIS)来自动合成有限状态概率程序。我们的方法利用高效的大小单双倍投公式检查,现代SMT求解以及程序级的反例生成。实际相关案例研究的实验表明,使用几千个验证查询可以充分探索具有数百万候选设计的设计空间。
translated by 谷歌翻译
匹配追踪算法是信号处理和机器学习中的一类重要算法。我们提出了一种混合匹配追踪算法,将坐标下降式步骤与更强的梯度下降步骤相结合,以最小化由一组原子跨越的线性空间上的平滑凸函数。我们根据函数的平滑性和清晰度顺序得出次线性到线性收敛速度,并证明了我们的方法的计算优势。特别是,我们推导出一类广泛的非强凸函数,并且在实验中证明我们的算法具有非常快的收敛速度和壁钟速度,同时保持迭代的稀疏度与(慢得多)正交的非常相似。匹配追求。
translated by 谷歌翻译
开放信息提取(OIE)系统以无人监督的方式从自然语言文本中提取关系和参数。结果是用于下游任务的有价值的资源,例如知识库构建,开放式问答或事件模式归纳。在本文中,我们发布,描述和分析了一个名为OPIEC的OIE语料库,该语料库从英语维基百科的文本中提取。 OPIEC补充了可用的OIE资源:它是迄今为止公开发布的最大OIE语料库(超过340万三元组),包含有价值的元数据,如出处信息,置信度分数,语言注释和语义注释,包括空间和时间信息。我们通过比较其内容与DBpedia或YAGO等知识库来分析OPIEC语料库,这些知识库也基于维基百科。我们发现OPIEC中存在的实体之间的大多数事实都不能在DBpedia和/或YAGO中找到,OIE事实在特异性水平上与知识库事实相比通常不同,并且OIE开放关系通常是高度多义的。我们认为OPIEC语料库是未来自动知识库构建研究的宝贵资源。
translated by 谷歌翻译