机器学习正在从艺术和科学转变为可供每个开发人员使用的技术。在不久的将来,每个平台上的每个应用程序都将包含训练有素的大小单双倍投公式,以编码开发人员无法创作的基于数据的决策。这提出了一个重要的工程挑战,因为目前数据科学和建模在很大程度上与标准软件开发过程脱钩。这种分离使得在应用程序内部的机器学习能力不必要地变得困难,并且进一步阻碍了开发人员将MLin置于首位。在本文中,我们介绍了ML .NET,这是一个在过去十年中在Microsoft开发的框架,用于应对在大型软件应用程序中轻松发布机器学习大小单双倍投公式的挑战。我们提出了它的架构,并阐明了形成它的应用程序需求。具体而言,我们引入了DataView,它是ML .NET的核心数据抽象,它可以有效地,一致地捕获完整的预测管道,并在训练和推理生命周期中进行。我们结束了论文,对ML .NET进行了令人惊讶的有利的性能研究,与更多的接受者相比,并讨论了一些经验教训。
translated by 谷歌翻译
编辑距离,也称为Levenshtein距离,是比较两个字符串的基本方法,这两个字符串被证明在分析遗传序列和自然语言处理时特别有用。但是,编辑距离是已知难以优化的adiscrete函数。这一事实妨碍了机器学习中使用此指标。即使像K-means这样简单的算法也无法使用编辑距离聚类一组序列,如果它们具有可变长度和丰度。在本文中,我们提出了一种新的度量 - 软编辑距离(SED),它是编辑距离的平滑近似。它是不同的,因此可以用梯度方法对其进行优化。与原始编辑距离类似,SED及其导数可以使用多项式时间的递归公式计算。我们证明了所提出的度量对合成数据集和生物序列聚类的有用性。
translated by 谷歌翻译
自然语言处理工具用于自动检测说希伯来语的精神分裂症住院患者的转录语音中的干扰。我们测量主题突变随着时间的推移,并表明控件保持比住院病人更有凝聚力的言论。我们还研究了患者和对照者如何使用形容词和副词来描述内容词的差异,并表明控件使用的那些比住院患者更常见。我们提供实验结果,并通过他们的语言模式显示他们潜在地自动检测患者的精神分裂症。
translated by 谷歌翻译
大小单双倍投公式 源代码审查是手动的,耗时且昂贵的。 Humaninvolvement应该专注于分析程序的最相关方面,例如逻辑和可维护性,而不是修改样式,语法或格式化缺陷。一些具有linting功能的工具可以自动格式化代码并报告支持的编程语言的各种样式违规。它们基于领域专家编写的规则,因此,它们的配置通常很乏味,并且对于给定的一组规则来说,覆盖所有可能的极端情况是不切实际的。一些基于机器学习的解决方案,但它们仍然是无法解释的黑盒子。本文介绍了STYLE-ANALYZER,这是一种新的开源工具,可以使用决策树林大小单双倍投公式自动修复代码格式化,该大小单双倍投公式适用于每个代码库,完全不受监督。 STYLE-ANALYZER建立在我们新颖的辅助代码审查框架Lookout之上。它准确地挖掘了每个分析的Git存储库的格式化风格,并用紧凑的人类可读规则表达了找到的格式模式。然后,STYLE-ANALYZER可以以代码审查注释的形式建议样式不一致性修复。我们评估了STYLE-ANALYZER的输出质量和实际相关性,证明它可以高精度地生成原始样式,在19个流行的Java程序项目上测量,并且通过显示它在修复真实样式错误方面产生了有希望的结果。 STYLE-ANALYZER包含一个Web应用程序,用于可视化规则的触发方式。我们在GitHub上发布STYLE-ANALYZER作为可重复使用和可扩展的开源软件包,以造福社区。
translated by 谷歌翻译
可扩展数据增强(SDA)提供了使用辅助隐藏层训练深度学习大小单双倍投公式的框架。可扩展的MCMC可用于网络培训和推理。与传统算法相比,SDA提供了许多计算优势,例如避免回溯,本地模式,并且可以使用TensorFlow中的随机梯度下降(SGD)进行优化。具有logit,ReLU和SVM激活功能的标准深度神经网络可以直接实现。为了说明我们的架构和方法,我们对许多标准数据集使用P \'{o} lya-Gamma logit数据增强。最后,我们总结了未来研究的方向。
translated by 谷歌翻译
在高维状态空间中确定信任空间规划(BSP)的全局最优解决方案在计算上是昂贵的,因为它涉及每个候选动作的信念传播和目标函数评估。我们最近引入的拓扑信念空间规划t-bsp改为仅考虑拓扑结构而不执行决策制定因子图对应于后来的未来信念。在本文中,我们为这个工作主体贡献了一种有效确定t-bsp误差范围的新方法,从而提供了全局最优保证或其解决方案的不确定性。考虑到先前引入的基于生成树数量的拓扑度量,给出了关于信息理论BSP的最优解的界限。在现实和合理的模拟中,我们分析了这些边界的紧密性,并且显示出这个度量如何与另一个计算效率更高的t-bsp度量密切相关,t-bsp度量是图的冯诺依曼熵的近似值,可以实现在线性能。
translated by 谷歌翻译
使用神经网络和地面雷??达的降水临近预报已成为现代天气预报服务的关键组成部分之一,但它仅限于地面雷达所覆盖的区域。真正的全球降水临近预报要求融合雷达和卫星观测。我们提出了基于计算机视觉技术的数据融合管道,包括具有软屏蔽的新型修复算法。
translated by 谷歌翻译
非刚性点集注册的问题是许多计算机视觉任务的关键问题。在许多情况下,点检测算法的数据或能力的性质可以为我们提供关于点集分布的一些先验信息。在非刚性情况下,该信息能够通过限制可能的解决方案的数量来显着改善注册结果。在本文中,我们探索了关于点集聚类的先验信息的使用,这些信息可以通过初步分割获得。我们扩展了现有的概率框架,用于拟合两级高斯混合大小单双倍投公式,并导出闭式形式解,用于EM算法的最大化步骤。这使我们能够在几乎没有性能损失的情况下提高方法的准确性。我们评估我们的方法并将Cluster Coherent Point Drift与其他现有的非刚性点集注册方法进行比较,并展示它对于数字医学任务的优势,特别是对于使用患者医疗数据的心脏模板大小单双倍投公式个性化。
translated by 谷歌翻译
随着机器学习算法的不断改进,解释为什么大小单双倍投公式对某个输入产生某种预测的需求越来越大。近年来,已经开发了几种大小单双倍投公式可解释性的方法,旨在解释大小单双倍投公式输入的哪些子集区域是大小单双倍投公式预测的主要原因。与此同时,近年来发展了一项重要的研究社区工作,用于开发用于愚弄大小单双倍投公式的对等示例生成方法,同时不改变输入的真实标签,因为它将被人类注释器分类。在本文中,我们弥合了对抗性实例生成与大小单双倍投公式可解释性之间的差距,并对对称实例生成过程进行了修改,以促进更好的解释性。我们在公共医学成像数据集上定量和定性地分析了所提出的方法,并表明它明显优于领先的已知替代方法。我们建议的方法很容易实现,并且可以很容易地插入到最常见的adversarialexample生成框架中。此外,我们提出了一个解释质量计量 - $ APE $ - “对抗性扰动解释”,它测量解释描述大小单双倍投公式决策的方法。
translated by 谷歌翻译
在本文中,当有兴趣的说话者的视觉信息可用时,我们解决了在鸡尾酒会场景中增强感兴趣的说话者的言语的问题。与大多数先前的研究相反,我们不会在通常较小的视听数据集上学习视觉特征,而是使用可用的面部地标检测器(在单独的图像数据集上训练)。地标由基于LSTM的大小单双倍投公式用于生成时间频率应用于声学混合语音频谱图的掩模。结果表明:(i)地标运动特征是这项任务的非常有效的特征,(ii)与以前的工作类似,通过掩蔽修正的目标说话人的频谱图的重建比直接的频谱图重建明显更准确,并且(iii)最佳掩模取决于在运动地标特征和输入混合语音频谱图上。据我们所知,我们提出的大小单双倍投公式是第一个在有限大小的GRID和TCD-TIMIT数据集上训练和评估的大小单双倍投公式,它们在多个讲话者环境中实现了与讲话者无关的语音增强。
translated by 谷歌翻译