大小单双倍投公式 机器学习正在从艺术和科学转变为可供每个开发人员使用的技术。在不久的将来,每个平台上的每个应用程序都将包含训练有素的大小单双倍投公式,以编码开发人员无法创作的基于数据的决策。这提出了一个重要的工程挑战,因为目前数据科学和建模在很大程度上与标准软件开发过程脱钩。这种分离使得在应用程序内部的机器学习能力不必要地变得困难,并且进一步阻碍了开发人员将MLin置于首位。在本文中,我们介绍了ML .NET,这是一个在过去十年中在Microsoft开发的框架,用于应对在大型软件应用程序中轻松发布机器学习大小单双倍投公式的挑战。我们提出了它的架构,并阐明了形成它的应用程序需求。具体而言,我们引入了DataView,它是ML .NET的核心数据抽象,它可以有效地,一致地捕获完整的预测管道,并在训练和推理生命周期中进行。我们结束了论文,对ML .NET进行了令人惊讶的有利的性能研究,与更多的接受者相比,并讨论了一些经验教训。
translated by 谷歌翻译
我们考虑域适应问题,也称为协变量shiftproblem,其中生成训练和测试datadiffer的分布同时保留相同的标记函数。这个问题出现在大范围的实际应用中,并且与转移学习的更普遍的挑战有关。关于该主题的最新工作集中于特定于算法或实际用例的优化技术,而不是更通用的方法。试图提供一般界限的稀疏文献似乎表明,协变量转换不可能进行有效的学习甚至强调假设。我们的主要贡献是通过显示任何可能近似正确(PAC)可学习的概念类在协变量条件下仍然可以学习PAC而只有训练样本数量的多项式增加来重新构建这些结果。这种方法基本上证明了域适应学习问题与基础PAC学习问题一样困难,提供了一些训练和测试分布的条件。我们还提出了拒绝抽样算法的边界,并将其作为某些情况下域适应问题的解决方案。
translated by 谷歌翻译
我们在神经机器翻译(NMT)的背景下探索了条件文本生成的潜变量大小单双倍投公式的性能。与Zhanget al。类似,我们通过引入一个连续的变量来模拟翻译过程的特征来扩充编码器 - 解码器NMT范例。我们通过Parikh等人的共同关注机制扩展了这个大小单双倍投公式。在推理网络中。与视觉领域相比,由于语言的离散性,即后塌陷,文本的潜在变量大小单双倍投公式面临着额外的挑战。我们尝试了不同的方法来缓解这个问题。 Weshow我们的条件变分大小单双倍投公式改进了基于判别性的基于注意力的翻译和张等人提出的变分基线。最后,我们对学习的潜在空间进行了一些探索,以说明潜在变量能够捕获的内容。这是第一个报道的文本条件变分大小单双倍投公式,它有意义地利用了thelatent变量而不削弱翻译大小单双倍投公式。
translated by 谷歌翻译