机器学习正在从艺术和科学转变为可供每个开发人员使用的技术。在不久的将来,每个平台上的每个应用程序都将包含训练有素的大小单双倍投公式,以编码开发人员无法创作的基于数据的决策。这提出了一个重要的工程挑战,因为目前数据科学和建模在很大程度上与标准软件开发过程脱钩。这种分离使得在应用程序内部的机器学习能力不必要地变得困难,并且进一步阻碍了开发人员将MLin置于首位。在本文中,我们介绍了ML .NET,这是一个在过去十年中在Microsoft开发的框架,用于应对在大型软件应用程序中轻松发布机器学习大小单双倍投公式的挑战。我们提出了它的架构,并阐明了形成它的应用程序需求。具体而言,我们引入了DataView,它是ML .NET的核心数据抽象,它可以有效地,一致地捕获完整的预测管道,并在训练和推理生命周期中进行。我们结束了论文,对ML .NET进行了令人惊讶的有利的性能研究,与更多的接受者相比,并讨论了一些经验教训。
translated by 谷歌翻译
在文本中具有多个意义的单词引入词汇语义任务以找出哪个特定意义适合于给定的上下文。 Onesuch任务是词义消歧,指的是使用计算算法在给定的上下文中识别多义词的最合适的含义。印度语,印度官方语言和其他印度语言的语言处理研究受到标准语料库不可用的限制。对于印地语词义消歧,大型语料库不可用。在这项工作中,我们准备了包含某些单词的新意义的文本,这些单词导致富含这些带有60个多义词的印地语语料库。此外,我们基于多义词的语境特征,分析了印地语词义消歧的两种新的词汇联想。这些方法的评估是在学习算法上进行的,并且实现了有利的结果。
translated by 谷歌翻译
在社交媒体平台上生成的文本本质上是一种混合的语言文本。任何形式的语言混合在语言处理系统中都会产生相当大的难度。此外,语言处理研究的进步取决于标准语料库的可用性。由于标准评估语料库不可用,混合语言印度命名实体识别(NER)系统的开发面临障碍。这种语料库可能具有混合语言性质,其中文本使用多种语言编写,主要仅使用单个脚本。我们工作的动机是强调自动生成这种语料库,以此来鼓励混合语言印度语NER。本文介绍了从维基百科类别页面编写一个跨版本的印地语 - 英语语料库。使用标准CoNLL-2003类别的PER,LOC,ORG和MISC成功注释了语料库。它的评估是在各种机器学习算法上进行的,并取得了良好的效果。
translated by 谷歌翻译
兴趣点描述符推动了几乎所有计算机视觉问题的进展。深度神经网络的最新进展使特定于任务的学习描述符在多个问题上优于手工描述符。我们证明了常用的度量学习方法不能最佳地利用在卷积神经网络(CNN)中学习的特征层次结构,特别是当应用于几何特征匹配的任务时。虽然应用于CNN最深层的度量损失,无论任务如何都可以产生理想的特征,但事实上,增长的接收领域以及跨越效应导致较浅的特征在高精度匹配任务中更好。我们利用这种洞察力在特征层次结构的多个层面上进行明确的监督,以便更好地进行规范化,在几何匹配任务的上下文中学习更有效的描述符。此外,我们建议在CNN的不同层使用激活映射,作为通常用于匹配任务的多分辨率图像金字塔的有效和原则替代。我们提出了采用这些想法的具体CNN架构,并在多个数据集上对二维和三维几何匹配以及光流进行评估,展示了最新的结果和跨数据集的一般化。
translated by 谷歌翻译
最近的数据驱动的场景解释方法主要是作为端到端黑盒映射的姿势参考,通常由卷积神经网络(CNN)执行。然而,在人类和机器视觉中对感知组织的数十年的工作表明,通常存在推理任务固有的中间表征,并且它们提供了改进泛化的基本结构。在这项工作中,我们探索了通过监督CNN的隐藏层以及通常在实践中未观察到的中间概念将先前域结构注入神经网络训练的方法。我们制定了一个概率框架,通过这种深层监视方法对这些概念进行格式化并预测改进的泛化。这种方法的一个优点是我们能够从混乱场景的合成CAD渲染中进行训练,其中可以提取概念值,但是将结果应用于真实图像。我们的实现在实际图像基准上实现了2D / 3D关键点定位和图像分类的最先进性能,包括KITTI,PASCAL VOC,PASCAL3D +,IKEA和CIFAR100。我们提供了额外的证据,证明我们的方法优于其他形式的监督,例如多任务网络。
translated by 谷歌翻译
大小单双倍投公式 We present a benchmark suite for visual perception. The benchmark is based onmore than 250K high-resolution video frames, all annotated with ground-truthdata for both low-level and high-level vision tasks, including optical flow,semantic instance segmentation, object detection and tracking, object-level 3Dscene layout, and visual odometry. Ground-truth data for all tasks is availablefor every frame. The data was collected while driving, riding, and walking atotal of 184 kilometers in diverse ambient conditions in a realistic virtualworld. To create the benchmark, we have developed a new approach to collectingground-truth data from simulated worlds without access to their source code orcontent. We conduct statistical analyses that show that the composition of thescenes in the benchmark closely matches the composition of correspondingphysical environments. The realism of the collected data is further validatedvia perceptual experiments. We analyze the performance of state-of-the-artmethods for multiple tasks, providing reference baselines and highlightingchallenges for future research. The supplementary video can be viewed athttps://youtu.be/T9OybWv923Y
translated by 谷歌翻译