大小单双倍投公式 机器学习正在从艺术和科学转变为可供每个开发人员使用的技术。在不久的将来,每个平台上的每个应用程序都将包含训练有素的大小单双倍投公式,以编码开发人员无法创作的基于数据的决策。这提出了一个重要的工程挑战,因为目前数据科学和建模在很大程度上与标准软件开发过程脱钩。这种分离使得在应用程序内部的机器学习能力不必要地变得困难,并且进一步阻碍了开发人员将MLin置于首位。在本文中,我们介绍了ML .NET,这是一个在过去十年中在Microsoft开发的框架,用于应对在大型软件应用程序中轻松发布机器学习大小单双倍投公式的挑战。我们提出了它的架构,并阐明了形成它的应用程序需求。具体而言,我们引入了DataView,它是ML .NET的核心数据抽象,它可以有效地,一致地捕获完整的预测管道,并在训练和推理生命周期中进行。我们结束了论文,对ML .NET进行了令人惊讶的有利的性能研究,与更多的接受者相比,并讨论了一些经验教训。
translated by 谷歌翻译
大规模有效的河流洪水预报受到众多因素的阻碍,最明显的是需要依靠当前方法中的人体校准,特定地点的有限数据量以及建立足够准确的大陆/全球水平大小单双倍投公式的计算难度。机器学习(ML)在这种情况下非常有用:学习大小单双倍投公式在复杂的高维场景中经常超越人类专家,而传递或多任务学习框架是利用本地信号来提高全局性能的有吸引力的解决方案。我们建议在这些优势的基础上,开发MLsystems,以便及时准确地预测河流洪水。
translated by 谷歌翻译
实体链接是将文本中可能含糊不清的术语映射到维基百科等知识库中的组成实体的任务。这对于组织内容,从文本文档中提取结构化数据以及在机器学习相关应用(如语义搜索,知识图构建和问题回答)中非常有用。传统上,这项工作主要集中在形式良好的文本,如新闻文章,但在常见的世界数据集中,如消息,简历或简短的社交媒体,非语法,松散结构的文本为此增加了一个新的维度问题。本文介绍了Pangloss,一种用于实体消除嘈杂文本的生产系统。 Pangloss将概率线性时间关键短语识别算法与基于文本相关文档嵌入的语义相似性引擎相结合,以获得比其他研究或商业可用系统更好的最新结果(F1中> 5%)。此外,Pangloss利用具有atiered架构的本地嵌入式数据库来存储其统计数据和元数据,从而允许在流媒体上下文中快速进行符号化,并在诸如移动电话的低内存环境中进行设备上的歧义消除。
translated by 谷歌翻译