机器学习正在从艺术和科学转变为可供每个开发人员使用的技术。在不久的将来,每个平台上的每个应用程序都将包含训练有素的大小单双倍投公式,以编码开发人员无法创作的基于数据的决策。这提出了一个重要的工程挑战,因为目前数据科学和建模在很大程度上与标准软件开发过程脱钩。这种分离使得在应用程序内部的机器学习能力不必要地变得困难,并且进一步阻碍了开发人员将MLin置于首位。在本文中,我们介绍了ML .NET,这是一个在过去十年中在Microsoft开发的框架,用于应对在大型软件应用程序中轻松发布机器学习大小单双倍投公式的挑战。我们提出了它的架构,并阐明了形成它的应用程序需求。具体而言,我们引入了DataView,它是ML .NET的核心数据抽象,它可以有效地,一致地捕获完整的预测管道,并在训练和推理生命周期中进行。我们结束了论文,对ML .NET进行了令人惊讶的有利的性能研究,与更多的接受者相比,并讨论了一些经验教训。
translated by 谷歌翻译
在本文中,我们建议通过将音频片段作为对象来应用来自视觉域的视觉域中的对象检测方法。更具体地说,我们提出了SpeechYOLO,它受到用于图像中对象检测的YOLO算法的启发。 SpeechYOLO的目标是在输入信号内对话语的边界进行定位,并对它们进行正确分类。我们的系统由卷积神经网络组成,具有简单的最小均方损失函数。我们对几个关键字定位任务进行了系统评估,其中包括阅读语音和自发语音的语料库。我们的系统优于其他训练用于定位和分类的算法。
translated by 谷歌翻译
大小单双倍投公式 We consider the task of measuring time with probabilistic threshold gates implemented by bio-inspired spiking neurons. In the model of spiking neural networks, network evolves in discrete rounds, where in each round, neurons fire in pulses in response to a sufficiently high membrane potential. This potential is induced by spikes from neighboring neurons that fired in the previous round, which can have either an excitatory or inhibitory effect. Discovering the underlying mechanisms by which the brain perceives the duration of time is one of the largest open enigma in computational neuro-science. To gain a better algorithmic understanding onto these processes, we introduce the neural timer problem. In this problem, one is given a time parameter t, an input neuron x, and an output neuron y. It is then required to design a minimum sized neural network (measured by the number of auxiliary neurons) in which every spike from x in a given round i, makes the output y fire for the subsequent t consecutive rounds. We first consider a deterministic implementation of a neural timer and show that Θ(log t) (de-terministic) threshold gates are both sufficient and necessary. This raised the question of whether randomness can be leveraged to reduce the number of neurons. We answer this question in the affirmative by considering neural timers with spiking neurons where the neuron y is required to fire for t consecutive rounds with probability at least 1 ? δ, and should stop firing after at most 2t rounds with probability 1 ? δ for some input parameter δ ∈ (0, 1). Our key result is a construction of a neural timer with O(log log 1/δ) spiking neurons. Interestingly, this construction uses only one spiking neuron, while the remaining neurons can be deterministic threshold gates. We complement this construction with a matching lower bound of ?(min{log log 1/δ, log t}) neu-rons. This provides the first separation between deterministic and randomized constructions in the setting of spiking neural networks. Finally, we demonstrate the usefulness of compressed counting networks for synchronizing neural networks. In the spirit of distributed synchronizers [Awerbuch-Peleg, FOCS'90], we provide a general transformation (or simulation) that can take any synchronized network solution and simulate it in an asynchronous setting (where edges have arbitrary response latencies) while incurring a small overhead w.r.t the number of neurons and computation time.
translated by 谷歌翻译
我们考虑在CrowdCam图像中分割动态区域的问题,其中动态区域是在imageplane上投影移动的3D对象。通常,这些区域是图像中最有趣的部分.CrowdCam图像是由一组非协作用户捕获的相同动态事件的一组图像。今天几乎所有感兴趣的事件都以这种方式被捕获。这种新型图像提出了开发专门为其量身定制的新算法的需求。我们提出了一种分割CrowdCam图像中动态区域的算法。所提出的算法结合了基于几何,外观和接近度的提示。首先,使用几何推理来产生粗略的得分图,其针对每个像素确定静态或动态场景点的投影的可能性。这些地图是嘈杂的,因为CrowdCam图像通常很少,并且在空间和时间上相距很远。然后,我们使用外观空间中的相似性和图像平面中的接近度来鼓励相邻像素被类似地标记为静态或动态。我们定义了一个目标函数,它结合了所有的关键并使用MRF求解器解决它。所提出的方法在公共可用的CrowdCam数据集上进行了测试,并且收集了一个新的和具有挑战性的数据集。我们的结果优于目前最先进的技术。
translated by 谷歌翻译
本文提出了任意方向和对比的常规临床磁共振图像(MRI)中超分辨率的生成大小单双倍投公式。该大小单双倍投公式重新分析高分辨率图像的恢复作为反问题,其中正演大小单双倍投公式模拟MR扫描仪的切片选择轮廓。本文介绍了一种基于多通道全变差的MRI超分辨率。通过估计来自低分辨率输入扫描的超参数来处理偏差 - 方差权衡。该大小单双倍投公式在大型脑图像数据库上得到验证。验证表明,大小单双倍投公式可以改善大脑分割,可以恢复不同MR对比图像之间的解剖信息,并且可以推断出不同受试者的MR图像中存在的大变异性。可以在https://github.com/WCHN/mtv-preproc免费获得实现
translated by 谷歌翻译
我们提出了SetExpander,这是一个基于语料库的系统,用于将种子集合扩展为属于同一语义类的完整术语集.SetExpander实现了迭代的端到端工作流。它使用户能够轻松选择一组术语,扩展它,查看扩展集,验证,重新扩展已验证的集并存储它,从而简化了特定于域的细粒度语义类的提取.SetExpander已成功用于实际生活用例包括集成到自动化招聘系统和问题和缺陷解决系统。有关SetExpander的视频演示,请访问:http://drive.google.com/open?id = 1e545bB87Autsch36DjnJHmq3HWfSd1Rv(由于隐私原因,某些图片模糊不清)
translated by 谷歌翻译
本文提出了一个自动学习医学(和其他)图像的形状和外观大小单双倍投公式的框架。它基于理论,具有更精确的形状和外观大小单双倍投公式导致更准确的图像配准,这反过来导致更准确的形状和外观大小单双倍投公式。这自然导致迭代方案,该方案基于概率生成大小单双倍投公式,该大小单双倍投公式使用类似EM的框架中的高斯 - 牛顿更新拟合。它的开发目的是实现对大脑图像数据进行分布式隐私保护分析,使得共享信息(形状和外观基础功能)可以跨站点传递,而编码单个图像的潜在变量在每个站点保持安全。提出这些潜在变量作为保留隐私数据挖掘应用程序的特征。该方法在2D面部图像的KDEF数据集上定性地展示,表明它可以对准传统上需要使用手动注释数据(手动定义的标记等)训练的形状和外观大小单双倍投公式的图像。它适用于手写数字的MNIST数据集,以显示机器学习应用的潜力,特别是当训练数据有限时。该大小单双倍投公式能够处理“缺失数据”,这使得它可以根据预测剩余体素的程度进行交叉验证。通过将其应用于超过1,900个分段的T1加权MR图像的数据集来评估导出的用于将个体分类为患者组的特征的适合性,其包括来自COBRE和ABIDE数据集的图像。
translated by 谷歌翻译
我们提出了SetExpander,一个基于语料库的系统,用于将种子集合扩展为属于同一语义类的更完整的术语集.SetExpander为术语集扩展实现了迭代的端到端工作流。它使用户能够轻松选择一组术语,扩展它,查看扩展集,验证它,重新扩展已验证集并存储它,简化域特定细粒度语义类的提取.SetExpander已用于解决实际用例包括集成在自动招聘系统和问题和缺陷解决系统中。可以通过以下方式获取SetExpander的视频演示://drive.google.com/open?id = 1e545bB87Autsch36DjnJHmq3HWfSd1Rv(出于隐私原因,某些图像模糊不清)。
translated by 谷歌翻译
现代数据为经典信号处理方法带来了新的挑战,导致人们对图形信号处理领域的兴趣日益增加。对于现实世界信号不变域而言,一个功能强大且完善的大小单双倍投公式是字典上的稀疏表示,并且能够从信号示例中训练字典。通过将底层图拓扑结合到学习字典中,该大小单双倍投公式已成功应用于图形信号。尽管如此,由于字典学习问题所需的计算约束,并且由于图拉普拉斯矩阵的直接使用,图形信号的字典学习方法通??常被限制为小尺寸。在本文中,我们提出了一种字典学习算法,它适用于更广泛的图形信号,并且能够处理更高维度的数据。我们通过强制学习的字典原子是图 - 小波函数的稀疏组合,并通过添加直接图形约束来促进特征和流形域的平滑性,隐含地包含底层图形拓扑。因此,所得到的原子适合于感兴趣的数据,同时遵守底层图形结构并具有所需的多尺度特性。在severaldatasets上的实验结果,代表了不同特征的合成和真实网络数据,证明了所提出的算法即使在高维度上的图形信号处理的有效性。
translated by 谷歌翻译
摄影师通常使用浅景深来将主体与分散注意力的背景隔离开来。然而,标准手机相机不能光学地产生这样的图像,因为它们的短焦距和小光圈捕获几乎全焦点图像。我们提出了一个系统,通过单个移动摄像头和单按钮按压计算合成浅景深图像。如果图像是一个人,我们使用人员分割网络将人及其配件与背景分开。如果可用,我们还使用密集的双像素自动对焦硬件,有效地使用具有大约1毫米基线的2样本光场来计算腺苷深度图。这两个信号被组合并用于渲染defocusedimage。我们的系统可以在移动电话上在4秒内处理540万像素图像,是全自动的,并且足够强大,可供非专家使用。我们系统的模块性质允许它在没有adual-pixel传感器或人类主体的情况下自然降解。
translated by 谷歌翻译