我们提出了两种基于新的可学习三角测量方法的多视图3D人体姿态估计的新颖解决方案,该方法结合了来自多个2D视图的3D信息。第一(基线)解是基本的可微分的代数三角测量,其中增加了从输入图像估计的置信度。第二种解决方案基于来自中间2D骨干特征图的体积聚集的新方法。然后通过3D卷积来精确聚集的体积,其产生最终的3D关节热图并且允许先前对人体姿势建模。至关重要的是,这两种方法都是端到端可区分的,这使我们能够直接优化目标指标。我们展示了跨数据集的解决方案的可转移性,并显着改善了Human3.6M数据集上的多视图技术水平。 Videodemonstration,注释和其他材料将发布在我们的项目页面(https://saic-violet.github.io/learnable-triangulation)。
translated by 谷歌翻译
文献中有越来越多的证据表明,学习算法的稳定性是允许学习算法概括的关键特征。尽管在这个方向上有各种富有洞察力的结果,但在文献中我们所拥有的基于稳定性的泛化边界似乎是一种被忽视的二分法。一方面,文献似乎表明,估计风险的指数推广界限是最优的,只能通过严格的,分布独立的和计算上难以处理的稳定性概念(例如均匀稳定性)来获得。另一方面,似乎较弱的稳定性概念,例如假设稳定性,虽然它是依赖于分布和更适合的计算,但是只能产生对于估计风险的多项式泛化界,这是次优的。在本文中,我们解决了这两种结果体系之间的差距。特别地,我们在这里讨论的主要问题是,是否有可能使用计算上易处理和分布依赖的稳定性概念来获得估计风险的指数推广边界,但是比统一稳定性弱。利用最近的浓度均匀性的进展,并使用弱于均匀稳定性但依赖于分布并且易于计算的稳定性概念,我们得出了一般学习规则返回的假设的估计风险集中的指数尾部约束,其中估计的风险表示根据重新取代估计(经验误差),或删除(或留下一次)估计。作为一个例子,我们推导出具有无界响应的岭回归的指数尾界 - 在Bousquet和Elisseeff(2002)的统一稳定性结果不适用的情况下。
translated by 谷歌翻译
化学化合物的毒性预测是一项巨大的挑战。最近,它在准确性方面取得了重大进展,但使用了大量功能,实现了复杂的黑盒技术,如深度神经网络,并开发了大量的计算资源。在本文中,我们强烈论证了机器学习特性简单,计算资源使用效率高,以及实现非常高精度水平的强大大小单双倍投公式和方法。为了证明这一点,我们开发了一个基于任务的单一化学毒性预测框架,仅使用计算密集度较低的2D特征。我们有效地使用决策树从数千个集合中获取最佳数量的特征。我们使用浅层神经网络,并将决策树与网络参数和输入特征结合起来,共同优化它。我们的大小单双倍投公式只需要一分钟就可以在单个CPU上进行训练,而使用深度神经网络的现有方法在NVidia Tesla K40 GPU上需要大约10分钟。但是,我们在几个毒性基准测试任务中获得了类似或更好的性能。我们还开发了累积特征排序方法,使我们能够识别可以帮助化学家有效地对有毒化合物进行预筛选的特征。
translated by 谷歌翻译
众包已广泛应用于监督场景,其中训练集稀缺且难以获得。文献中的大多数众包大小单双倍投公式都可以为完整的问题提供答案。在分类上,完整的问题意味着要求贴标机在所有可能的类别之间进行辨别。不幸的是,这种辨别力在现实场景中并不总是那么容易。 Labelers可能不是区分所有类别的专家。在这项工作中,我们为较短类型的查询提供完整的概率大小单双倍投公式。我们较短的查询只需要“是”或“否”响应。我们的大小单双倍投公式估计了与thelabelers混淆相关的矩阵的联合后验分布以及每个对象的类的后验概率。我们使用蒙特卡罗抽样和黑盒变分推理开发了近似推理方法,其中我们提供了必要梯度的推导。我们构建了两个逼真的众包场景来测试我们的大小单双倍投公式。第一个场景查询不规则的天文时间序列。第二种情况依赖于动物的图像分类。结果表明,我们可以通过完整的查询众包获得可比较的结果。此外,对贴标机故障进行建模的weshow在估算真实类别方面起着重要作用。最后,我们为社区提供了两个真正的数据集,这些数据来自我们的众包实验。我们所有的代码都是公开的(可在以下文件中发布:文章发布后立即公布。)
translated by 谷歌翻译
声音障碍影响了全世界的几个患者。由于在没有复杂设备和训练有素的人员的情况下诊断声带疾病的固有困难,许多患者仍然未被诊断。为了减轻诊断的货币成本,最近数据分析的使用增长,以准确地检测和诊断个人的成本。我们提出了一种廉价,有效和准确的大小单双倍投公式,以确定患者是否患有MEEM 2018挑战中的三种声带疾病之一。
translated by 谷歌翻译
网络压缩通过减少参数的数量来降低深度神经网络的计算复杂性和存储器消耗。在基于InSVD的网络压缩中,需要为网络的每个层确定正确的等级。在本文中,我们提出了一种获得整个网络的秩配置的有效方法。与以前分别考虑每个层的方法不同,我们的方法考虑整个网络选择正确的等级配置。我们提出新的准确度度量来表示给定神经网络的准确性和复杂性关系。我们以非迭代的方式使用这些度量来获得正确的秩配置,其满足对FLOP和存储器的约束,同时保持足够的准确性。实验表明,我们的方法在以更高的速度执行压缩的同时,在准确度和计算复杂度/存储器消耗之间提供更好的折衷。对于VGG-16,与基线相比,我们的网络可以将FLOP降低25%并将精度提高0.7%,而CPU上只需3分钟即可搜索右侧配置。以前,使用8GPU在4小时内取得了类似的结果。所提出的方法也可用于神经网络的无损压缩。更好的准确性和复杂性折衷,以及我们方法的极快速度使其适用于神经网络压缩。
translated by 谷歌翻译
在本文中,我们提出了一种称为RIGNet的循环迭代门控方法。 RIGNet的核心要素涉及以自上而下的方式控制神经网络中信息流的循环连接,并考虑核心结构的不同变量。这种机制的迭代性质允许门控在空间范围和特征空间中传播。这被揭示为一种与普通现有网络广泛兼容的强大机制。分析显示了门控如何与不同的网络特征相互作用,我们还表明,与不包含RIGNet模块的更深层网络相比,可以使更多浅层网络与门控相比表现更好。
translated by 谷歌翻译
生成对抗网络(GAN)被认为是图像生成领域的最新技术。他们学习训练数据的联合分布,并尝试按照与输入相同的分布在高维空间中生成新的数据样本。最近GAN的改进使该领域成为许多其他计算机视觉应用的基础上改进和改变输入图像的特性以遵循一些给定的要求。在本文中,我们提出了一种新的技术,用于基于GAN对步行人类的微多普勒($ \ boldsymbol {\ mu} $ - D)光谱进行去噪和重建。在使用\ unit [25] {GHz} CW雷达在中间速度下在跑步机上行走的22名受试者中收集了两组实验。在一组中,通过将雷达放置在距离主体很近的位置,为每个主体收集干净的$ \ boldsymbol {\ mu} $ - D光谱。在另一组中,在实验装置中引入了变化,通过改变距离并在雷达和目标之间放置反射物体,在光谱上引入不同的噪声和杂波效应。合成的配对噪声和无噪声光谱用于训练,而验证是对真实的噪声测量数据进行了测量。最后,文献中与其他经典雷达去噪方法的定性和定量比较表明,所提出的GAN框架对于不同的噪声水平更为稳健。
translated by 谷歌翻译
在过去的十年中,已经做出了相当大的努力来使用不同的机器学习技术对变星进行分类。通常,光曲线表示为用于训练各种算法的统计描述符或特征的矢量。这些特征要求可以持续数小时到数天的大计算能力,这使得不可能创建自动分类变星的可扩展且有效的方法。此外,由于观察差异,使用特征时不能整合和分析来自不同调查的光曲线。例如,在节奏和滤波器中存在变化,特征分布变得有偏差并且需要昂贵的数据校准大小单双倍投公式。即将生成的大量数据也有必要开发可扩展的机器学习架构,而无需昂贵的集成技术。卷积神经网络已经在机器学习文献中的原始图像分类和表示中显示出令人印象深刻的结果。在这项工作中,我们提出了一种新的用于光线曲线分类的深度学习大小单双倍投公式,主要基于卷积单元。我们的架构接收光线曲线的时间和幅度之间的差异作为输入。它捕获了基本的分类模式,无论节奏和过滤器如何。此外,我们为不均匀采样的时间序列引入了noveldata扩充模式。我们使用三种不同的调查来测试我们的方法:OGLE-III;柯罗;和VVV,它们不同的是infilters,cadence和天空区域。我们表明,除了可扩展性的好处,我们的大小单双倍投公式在光线曲线分类基准测试中获得了最先进的水平精度。
translated by 谷歌翻译
许多因素可能导致医学图像的部分恶化。例如,金属植入物将导致MRI扫描中的局部扰动。这将影响进一步的后处理任务,例如PET / MRI中的衰减校正或放射治疗计划。在这项工作中,我们建议通过生成对抗网络(GAN)修复医学图像。所提出的框架包含两个基于补丁的鉴别器网络,其具有传统的风格和感知损失,用于以现实详细和上下文一致的方式修复缺失信息。所提出的框架在两种不同的医疗方式上,在定性和定量方面均优于其他自然图像修复技术。
translated by 谷歌翻译