我们提出了两种基于新的可学习三角测量方法的多视图3D人体姿态估计的新颖解决方案,该方法结合了来自多个2D视图的3D信息。第一(基线)解是基本的可微分的代数三角测量,其中增加了从输入图像估计的置信度。第二种解决方案基于来自中间2D骨干特征图的体积聚集的新方法。然后通过3D卷积来精确聚集的体积,其产生最终的3D关节热图并且允许先前对人体姿势建模。至关重要的是,这两种方法都是端到端可区分的,这使我们能够直接优化目标指标。我们展示了跨数据集的解决方案的可转移性,并显着改善了Human3.6M数据集上的多视图技术水平。 Videodemonstration,注释和其他材料将发布在我们的项目页面(https://saic-violet.github.io/learnable-triangulation)。
translated by 谷歌翻译
本文介绍了自动驾驶汽车的算法和系统架构。引入的车辆由设计用于鲁棒性,可靠性和可扩展性的软件栈提供动力。为了自主地绕过先前未知的轨道,所提出的解决方案结合了来自不同机器人领域的技术的状态。具体而言,感知,估计和控制被合并到一个高性能自主车辆中。这个复杂的机器人系统由AMZ Driverless和ETHZurich开发,在我们参加的每个比赛中获得第一名:Formula StudentGermany 2017,Formula Student Italy 2018和Formula Student Germany 2018. Wediscuss这些比赛的结果和学习,并对每个模块进行实验评估我们的解决方案
translated by 谷歌翻译
神经机器翻译 - 使用神经网络翻译人类语言 - 是一个积极研究探索新神经元类型和网络拓扑的领域,其目标是显着提高机器翻译性能。当前最先进的方法,例如基于多头注意的变换器,需要非常大的翻译语料库和许多标准来产生合理质量的大小单双倍投公式。最近尝试将多个节点上的官方TensorFlow“Transformer”大小单双倍投公式并行化由于过多的内存使用而导致出现问题,并且在执行MPI集合时导致内存错误。本文描述了对基于霍罗德MPI的分布式训练框架的修改,通过将假设稀疏张量转换为密集张量来减少变换器大小单双倍投公式的内存使用,并随后用密集梯度减少代替稀疏梯度聚集。结果是横向扩展能力显着增加。 ,使用Stampede2超级计算机,仅使用CPU的扩展测试可实现高达1200 MPI进程(300个节点)的91%弱缩放效率,以及高达65%的高扩展效率,高达400 MPI进程(200个节点)。
translated by 谷歌翻译
行人轨迹的可靠预期对于自动驾驶车辆的操作是必不可少的,并且可以显着增强先进驾驶员辅助系统的功能性。虽然在行人检测领域取得了重大进展,但由于行人的不可预测性和潜在有用特征的巨大空间,预测行人住宅仍然是一个具有挑战性的问题。在这项工作中,我们提出了一种深度学习方法,用于使用单个车载摄像头进行行人轨迹预测。已经彻底改变计算机视觉领域的深度学习大小单双倍投公式在轨迹预测方面的应用有限,部分原因在于缺乏丰富的注释训练数据。通过引入可扩展的机器注释方案来解决缺少训练数据的问题,该方法使我们的大小单双倍投公式能够使用大型数据集进行训练而无需人工注释。此外,我们提出动态轨迹预测器(DTP),这是一种预测未来一秒钟的行人轨迹的大小单双倍投公式。 DTP使用人工和机器注释数据进行训练,并预测线性大小单双倍投公式未捕获的动态运动。实验评估证实了所提出大小单双倍投公式的好处。
translated by 谷歌翻译
内窥镜伪影是促进中空器官疾病的诊断和治疗的核心挑战。精确检测特定伪像,如像素饱和度,运动模糊,镜面反射,气泡和碎片,对于高质量的帧恢复至关重要,对于实现可靠的计算机辅助工具以改善患者护理至关重要。目前,由于视频帧中存在大量的多类伪像,目前大多数内窥镜检查视频尚未进行分析。通过内窥镜伪影检测(EAD 2019)的挑战,我们通过解决内窥镜框架伪影的准确识别和定位来解决这一关键瓶颈问题,从而能够对不可用的视频帧进行进一步的关键定量分析,例如镶嵌和3D重建,这对于提供改善的患者护理至关重要。本文总结了挑战任务,并描述了在EAD 2019挑战中建立的数据集和评估标准。
translated by 谷歌翻译
我们提出了一种房间布局估计方法,该方法不依赖于典型盒子近似或曼哈顿世界假设。相反,我们将几何推理问题表示为实例检测任务,我们通过使用R-CNN直接回归3D平面来解决这个问题。然后,我们使用概率聚类的变体将在视频序列中的每个帧处回归的3D平面与它们各自的相机姿势组合成单个全局3Droom布局估计。最后,我们展示了没有任何关于垂直对齐的假设的结果,因此可以有效地处理任何对齐的墙壁。
translated by 谷歌翻译
我们提出了一个项目,旨在使用Cycle-Consistent Adversarial Networks(CycleGANs)生成描绘气候变化的准确,生动和个性化结果的图像。通过在极端天气事件(例如洪水,森林火灾等)之前和之后对房屋的街景图像进行训练我们的CycleGAN大小单双倍投公式,我们学习了一个映射,然后可以将其应用于尚未经历这些事件的位置图像。这种视觉转换与气候大小单双倍投公式预测相结合,以评估长期(50年)气候相关事件的可能性和类型,以便在观众心目中更接近未来。我们项目的最终目标是通过对气候变化影响产生更深刻的了解,使个人能够对气候变化做出更明智的选择,同时利用气候大小单双倍投公式预测保持科学可信度。
translated by 谷歌翻译
在可能发生在世界任何地方的人道主义援助 - 灾难救济(HADR)危机的过程中,实时信息通常由需要帮助的人员在线提供,反过来,这些信息可以由参与管理的不同利益相关者使用。危机自动处理这些职位可以大大提高这些工作的效率;例如,了解受影响人群特定区域的总体情绪可能有助于决策者了解如何最有效地分配资源以实现有效的灾难响应。但是,这些努力可能会受到当地语言资源可用性的严重限制。 DARPA项目针对紧急事件的低资源语言(LORELEI)旨在在这种人道主义危机背景下为低资源语言推进语言处理技术。在这项工作中,我们描述了LORELEI项目2019年情绪,情绪和认知状态(SEC)试点任务的提交。我们描述了我们提交中包含的情绪分析系统的集合以及提取的特征。我们的fieldingsystems在SEC试点任务的英语和西班牙语评估中取得了最好的成绩。
translated by 谷歌翻译
全身控制(WBC)已成为腿式机器人运动控制的重要框架。然而,大多数WBC框架都没有超越刚性地形。由于存在WBC没有考虑的未建模的接触动态,因此在软地形上的腿部运动是困难的。这引入了运动的不确定性并影响系统的稳定性和性能。在本文中,我们提出了一种新的软地形适应算法,称为STANCE:软地形适应和合规性估计.STANCE包括一个WBC,利用地形知识生成接触一致的最佳解决方案和提供WBC的在线地形合规性提取器具有地形知识。我们在模拟和实验中验证了STANCEboth的液压驱动四足机器人(HyQ)机器人,并将其与最先进的WBC进行了比较。我们展示了STANCE的多种地形,包括不同的顺从性,侵略性机动,不同的前进速度和外部干扰.STANCE允许HyQ在线调整到不同顺从(刚性和柔软)的地形,无需预先调整。 HyQ能够成功地处理不同地形之间的过渡,并且能够区分每只脚下的顺应性。
translated by 谷歌翻译
这项工作旨在评估人们对虚拟人的几何特征,个性和情感特征的看法。为此,我们使用一个基础,一个包含从自发视频中捕获的行人跟踪文件的数据集,并将它们视为相同的虚拟人。目标是关注他们的行为,而不是被其他功能分散注意力。除了跟踪包含其位置的文件之外,数据集还包含使用计算机视觉和模式识别技术检测到的行人情绪和个性。我们继续进行分析,以便了解当受试者由虚拟人类代表时,受试者是否能够感知几何特征作为距离/速度以及视频序列中的情感和个性。关于参与者,73人的志愿者自愿参加实验。分析分为两部分:i)评估几何特征的感知,如密度,角度变化,距离和速度,以及ii)人格和情感感知评估。结果表明,即使向参与者提供每个人格或情感的概念以及如何计算它们(考虑几何特征),在大多数情况下,参与者根据可用的基本事实感知虚拟代理人表达的个性和情感。
translated by 谷歌翻译