序列到序列大小单双倍投公式是NLP的强大主力。大多数变体在其注意机制和输出层中都采用softmax变换,导致密集对齐和严格正输出概率。这种密度是浪费的,使得大小单双倍投公式可解释性较差,并为许多难以置信的输出分配概率质量。在本文中,我们提出了sparsese序列到序列大小单双倍投公式,植根于$ \ alpha $ -entmaxtransformations的新系列,其中包括softmax和sparsemax作为特定情况,并且对于任何$ \ alpha> 1 $都是稀疏的。我们提供快速算法来评估这些变换及其渐变,这些算法可以很好地扩展到大型词汇表。我们的大小单双倍投公式能够生成稀疏对齐并将非非可置性分配给可能输出的简短列表,有时会使波束搜索精确。形态学变形和机器平移的实验揭示了密集大小单双倍投公式的一致增益。
translated by 谷歌翻译
在电子制定过程中,美国的行政机构每年都会收到数百万条关于拟议的机构行动的评论。这些评论代表了支持和反对提案的各种论点。虽然要求各机构确定并回应实质性评论,但他们仍在努力跟上信息量。在这项工作中,我们解决了识别论证文本的任务,对所使用的论证索赔的类型进行分类,以及确定评论的立场。首先,我们基于对数千条规则和数百万条评论的分析,提出了论证主张的分类。其次,我们收集和半自动引导注释,以在句子级别创建具有参数声明类型注释的数百万个句子的数据集。第三,webuild一个系统,用于在层次分类大小单双倍投公式中使用我们提出的分类法自动确定参数跨度和索赔类型。
translated by 谷歌翻译
本文提出了一个新的任务,即视频中时空识别描述的基础。以前的工作表明现有数据集中存在潜在偏差,并强调需要新的数据创建模式以获得更好的大小单双倍投公式结构。我们引入了一种基于表面实现的语法约束的新数据采集方案,使我们能够研究视频中基础时空识别描述的问题。 Wethen提出了一个双流模块化注意网络,该网络基于外观和运动来学习和发现时空识别描述。通过模块化神经网络解决模块之间的任务干扰,可以看出运动模块有助于解决与运动相关的单词,并且还有助于在外观模块中使用。最后,我们提出了一个未来的挑战,并且需要一个强大的系统,这个系统来自用自动视频对象检测器和时间事件定位替换地面真实视觉注释。
translated by 谷歌翻译
光流算法的当前基准通过将它们的预测流场与地面实况进行比较来评估估计质量,并且另外可以基于这些预测将插值帧与来自实际图像序列的正确帧进行比较。对于后者的比较,应用诸如均方误差的客观测量。然而,图像插值,预期用户的体验质量等因素无法从这些简单的质量测量中完全推断出来。因此,我们通过众包对其中一个光流基准测试中提供的插值图像进行了主观质量评估研究,即中间地区基准测试。我们使用经典最小二乘法,根据瑟斯顿的大小单双倍投公式,使用强制选择和重建绝对质量标度值进行配对比较。结果导致了141个参与算法的重新排序w.r.t.内插帧的视觉质量最基于光流估计。我们的重新排序结果显示了视觉质量评估的必要性,作为光流和帧插值基准的另一个评估指标。
translated by 谷歌翻译
在过去的几十年中,已经针对各种监督学习任务提出了许多损失函数,包括回归,分类,排序和更一般的结构化预测。了解支撑这些损失的核心原则和理论属性是正确解决正确问题的关键,并创造新的损失,并结合其优势。在本文中,我们介绍了Fenchel-Younglosses,一种为正则预测函数构造凸损失函数的通用方法。我们在非常广泛的环境中提供他们的属性的深入研究,涵盖所有上述监督学习任务,并揭示稀疏性,广义熵和分离边缘之间的新联系。我们证明Fenchel-Young损失统一了许多众所周知的损失函数,并允许轻松创建有用的新函数。最后,我们得出了有效的预测和训练算法,使Fenchel-Young在理论和实践中都有所损失。
translated by 谷歌翻译
研究了在训练和推理阶段期间最大可能的批量大小(对于更好的运行时间)对图形处理单元(GPU)和张量处理单元(TPU)的性能的影响。在标准MNIST和Fashion-MNIST数据集上进行了大量的这些深度神经网络(DNN)。与极其强大的GPU NVIDIA Tesla K80卡相比,即使极度大规模使用谷歌TPUv2单元(仅8核),也可获得显着的加速,训练阶段的加速可达10倍(不考虑开销)并加速到2x预测阶段(有和没有考虑开销)。 precisespeedup值取决于TPUv2单位的利用水平,并随着处理过程中数据量的增加而增加,但对于这项工作中使用的数据集(MNIST和Fashion-MNIST,图像大小为28x28),批量大小> 512张图像的加速比例用于训练阶段和> 40 000个用于预测阶段的图像。应该注意的是,这些结果是在不损害预测准确度和损失的情况下获得的,GPU和TPU都是相同的,直到MNIST数据集的第3个有效数字,并且直到Fashion-MNIST数据集的第2个有效数字。
translated by 谷歌翻译
为城市场景理解准备高质量数据集是一项艰巨的任务,尤其是针对自动驾驶应用而设计的数据集。应用这些数据集的粗糙地面实况(GT)注释而不损害语义图像分割的准确性(通过联合上的平均交叉 - mIoU)可以简化并加速数据集准备和大小单双倍投公式微调之前的实际应用。在这里,PSPNet深度学习架构获得的语义分割准确性的比较分析结果是针对来自Cityscapes数据集的精细和粗略注释图像。调查了两种情景:情景1 - 用于训练和预测的精细GT图像,以及情景2 - 用于训练的精细GT图像和用于预测的粗略GTi图像。得到的结果表明,对于最重要的类,粗GT引用的语义图像分割的平均准确度值高于精细GT注释的平均准确度值,而标准偏差值则相反。这意味着对于某些应用程序,可以排除一些重要的类,并且可以针对粗GT数据集上的某些类和特定区域进一步调整大小单双倍投公式,而不会损失精确度。此外,这打开了使用深度神经网络来准备这种粗略GT数据集的观点。
translated by 谷歌翻译
最近游戏玩法人工智能的能力爆炸式增长。从视频游戏到电动机控制到棋盘游戏,许多类别的任务现在都可以通过基于深度学习和强化学习的相当通用的算法来解决,这些算法学习用最少的先验知识来体验。然而,这些机器通常不会仅通过智能获胜 - 它们具有极高的速度和精度,使它们能够以人类永远无法实现的方式行事。为了平衡竞争环境,我们将机器的反应时间限制在人的水平,并发现标准的深层强化学习方法会迅速降低性能。我们提出了一个由人类感知启发的行动延迟问题的解决方案 - 赋予代理人一个环境的神经预测大小单双倍投公式,“解除”他们环境中固有的延迟 - 并展示它对Super Smash Bros. Melee中职业玩家的效果,一个流行的控制台格斗游戏。
translated by 谷歌翻译
大小单双倍投公式 通过胶囊深度学习神经网络,证明了在基辅(乌克兰)StSophia大教堂的石头墙上雕刻的历史字母(XI-XVIII世纪)的自动识别。它被应用于雕刻的Glagolitic和Cyrillic字母(CGCL)的imagedataset,最近被组装和预处理用于机器学习方法的识别和预测(https://www.kaggle.com/yoctoman/graffiti-st-sophia-大教堂基辅)。 CGCLdataset包含> 4000个用于34个字母的字形的图像,即使与不具有从不同字体取得的10个字母的更好图像的非MNIST数据集相比也难以被专家识别。尽管CGCL数据集的质量差得多且样本数量极少(与非MNISTdataset相比),但胶囊网络大小单双倍投公式显示出比以前使用的卷积神经网络(CNN)更好的结果。胶囊网络大小单双倍投公式的验证准确度(和验证损失)比CNN更高(更低),甚至没有数据增加。胶囊网络大小单双倍投公式的接收机操作特性(ROC)的曲线下面积(AUC)值也高于CNN大小单双倍投公式:0.88-0.93(胶囊网络)和0.50(CNN)没有数据增强,0.91-0.95(胶囊网络)和0.51 (CNN)具有无损数据增强,以及仅在无损数据增强机制中0.91-0.93(胶囊网络)和0.9(CNN)的类似结果。对于胶囊网络而言,混淆矩阵比CNN大小单双倍投公式更好,并且在所有三种数据增强方案中给出了低得多的I型(假阳性)和II型(假阴性)值。这些结果支持先前的声明,类囊状网络不仅可以降低MNIST数字数据集的错误率,而且可以降低其他非MNIST字母数据集和更复杂的CGCL手写涂鸦字母数据集的错误率。
translated by 谷歌翻译
深度NLP大小单双倍投公式受益于数据中的底层结构 - 例如,parsetrees--通常使用现成的解析器提取。最近联合学习潜在结构的尝试遇到了权衡:要么制定限制表达的假设,要么牺牲端到端的可区分性。使用最近提出的SparseMAP推理,其在潜在结构上进行稀疏分布,我们提出了与潜在预测器一起用于潜在结构预测器的端到端学习的新方法。据我们所知,我们的方法是从全局结构中首次实现无限制的动态计算图构造,同时保持可微性。
translated by 谷歌翻译