机器学习正在从艺术和科学转变为可供每个开发人员使用的技术。在不久的将来,每个平台上的每个应用程序都将包含训练有素的大小单双倍投公式,以编码开发人员无法创作的基于数据的决策。这提出了一个重要的工程挑战,因为目前数据科学和建模在很大程度上与标准软件开发过程脱钩。这种分离使得在应用程序内部的机器学习能力不必要地变得困难,并且进一步阻碍了开发人员将MLin置于首位。在本文中,我们介绍了ML .NET,这是一个在过去十年中在Microsoft开发的框架,用于应对在大型软件应用程序中轻松发布机器学习大小单双倍投公式的挑战。我们提出了它的架构,并阐明了形成它的应用程序需求。具体而言,我们引入了DataView,它是ML .NET的核心数据抽象,它可以有效地,一致地捕获完整的预测管道,并在训练和推理生命周期中进行。我们结束了论文,对ML .NET进行了令人惊讶的有利的性能研究,与更多的接受者相比,并讨论了一些经验教训。
translated by 谷歌翻译
大小单双倍投公式 有许多关于从深度神经网络(DNN)中提取瓶颈(BN)特征的研究,这些特征训练用于区分说话者,密码短语和三音素状态以改善文本相关说话者验证(TD-SV)的性能。但是,取得了一定的成功。最近的一项研究[1]提出了一种时间对比学习(TCL)概念,用于探索脑信号分类的大脑状态的平稳性。语音信号具有类似的非平稳性,并且TCL还具有不需要标记数据的优点。因此,我们提出了一种基于TCL的特征提取方法。该方法将训练数据集中的每个语音容差均匀地划分为预定义数量的多帧分段。话语中的每个片段对应于一个类,并且跨语言共享类标签。然后训练DNN以区分各类中的所有语音帧以利用语音的时间结构。此外,我们提出了一种基于分段的无监督聚类算法,以便为这些分段分配类别标签。在RedDots挑战数据库上进行TD-SV实验。使用从TD-SV评估集中排除的语音数据离线密码短语来训练TCL-DNN,因此可以将所述特征视为与短语无关的。我们比较了所提出的TCL瓶颈(BN)特征与短时间倒谱特征和从DNN识别扬声器,密码短语,说话者+密码短语以及标签和边界由三种不同自动生成的单声道提取的BN特征的性能。语音识别(ASR)系统。实验结果表明,所提出的TCL-BN优于自适应特征和说话人+通行短语判别BN特征,其性能与ASR导出的BN特征相当。此外,....
translated by 谷歌翻译
端到端深度学习语言或方言识别系统在频谱图或其他声学特征中操作,并直接生成每个类别的识别分数。端到端系统的一个重要问题是对应用程序域有一定的了解,因为系统可以容易地使用在训练阶段没有看到的情况;例如,场景通常被称为域不匹配条件。通常,我们假设训练数据集中存在足够的变化以将系统暴露给多个域。在这项工作中,我们研究如何最好地使用atraining数据集,以便在未知的目标域上获得最大的效果。我们的目标是在不了解targetdomain的情况下处理输入,同时在其他域上保留稳健的性能。为了实现这一目标,我们提出了一种域细致的融合方法,即前端到端的方言/语言识别系统。为了帮助进行实验,我们从三个不同的域收集数据集,并为域不匹配条件创建实验协议。我们提出的方法的结果在各种广播和YouTubedata上进行了测试,与传统方法相比,即使没有任何先前的目标域信息,也显示出显着的性能提升。
translated by 谷歌翻译
在本文中,我们提出了一个使用语音和视觉信号的多模态在线人员验证系统。受到关于语音和面部关联的神经科学研究结果的启发,我们提出了一种基于注意力的端到端神经网络,该网络可以为人员验证任务学习多感官关联。我们提出的网络中的注意机制学习在语音和面部表示之间选择一种显着的模态,在互补输入之间提供平衡。凭借这种能力,网络对于模态中的数据丢失或损坏是健壮的。在VoxCeleb2数据集中,我们展示了我们的方法对竞争的多模态方法的有效性。即使对于大型腐败或完全缺失模态的极端情况,我们的方法也证明了其他单峰方法的稳健性。
translated by 谷歌翻译
在本文中,我们探索使用分解层次变异分析编码器(FHVAE)大小单双倍投公式来学习无监督潜在表示的方言识别(DID)。 FHVAE可以通过将它们编码为两组不同的潜在变量来学习将话语中的更多静态属性与更动态的属性分开的潜在空间。用于方言识别的有用因素,例如语音或语言内容,由分段潜变量编码,而序列内相对恒定的无关因子,例如频道或说话者信息,由顺序潜变量编码。解缠结特性使得这些潜在变量不易受到信道和扬声器变化的影响,从而减少了信道域不匹配的劣化。我们证明了在完全监督的DID任务中,与在传统声学特征和基于i矢量的系统上训练的相同大小单双倍投公式相比,从FHVAE大小单双倍投公式中提取的特征训练的端到端大小单双倍投公式实现了最佳性能。此外,我们还表明,所提出的方法可以利用大量未标记的数据进行FHVAE培训,以学习DID的域不变特性,并在低资源条件下显着提高性能,其中域内数据的标签不是可用。
translated by 谷歌翻译
在本文中,我们提出了一种基于卷积神经网络(CNN)的说话人识别大小单双倍投公式,用于提取鲁棒的说话人嵌入。可以在嵌入层中通过线性激活有效地提取嵌入。理解说话人识别大小单双倍投公式如何操作与文本无关的输入,我们修改结构以提取框架级扬声器嵌入到隐藏层。我们将来自TIMIT数据集的话语提供给训练有素的网络,并使用多个代理任务来研究网络表示语音输入和区分语音身份的能力。我们发现网络比单个音素更能区分广泛的语音类别。特别地,属于相同语音类的帧级嵌入对于相同的说话者是相似的(基于余弦距离)。帧级表示还允许我们在帧级分析网络,并且有可能进行其他分析以提高说话人识别。
translated by 谷歌翻译