百度发布Deep Speaker:大规模声纹识别的端对端系统
雷锋网按:此前雷锋网曾经报道过百度在语音技术上的百度进展。日前,发布百度美研院宣布了其在声纹识别上所取得的大的端对端突破性成果。研究表明:利用深度学习的规模方法比传统的i-vector方法在识别准确率上获得了显著的提高。
声纹识别算法寻求从音频中识别说话者的声纹识别身份。两个常见的系统识别任务是确认(说话者是不是他宣称的那个人)和说话者身份识别(在一群未知的说话者中确认声音的来源)。
该项技术已经有了各种应用。百度例如,发布声纹可以用来登录设备。大的端对端说话者确认也可以作为金融交易的规模额外安全措施。此外,声纹识别类似于智能家居助手之类的系统共享设备也可以利用这项技术来提供个性化的服务。
最近使用神经网络来进行声纹识别的百度论文已经改进了传统的i-vector方法(参考Interspeech教程的原始论文或者幻灯片)。i-vector方法认为说话内容可以被分为两个部分,发布一个部分依赖于说话者和信道可变性,大的端对端另一个部分依赖于其它的相关因素。i-vector声纹识别是一个多步过程,其涉及到使用不同说话者的数据来估计一个通用的背景模型(通常是高斯混合模型),收集充分的统计数据,提取i-vector,最后使用一个分类器来进行识别任务。
一些论文用神经网络代替了i-vector流水线的方法。其它研究者要么训练了一个文本相关(使用者必须说同样的话)的端对端语者识别系统,要么训练了文本独立(这个模型与说话内容不相关)的端对端语者识别系统。我们介绍Deep Speaker:一个端对端的神经声纹识别系统,它在文本相关和文本独立的场景下都取得了良好的效果。这意味这个系统可以被训练来识别谁在说话,无论是当你对你的家庭助手说“wake”或者你在会议中发言。
Deep Speaker由深度神经网络层组成,从音频中提取特征,基于余弦相似性的时间池和三元组损失(triplet loss)。百度美研院探究了ResNet激活的卷积模型和现有模型在提取声学特征上的效果。
说明:在这里百度美研院使用了人脸识别中采用的三元组损失。在训练过程中,他们选择了一个说话者的话语,然后计算一个嵌入(标记为“Anchor”)。再产生两个嵌入,一个来自相同的演讲者(标记为“Positive”),一个来自于不同的演讲者(标记为“Negative”)。在训练过程中,其目标是让Anchor与positive嵌入之间的余弦相似度高于Anchor与negative嵌入之间的余弦相似度。
百度美研院展示了Deep Speaker在三个不同数据集上的有效性,包括文本相关和文本独立的任务。其中之一的UIDs数据集包括大约250000名说话者,是知识文献中最大的数据集。实验结果表明:Deep Speaker要明显优于基于DNN 的i-vector方法。例如,在一个文本独立的数据集中随机挑选出100个演讲者,Deep Speaker在说话者身份确认任务上的错误率是1.83%,正确率是92.58%。相比于基于DNN 的i-vector方法,它降低了50%的错误率,提高了60%的正确率。
说明:在实验中百度美研院所使用的数据集是 UIDs,XiaoDu,和Mandarin。UIDs和XiaoDu是普通话数据集,Mturk是英语数据集。UIDs和Mturk是文本独立的数据集,XiaoDu是文本相关的数据集,其基于百度的唤醒字(wake word)。为了在不同大小的训练集上做实验,他们用了全部的UIDs数据集(250,000)和它的一个子集(50,000)。在评估阶段,他们选择了一个Anchor,然后再从测试部分随机地选择1个Anchor positive样本和99个Anchor negatives样本。
团队还发现Deep Speaker学习到了与语言无关的特征。当在普通话语境下训练时,Deep Speaker却能在英文确认和识别的任务上达到5.57%的错误率和88%的正确率。此外,先用普通话再用英文训练可相比于只用英文训练,提高了英文识别的准确率。这些结果都显示出尽管不同的语言听起来非常不同,深度语者却学习到了跨语言的声音特征。这些结果与Deep Speech 2的结果类似,同样的架构都可以用来辨认不同语言的声纹识别。
关于Deep Speaker模型的更多细节,训练技巧和实验结果都可以在论文中找到。
论文地址:https://arxiv.org/abs/1705.02304
via research.baidu,雷锋网翻译
友链
外链
互链
Copyright © 2023 Powered by
六合彩图库源码【购买联系电报bc3979】AC彩票网站源码|六合彩源码|彩票搭建|新中原六合彩源码|【网站bc9797.com】六合彩论坛源码【联系飞机bc3979】
sitemap
-
文章
23
-
浏览
3
-
获赞
7
热门推荐
-
定了!切尔西第7签到位,凯恩倾向留守热刺,曼城盯上2800万飞翼
稍早前,意大利名记罗马诺用标志性的“Here we go”宣布切尔西签下利兹联中场泰勒-亚当斯。蓝军直接触发了球员合同里的2000万解约金条款,并且与球员经纪人在伦敦就个人条款达成了一致。接下来将进行姆巴佩为什么只愿续约巴黎至2023
姆巴佩为什么只愿续约巴黎至20232023-07-03 19:37:10姆巴佩(Kylian Mbappé)是足球世界中备受瞩目的年轻球员之一。他的速度、技术和进球能力使他成为了法国国家埃肯有机硅蝉联荣格技术创新奖
日前,埃肯有机硅凭借最新产品PURESILTMEP系列荣获2022年荣格“个人护理品及化妆品技术”创新奖,这是埃肯有机硅连续三年荣获该奖项。PURESILTMEP系列是一种弹性洛克王国爱心教堂:爱与善良的魔力之源
洛克王国已在2010年发行,是一款魔幻、冒险、竞技和休闲于一体的虚拟社交游戏。洛克王国已在2010年发行,是一款魔幻、冒险、竞技和休闲于一体的虚拟社交游戏。洛克王国已在2010年发行,是一款魔幻、冒险日潮 Meanswhile 2019 秋冬系列 Lookbook 赏析~
潮牌汇 / 潮流资讯 / 日潮 Meanswhile 2019 秋冬系列 Lookbook 赏析~2019年07月30日浏览:2982 不久前,潮流杂志《GRIND》为iPhone竞争力不断下滑 降价成苹果挽救销量绝招
截至最新数据显示,英伟达市值高达2.19万亿美元,与苹果的差距越来越小。市场机构认为,股价的涨幅折射出公司的成长性,虽然英伟达的营收规模仍然不能与苹果相比,但后者释放出的利好信号强于苹果。目前来看,i焦点资讯:中国工程院院士庄辉:消除歧视 加强18岁以上人口乙肝筛查
虽然我国取消入学、就业体检中“乙肝五项”检查已经有13年的时间,但乙肝群体的社会歧视并没有完全消除。日前,由吉利德科学提供公益支持的电影《不止不休》在全国上映,影片讲述了一位报社实习记者试图通过一篇新智慧交通护航上马 中国平安打造运动+产品+公益开放式健康公益生态
11月17日,2019上海马拉松(以下简称"上马")正式在申城拉开帷幕。中国平安连续五年升级赛事保障服务方案,在科技力量的加持下,首度构建了智慧交通体系,打造警保联动机制,依托智能腾讯《荒野起源》实机演示:大战机械兽 画面优秀
今日(11月29日)由腾讯北极光工作室研发的游戏《荒野起源》正式公布,现在官方公布了达里曼平原实机演示,“在万事万物毁灭之后,故事拉开了序幕。在辽阔的荒野之中,行走人类最漫长的路”。实机演示:《荒野起江苏一公司团年聚餐被收7500元电费?酒店回应
近日,有网友在小红书上发帖,称公司在江苏常州某酒店团年聚餐,结账时发现收款单上出现了7500元的电费,“离谱,第一次听说吃饭收电费的。”当事人柳女士化名)告诉上游新闻记者,由于2023最新版短一点的情话 超甜的不会撞款的情话
日期:2023/4/4 7:56:00作者:网友整理人气:0我来评论导读:这组超甜的情话语录分享给你们啦,不会撞款的超甜的情话一定要跟喜欢的表白用哦。 1.乍见心欢,小别思恋,久处仍怦然。2滕哈赫应否下台?渣叔5年才拿到冠军,塔帅第3年才可以冲击冠军!
继曼联德比战主场输给曼城后,联赛杯又3球输给纽卡斯尔联,要求主帅埃里克·滕哈赫落台的声音又甚嚣尘上。在讨论他是否应该会被炒之前,小编想和大家先看下利物浦主帅克洛普和阿森纳主帅阿尔特塔的情况,再去分析究Here we go!罗马诺:曼联签下20岁中锋霍伊伦德
记者罗马诺报道称,曼联签约亚特兰大前锋霍伊伦德达成协议,here we go! 罗马诺透露,霍伊伦德转会费超7000万欧,包含附加费用,俱乐部将在未来24小时内敲定合同文件。霍伊伦德十天前同意了一份闈掑矝鍥介檯鐗╂祦浜т笟鍥惤鎴蜂腑澶晢鍔″尯
銆€銆€12鏈?鏃ヤ笂鍗堬紝闈掑矝鍥介檯鑸繍璐告槗閲戣瀺鍒涙柊涓績鏍稿績鍖轰骇涓氬彂灞曞ぇ浼氭櫤鎱х墿娴佸崗鍚屽彂灞曡鍧涘湪甯傚寳鎴愬姛涓捐銆傞潚宀涘浗闄呰埅杩?0浣欏鐗╂祦浼佷笟銆佹腐琛屾伊索寓言宙斯与善的故事,宙斯与善的故事寓意
伊索寓言宙斯与善的故事,宙斯与善的故事寓意misanguo 伊索寓言_伊索寓言故事大全_在故事网看伊索寓言故事, 寓言故事, 睡前小故事_睡前小故事大全