依图声纹识别竞赛夺冠，语音应用将更智能

时间：2019-09-11 16:15 浏览：2071 来源：

摘要:日前，在奥地利召开的机器语音国际顶会 InterSpeech 2019 上，国际声纹识别权威竞赛 VoxCeleb Speaker Recognition Challenge（VoxSRC）公布最新结果，依图科技大幅领先海内外多支强队获得冠军，再次展示了世界级人工智能算法实力。

关键字：依图声纹识别语音

日前，在奥地利召开的机器语音国际顶会 InterSpeech 2019 上，国际声纹识别权威竞赛 VoxCeleb Speaker Recognition Challenge（VoxSRC）公布最新结果，依图科技大幅领先海内外多支强队获得冠军，再次展示了世界级人工智能算法实力。

此次参赛队伍不仅包括约翰霍普金斯大学、法国国家信息与自动化研究所、清华大学、中山大学等海内外知名高校、研究机构,还包含平安科技、NEC、君林科技等各大企业。至此,依图人工智能技术不仅在视觉感知、自然语言理解等领域领跑全球,声纹识别技术也已达世界顶尖水平。

“声纹识别”和“语音识别”是完全不同的技术,语音识别只负责让机器识别出“说话的内容”,但声纹识别能判定“话是谁说的”。因此,结合声纹识别与语音识别,我们才能知道“是谁说了什么”,这一点对于会议、访谈等有多人轮流说话的场景尤其重要。

声纹识别的应用前景非常广泛,比如智能手机锁屏、声控安全门、汽车声控锁等;利用声纹辨认技术,还可以支持智能音箱、智能语音助理等提供个性化服务,比如针对家里的老人和孩子,推荐不同的歌曲、新闻。

但由于声纹识别技术本身的难度很高,这些应用需求大部分还处在探索阶段。这也是到目前市面上能自动辨别说话人的智能语音应用比较少见的一个原因。

在声纹识别领域,VoxCeleb Speaker Recognition Challenge(VoxSRC)是兼具影响力和权威性的国际评测。与常规的声纹识别评测不同,VoxSRC所用的数据量大、来源多样,而且都采集自真实场景,比如会场访谈、室外多人对话,含有各种噪音和杂音,对于算法性能的要求非常高。此外,该竞赛的评估方法非常严谨,因此其结果在学术界和工业界都得到认可。

在声纹识别竞赛中,“EER”值是衡量声纹识别算法系统性能的重要指标,EER越小系统性能越好,表明不仅算法识别准确率高,系统也安全可靠。在本次竞赛中,依图基于算法的多年研究积累,首次参赛便拿下冠军,在关键指标上创下新高,远超第二、三名。

依图这次创下纪录的声纹识别精度水平,已经可以满足基本的智能声纹应用需求,比如在线交易支付的动态声纹密码、个人账户登录的声纹动态口令登录。试想,社保局安装声纹身份认证系统后,就能实现安全的远程身份认证,让“信息多跑路,群众少跑腿”,为百姓生活带来极大的便利。随着技术的不断成熟和融合,声纹识别技术将逐渐融入我们的日常生活,产生巨大的应用价值。中国自研的人工智能技术,也将持续推动和引领全球技术发展,力争成为行业标杆。

此次依图刷新世界声纹识别领域权威纪录,不仅代表中国声纹识别技术向前进了一步,更意味着智能语音产业发展的一大步。

声纹识别为什么难？

声纹识别是一种通过声音判别说话人身份的技术。如果说语音识别是让机器判断「说了什么」，那声纹识别就是判断「是谁说的」，用于解决生物身份的确认和识别。

2012 年以来，深度学习技术逐渐进入声纹识别主流，这种方法纯粹采用数据驱动的方式，通过海量数据样本和深度神经网络模型，让机器自动去发掘声学特征中说话人的信息差异，从而「学会」声学特征中的说话人信息表示。

很显然，使用基于端到端深度学习的方法做声纹识别，拥有大量声纹数据样本，就有了无可置疑的优势。

目前，声纹识别应用还处于探索阶段，但其应用前景十分广阔。最容易想到的，比如会议录音的音频转录，在结合了声纹识别技术后，就能自动标注出谁在什么时候说了什么，轻松完成多人会议纪录，大幅提高工作效率。

随着技术的不断成熟和融合，声纹识别技术将逐渐融入日常生活，根据不同应用场景的特点进行针对性开发，将产生巨大的应用价值。

VoxSRC：声纹识别界的 ImageNet 竞赛

VoxSRC 是由英国牛津大学、韩国互联网巨头 Naver、斯坦福国际研究院（SRI International）和 MIT 的研究者联合发起的全球声纹识别竞赛，可以说是「声纹识别界的 ImageNet 竞赛」。在很大程度上，VoxSRC 结果反映了全球声纹识别技术最高水平。

VoxSRC 基于开源数据集 VoxCeleb，由牛津大学团队于 2017 年发布，后来逐渐扩充，现在是声纹识别领域规模最大、标注最完备的开源数据集之一。

VoxCeleb 来自 YouTube 名人采访视频，包含了 7000 多个不同种族、性别、口音、职业和年龄的说话人，在不同场合下超过 100 万段的说话声（utterance），时长加起来总共超过 2000 小时（每段音频的长度从 3 秒到 20 秒不等）。

除了数据量大且来源多样化，VoxCeleb 的音视频基本都含有背景噪音、笑声、重叠的说话声和其他杂音，非常考验算法的实战水平。

依图01.jpg

牛津大学发布并维护的VoxCeleb数据集是目前全球规模最大、标注最完备的开源声纹数据集之一，数据来源多样且都来自无约束场景，非常考验算法的实战水平。

此外，VoxSRC 的测试数据集是「盲的」（blind），即没有任何标注。这些数据无法用来训练或调整系统，确保了比赛结果的公正与准确（不会出现有团队过拟合数据的情况）。

今年的 VoxSRC 吸引了海内外多支队伍参与，有约翰霍普金斯大学、法国国家信息与自动化研究所、清华大学、中山大学等知名高校和研究机构，也有平安科技、NEC、君林科技等大企业。

竞赛的任务很明确，就是判断两段音频是出自同一个人，还是来自两个不同的人。算法的输出结果用等错误率（Equal Error Rate，EER）来衡量。

EER 是衡量声纹识别算法系统综合性能的重要指标，EER 值越小，系统的性能就越好。

什么是EER、FAR、FRR？

评估算法系统性能时常输出ROC 曲线，用于描述FAR（误识率）与FRR（拒识率）之间的关系。

简单说，在声纹识别中，误识率就是“把不应该匹配的声纹当成匹配声纹”的比例，拒识率则是“把应该匹配的声纹当成不匹配声纹”的比例。

在对安全要求非常高的应用场景，就会把FAR值设置得低一些，因为判断错一次的代价很大，但这样做的同时会导致FRR值上升，用户体验度下降。

依图02.jpg

等错误率（EER）是系统的误识率（FAR）和拒识率（FRR）相等时的错误率，即ROC曲线与45度角直线相交的点，是衡量声纹识别算法系统综合性能的重要指标。EER数值越小，系统性能越好。

为了评估数据量（训练样本多少）对系统性能的影响，这次 VoxSRC 竞赛给定了两种情况，一是固定数据集，另一个是无约束数据集。

固定数据集任务，参赛队伍使用的训练数据集是固定的，也即 VoxCeleb2，该数据集包含了来自 5994 个不同说话人超过 100 万段的说话声音频。

无约束数据集任务，参赛队伍在训练模型时，可以使用除竞赛测试集以外的其他任何数据，包括未公开发布的数据。

依图团队以 0.0098 的 EER 值获得本届竞赛冠军，也是唯一将 EER 值降低到 0.01 以内的团队。

特别值得一提的是，这个结果比其他团队无约束数据集任务的结果更好（无约束数据集任务的冠军 EER 值为 0.0126）。

中国最好的就是全球最好的

依图已经不是第一次在国际人工智能公开比赛中获得第一。

成立 7 年来，依图在视觉感知、自然语言处理、语音识别、智能决策等多算法领域发展，并且都独占鳌头。这次在全球声纹识别权威竞赛 VoxSRC 中夺冠，是对中国自有 AI 技术能够引领世界的又一个绝佳证明。

今年 5 月，依图发布自研云端 AI 芯片求索（questcore），旨在提升智能密度，结合世界领先人工智能算法和先进芯片设计理念，同等功耗下的视觉推理性能是 NVIDIA GPU 的 5 倍。

基于求索构建的智能视频分析系统，将原本需要 16 台机柜的方案压缩到 1 台，降低数据中心整体建设成本 50%，运维成本 80%，让 10 万路智能视频解析系统成标配，50 万路成现实，大幅提升基础设施智能水平，为人工智能应用落地和普及奠定了坚实的基础。

8 月 29 日，依图获得科技部正式授牌，承建视觉计算国家新一代人工智能开放创新平台，促进芯片设计与人工智能的融合，同时针对不同业务场景打造一系列定制化芯片，支持智能城市、智慧医疗和智慧金融等行业。

未来，依图将在多算法领域持续投入，多模态技术融合，软硬件协同开发，将世界优胜人工智能算法与行业场景深度结合，推动人工智能应用落地。

上一篇：新零售势不可挡，且看电子价签如何撬动市场

下一篇：高新兴发起成立国内首家“5G+车联网”专委会

热门文章

最新发布

前沿技术

依图声纹识别竞赛夺冠，语音应用将更智能