CCF YOCSEF太原成功举办“数字山西之闻声识人：声纹识别技术如何‘听’的准？”技术论坛 - 论坛

声纹识别技术是一种生物识别技术，也称为说话人识别，利用人体固有的声音特性来进行个人身份鉴定。其识别与口音无关、与语言无关，可分为说话人辨认和说话人确认两类任务。与其他生物特征相比，声纹识别的优势在于声纹提取方便、使用者接受程度高、成本低廉、使用简单、适合远程身份确认等，配合一些其他措施，如通过语音识别进行内容鉴别等，可以提高准确率。这些优势使得声纹识别的应用越来越受到系统开发者和用户青睐，并在信息技术、信息安全、金融交易、社会安全等领域逐渐发挥作用。

然而，声纹识别的应用也有一些缺点，比如同一个人的声音具有易变性，易受身体状况、年龄、情绪等的影响；不同的麦克风和信道对识别性能有影响；环境噪音对识别有干扰；多说话人的声音混合的情形下人的声纹特征不易提取等……因此，声纹识别目前主要还是被用于一些对于身份安全性要求并不太高的特定场景当中，比如现在比较热门的智能音响。为了进一步应用，声纹识别的未来该如何发展？

在此背景下，11月27日CCF YOCSEF太原成功举办了“数字山西之闻声识人：声纹识别技术如何‘听’的准？”技术论坛。本次论坛邀请到学术界、企业界的专家，围绕声纹识别在不同噪声干扰、噪声标签等情况下的准确性、以及声纹的应用落地进行思辨讨论。CCF YOCSEF太原AC委员张睿和张光华担任执行主席，CCF YOCSEF 太原学术秘书许骁哲和CCF YOCSEF太原委员梁新彦担任线上执行主席。

论坛执行组现场

聚焦声纹识别专业报告精彩纷呈

论坛特邀清华大学和新疆大学的何亮副研究员做了题为《声纹识别的前沿进展》的引导发言。报告包含范畴、现状和展望三个方面。在范畴部分，何老师介绍了声纹识别相关领域的应用，包括说话人标记、防伪鉴伪、恶意攻击、刑事鉴定、远场声纹、多模生物特征等，并凝练出声纹识别是一个从时间序列中提取弱信息的科学问题。在现状部分，何老师简述了声纹识别技术的发展历史；并以X-vector模型框架为核心，介绍了数据扩充、主网络、池化、损失函数等方面的改进和团队相关工作；介绍了搭建一套SOTA的声纹识别系统的方法；还介绍了说话人标记、说话防伪。最后，在展望部分，何老师提出了“自训练与预训练”，“超大规模的说话人识别”，“图神经网络”等前沿研究问题，并对多模态声纹特征识别、防伪、说话人标记、远场识别、医工结合等研究方向进行展望。

何亮副研究员做题为《声纹识别的前沿进展》的引导发言

第二位特邀讲者是山西大学姜高霞副教授，姜老师做了题为《声纹识别中的标签噪声检测与过滤方法研究》的引导发言。该发言从声纹识别背景、声纹识别噪声、噪声监测与过滤、总结与展望四个方面展开。首先，姜老师简述了声纹识别的概念、以及声纹辨认和声纹确认两种类别。然后，介绍了声纹识别的噪声类型，包含语音噪声（外在噪声，内在噪声）和标签噪声，并扩展到一般分类问题中的噪声类型，并介绍了标签噪声的分类以及噪声的影响。接着，姜老师介绍了算法层和数据层两个角度应对标签噪声的处理方法出发，并聚焦到数据层方法中的噪声过滤，介绍了基于近邻的过滤和集成过滤两种经典方法，并介绍了团队的相关工作。最后，姜老师就类别型标签噪声的过度清洗、标签纠正和标签过滤结合、声纹识别的特殊性、以及通用标签噪声处理方法在声纹识别中的可推广性等方面进行展望。

姜高霞副教授做题为《声纹识别中的标签噪声检测与过滤方法研究》的引导发言

第三位特邀嘉宾科讯嘉联CTO李钊辉老师结合科大讯飞的主流落地应用情况，做了题为《语音识别技术的原理与应用》的引导发言。首先通过生动的视频介绍了语音识别发展的悠久历史，介绍了语音识别从无到有的艰难发展历程，以及语音识别的革命性变革——深度神经网络。其次介绍了语音识别的概念、流程、数学基础、声学模型的理解以及语音识别的框架。并对声学模型的发展进行阐述，包括LSTM和Transformer等模型、CNN到RNN的发展、语言模型的发展以及新一代语音识别框架。接着介绍了语音识别的分类（语音听写、语音转写）、语音识别后处理和语音识别研究现状。最后，李老师展示了科大讯飞的讯飞语音输入、车载语音助理以及讯飞听见和语音客服等最新研究成果，以及语音识别模型在泛化程度不足、深度识别对未见过的数据处理效果与人类差距较大等方面的挑战。

李钊辉做题为《语音识别技术的原理与应用》的引导发言

接下来进入思辨环节，首先针对思辨点一“如何提升不同噪声或干扰下的声纹识别模型的准确性？”，嘉宾和参会人员展开了激烈的讨论。

特邀嘉宾何亮认为，现在的SOTA技术通过合理的场景部署还是能满足诸多日常生活场景的，并且可以从两个方面进行提升。第一，做好数据，使训练的数据和实际部署的数据一致；第二，更新更好的模型。

姜高霞从数据的层面进行了分享。深度模型在图像声音都有很好的表现，但深度模型很依赖于数据的数量和准确程度。为了获得实际的好效果，需要在数据集和测试集一致的情况下，提前构建大量的准确标注的数据。但标记的成本代价比较高，当一部分数据有标签和大量数据没有标签时，可以借助模型来自动打标签。当然这种方法也存在一定错误，此时可以借助标签噪声过滤的模型或者噪声识别模型再进一步甄别和筛选，这样可以制作得到更多、更准确的标签数据，最终提升模型的性能。

李钊辉同意两位专家的观点，并且分享了自己早期的声纹应用成功的例子，4S店满意度欺骗检测和重点人群监控。提到在应用落地时，一方面，从技术角度，寻找解决噪声的方法；另一方面，从应用角度，尽可能的规避噪声，在应用时创建信道比较一致、噪声较小的环境有利于声纹识别的推广。

许骁哲提出除了数据集和模型的提升，是否可以不抑制噪声，让模型对不同场景进行自动学习，使模型不光可以识别声纹还可以去识别场景，以此来提升模型的准确度？何亮认为从学术角度来说，思辨点一的本质是如何解决训练集和测试集的分布不一致问题。从产业界应用角度来说，不同应用场景可能噪声不同，如果真实环境是15dB，那在训练数据中加入15dB的噪声性能就会有所提升，但加入20dB或30dB噪声就效果一般，需要权衡。

梁新彦提出多模态是否可以帮助应对噪声问题？李钊辉认为人脸识别的准确度已经很高了，所以结合人脸识别来提升精度的程度有限。但多模态可以增强鲁棒性，可以通过人脸去增加声纹识别模型对某些攻击的抵抗。

针对“声纹识别模型如何应对标签错误干扰”第二个思辨问题，嘉宾和参会人员的讨论更为激烈。

姜高霞认为提升模型有很多经典的方法，损失函数的构造方法还有很大的提升空间，对于声纹中拒绝正例和接受负例可以给出不同惩罚。不同噪声环境下同一个人的语音，建模时可以对不同噪声环境下的样本加权，设置不同的权重。另外在构造集成模型时，模型并不是越多越好，集成学习对于性能提升帮助还是有限的。建议更多的从损失函数和样本加权来入手。

梁新彦向何亮老师提问到在NIST SRE数据集中存在一些错误标签，应该怎么应对？何亮认为错误标签是普遍存在的。何老师指出，厦门大学的李琳老师在这一问题上有所研究，做法是在基于PLDA这一类方法基础上，先用带噪声标签的数据集训练模型，再对已有标签进行预测，估计其置信度，之后用这个带有置信度的标签数据重新去更新模型，对于性能提升非常可观。

裴向东提出目前声纹从图像识别迁移的模型比较多，先用传统的信号处理方法对噪声进行处理，再结合深度学习对模型创新应该会有很好的效果。第二，声纹识别的鲁棒性和应用场景有很大的关系，鲁棒性算法的选择和测试很重要。

线上学生提问，声纹是否可以像人脸那样，在计算embedding的时候让高质量样本聚在中心，低质量样本远离，或者自适应的实现？何亮回答，一方面，对于一段的语音，在未和其他语音进行比较时，是无法判断其是高质量还是低质量的，高质量还是低质量是成对比较的。另一方面，有一些损失函数可以达到相应功能，但在网络、数据层面的实现还有待研究。

最后，针对“声纹识别想要在反电信诈骗、司法鉴定等领域获得大规模应用，还需要具备哪些条件？”进行思辨。

李钊辉作为合肥市公安信息化专家库AI评审专家，分享了自己的工作经验。目前电信诈骗的受害者绝大多数都是年轻人刷单被骗，老年人占比并不是很高，大多数情况下电信诈骗者只是通过微信联系，并不涉及语音。对于电信诈骗，目前公安机关的主要措施是，先通过收集互联网信息、境外电话数据等信息形成前哨，将可疑的诈骗人推送到后台，后台通过机器人自动打电话提醒潜在受害人。

何亮解释，大家对声纹识别在反电信诈骗上所起的作用可能有所误解，并不是将电话录下来，再对比声纹，自动确认某个语音是不是诈骗电话。声纹识别的作用是举证，是应用在电信诈骗人员的身份的确认上的。举证的难点在于说话人刻意变声。比如在演讲、对话等不同场景，通过主观控制，声音听起来是不一样的，但本质上声纹特征应该是不变的。但是就目前的技术来说，这种情形下的声纹识别效果会变差，这也是声纹识别研究的一大难题。主要原因是缺少相应的包括不同信道、说话人主观改变声音的大规模数据库，这方面工作还有待研究。

裴向东给出应用设想，一方面，声纹和指纹、虹膜都是声纹特征识别，结合多种模态信息，基于实名电话卡是否能采集所有人的声纹特征，建立大规模地区化的数据库，和人脸、指纹等形成互补优势？另一方面，现在声音伪造成本很低，生成对抗性网络的发展是否也会加大声纹识别的难度。

许骁哲提出，电信诈骗大多数是群体性的，量很大，很难取证。他们有很多模板和术语，虽然他们的声音不同，未来我们能否结合他的模板和术语知道他是否是诈骗者？能否结合声纹和语音来配合给被诈骗者警示，让其提高警惕性？

在思辨阶段，参会的各位专家和研究者都提出了自己对于未来声纹识别发展的一些看法。声纹识别技术一定会变得越来越成熟，在实际应用中发挥自己的作用。

CCF YOCSEF太原

中国计算机学会青年计算机科技论坛（CCF Young Computer Scientists & Engineers Forum，简称CCF YOCSEF）是由中国计算机学会1998年创建的系列性学术活动。CCF YOCSEF太原是2013年5月成立的分论坛，自成立以来，CCF YOCSEF太原分论坛紧密结合太原科技、学术与产业生态，围绕地方学术与科技热点问题展开研究思辨与讨论，为地方发展提供智库支持，聚集了一批自信、活力、敢于创新、有抱负、有能力的青年精英。历届主席分别为强彦（2013-2014）、秦品乐（2014-2015）、赵鹏（2015-2016）、王宪朝（2016-2017）、赵涓涓（2017-2018）、郭威（2018-2019），宋昌（2019-2020），裴向东（2020-2021），现任主席为董媛香。

CCF YOCSEF太原期待您的加入。联系人：主席—董媛香（13368360537，微信同号）

如企业或组织想与CCF YOCSEF太原进行接洽、交流、报道与合作，请联系我们！

联系人：学术秘书—许骁哲

（18835181845，微信同号）

CCF YOCSEF 新闻动态CCF Young Computer Scientists & Engineers Forum