基于案件现实条件的法庭说话人识别系统验证(3)

来源：测试技术学报 【在线投稿】栏目：期刊导读时间：2021-05-24

作者:网站采编
关键词:
摘要：用户可以输入一组代表案件条件的“参考人群(reference population)”录音，也可以让系统从全部参考录音中自动筛选参考数据子集。用户还可以输入一组代表

用户可以输入一组代表案件条件的“参考人群(reference population)”录音，也可以让系统从全部参考录音中自动筛选参考数据子集。用户还可以输入一组代表相关人群和检材条件的“伪冒者(imposter)”录音。系统首先计算检材语音与样本语音模型比较的得分，然后进行得分转换，在变换得分值处，同一话者模型概率与不同话者模型概率之比，即为LR值。

该测试关注的问题是训练数据量大小对系统性能的影响。从训练数据中随机选择25、50、75和100人等4个不同规模的数据集进行系统训练，同步使用相同数量的“伪冒者”参考数据。利用测试集分别对这4种情况进行训练和识别。

3.3.2 Batvox 4.1

该系统是Batvox 3.1的升级版本，也是目前最新版本。新版本将GMM-UBM模型方法更新为i-vector PLDA模型方法。系统通过i-vector和概率线性判别分析(Probabilistic Linear Discriminant Analysis，PLDA)进行得分计算，更好地解决了信道失配问题。

该测试关注的问题是使用“伪冒者”和系统自动筛选参考人群子集是否能够提高系统的识别效果。将训练集中105人(每人一个)的录音全部输入系统，然后分别对使用全部105人的参考数据、使用自动筛选的30人参考数据、使用“伪冒者”和不使用“伪冒者”等4种模式进行训练和识别。

3.3.3 MSR toolkit

这是微软研究院开发的说话人识别开源工具包(Microsoft Research Identity Toolbox, 1.0版本)，是Matlab工具和程序的集合。它包括GMM-UBM和i-vector PLDA两种模型系统。两个系统使用的声学特征都是14个MFCC及其delta，提取的频率范围为300～3 400 Hz。用户可以自主选择工具包进行系统设计和参数选择，如使用语音活动检测(Voice Activity Detection，VAD)技术和各种失配补偿技术等。两种系统均采用逻辑回归(Logistic Regression，LR)方法进行从得分到LR值的转换校准。

该测试关注的问题是3种特征级失配补偿技术及其分别在VAD前、VAD后使用对说话人识别的有效性问题。这3种技术分别是倒谱均值减法(Global Cepstral Mean Subtraction, CMS)、倒谱均值减法及方差归一化(Global Cepstral Mean and Variance Normalization，CMVN)、特征弯折(Local Feature Warping，FW)，将训练集中105人的录音(每人一个)全部输入系统，然后在VAD前和VAD后分别应用这3种补偿技术进行训练和识别。

3.4 结果及评价

3.4.1 训练样本选择对识别性能的影响

由于4种系统的评价采用的都是相同的训练数据、测试数据库和结果评价指标，故便于各系统之间的比较。现将各系统关注的问题及结果进行分析比较：

Batvox是商业集成系统，用户可以调整和选择的余地很小，因此两个版本系统测试的都是训练选择对系统性能的影响。参考人群样本的选择，特别是样本规模的大小对说话人识别的影响一直是业内关注的焦点问题。两个系统的测试均表明：使用最大数目训练样本的测试组的识别效果最好。

对3.1版本的测试结果表明，随着训练样本数量的增大，系统识别的性能逐步提高，准确性和可靠性均持续提高。其中，Cllr值从25人训练集的1.142持续下降到100人训练集的0.593，95%CI从1.779持续下降到1.130。25人训练集与50人训练集之间差别最大。而当训练集从50人(Cllr=0.740)增加到75人(Cllr=0.696)，再增加到100人时，Cllr值并没有呈线性渐进。显然，25人的样本量是不够的，无法满足法庭实践的要求。但是究竟参考人群的数目达到多少可以得到合理的或者比较理想的识别性能，并且不再需要增加样本数，目前还无法下定论。

对4.1版本的测试结果表明，训练的数据量大小对系统的性能影响很大，而使用“伪冒者”模式可以提高系统的识别性能。当使用全部训练数据和等数量“伪冒者”时，Cllr值从0.456下降到0.365，95%CI从1.477下降到1.156；仅使用30人的训练子集和等数量“伪冒者”时，Cllr值从0.646下降到0.431，95%CI从1.382下降到1.148。不管是否使用“伪冒者”模式，使用全部105人训练数据的识别效果都明显好于让系统从中自动筛选30人子集的识别效果：不使用“伪冒者”模式下，Cllr值从0.604下降到0.391；使用“伪冒者”模式下，Cllr值从0.431下降到0.0.365。综合看，的系统性能优于。

3.4.2 VAD及特征失配补偿技术的有效性

VAD技术主要用于检测语音信号的存在。失配补偿技术则主要用于对录音之间由于各种因素造成的声学特性不匹配情况进行补偿，使不同话者之间的差距最大化，使这些因素的影响最小化。二者都是自动说话人识别中常用的语音处理技术。特征级失配补偿主要适用于录制信道和背景噪声的补偿。

文章来源：《测试技术学报》网址: http://www.csjsxbzz.cn/qikandaodu/2021/0524/960.html

上一篇：农业机械发动机噪声控制及测试技术
下一篇：论新的科学技术在犯罪心理测试中的应用