基于案件现实条件的法庭说话人识别系统验证(2)

来源：测试技术学报 【在线投稿】栏目：期刊导读时间：2021-05-24

作者:网站采编
关键词:
摘要：2.3 评价指标对系统进行识别测试，结果统一以LR数值形式输出。计算评价指标，并以数值和图示形式展示。系统的准确性和可靠性评价指标[7]主要有：对

2.3 评价指标

对系统进行识别测试，结果统一以LR数值形式输出。计算评价指标，并以数值和图示形式展示。系统的准确性和可靠性评价指标[7]主要有：对数似然比代价函数(Log likelihood ratio cost，Cllr)、95%的可靠区间(Credible Interval，CI)和等误率(Equal Error Rate，EER)。Cllr的计算公式[8]如下：

式中，Ns和Nd分别是同一话者和不同话者测试对的数量，LRs和LRd分别是同一话者和不同话者测试对比较的LR值。Cllr值小于1，说明系统有效。Cllr值越小，系统的准确性越好。

95%CI测量的是来自同一话者自身比较的多个LR值和来自不同话者之间比较的多个LR值的变化分布情况，以±log10来标度，具体计算方法见文献[9]。95%CI值越小，系统的可靠性越好。等误率则是错误接受(认定)率和错误拒绝(否定)率相等时的概率，与判别先验和阈限设定密切相关。等误率越低，系统的准确性越好。

系统评价图示主要有：Cllr-95%CI图、Tippett图(Tippett Plot)、检测错误权衡图(Detection Error Tradeoff Plot，DET plot)和期望交叉熵图(Empirical Cross Entropy plot, ECE plot)[9]。

Cllr-95%CI图是系统准确性和可靠性的综合评价。Tippett图只是准确性评价，但包含信息丰富。总体上，同一话者比较曲线与不同话者比较曲线的分开程度越大，准确性越好。DET 图只显示错误接受率和错误拒绝率之间的关系，曲线越接近原点，系统的准确性越好。而沿原点画对角线与曲线相交点对应的值，就是等误率。ECE是总体Cllr的扩展，使用指定的先验比和测试的似然比计算后验比，其计算公式[9]如下：

式中，Pss和Pds分别是同一话者假设和不同话者假设的先验概率，LRss和LRds分别是同一话者和不同话者测试对比较的LR值，Nss和Nds分别是同一话者和不同话者测试对的数量。ECE图表明系统校准的情况，交叉熵的值越小，校准优化前后的两条曲线越接近，系统的性能越好。关于这些指标和图示的详细解释见文献[9]。

3验证范例

本文以国际上开展的一项法庭说话人识别系统验证项目(forensic_eval_01)[9]为例，说明系统验证的具体程序和方法。参与该验证项目的各个实验室基于同一个反映一起实际案件条件的语音数据库，对各自的法庭说话人识别系统进行测试评价，结果发表在国际期刊“Speech Communication”专版。目前，已经完成验证测试的法庭说话人识别系统有4个，均为自动识别系统。关于该项目的详细情况见文献[9-12]。

3.1 训练和测试数据

实际案件为一起诈骗案。检材录音为座机电话播打到呼叫中心的自动电话录音，内含办公室背景噪音，检材录音采用压缩格式。对话内容包含姓名、地址、号码和字母等信息。未知说话人语音时长为46 s。样本语音为警察讯问录音，有较大的室内混响和通风系统噪音，与检材不同的压缩格式。检材语音和样本语音均为成年男性澳大利亚英语口音。

训练和测试录音选自澳大利亚英语数据库[13]。首先，采用信号处理技术，模拟实际案件的电话传输信道、压缩格式。然后，再添加相应噪声和混响。最后，形成两组录音：一组反映案件中检材录音的言语风格和录音条件；另一组反映案件中样本录音的言语风格和录音条件。用于系统验证的语音数据库中共包含166名成年男性的非同期录音：其中，训练集105人，共423个录音(检材条件191个，样本条件232个)；测试集61人，共223个录音(检材条件61个，样本条件162个)。

3.2 验证方法及评价指标

首先，采用训练数据进行系统训练(具体训练方法不做要求，使用全部数据或部分数据均可)，然后统一使用测试集的全部数据进行测试。将测试集中的每个检材条件录音与每个样本条件录音进行全交叉比较，共得到111个同一话者比较对和9720个不同话者比较对。研究人员根据自己的研究问题设计方案，然后进行相应训练和测试。系统结果输出均为LR值。评价指标统一采用Cllr、95%CI和EER。图示统一采用Cllr-95%CI图、Tippett图、DET 图和ECE图[9]。

3.3 验证系统及测试内容

3.3.1 Batvox 3.1

这是AGNITI公司开发的专业法庭说话人识别系统。提取的声学特征为19个MFCC及其delta，频率范围为300～4 000 Hz。倒谱平均减法(Cepstral Mean Subtraction，CMS)、相对光谱滤波(Relative Spectral Filtering，RASTA)和特征弯折(Feature Warping，FW)技术用于特征级失配补偿。系统使用GMM-UBM模型方法计算得分。通用背景模型(UBM)和说话人模型均为高斯混合模型(GMM)，说话人模型通过来自UBM的最大后验(Maximum A Posteriori，MAP)估计进行自适应训练。扰动属性投影(Nuisance Attribute Projection，NAP)作为失配补偿技术应用于GMM均值。

文章来源：《测试技术学报》网址: http://www.csjsxbzz.cn/qikandaodu/2021/0524/960.html

上一篇：农业机械发动机噪声控制及测试技术
下一篇：论新的科学技术在犯罪心理测试中的应用