SJ-T 11380-2008 自动声纹识别说话人识别技术规范

ICS35.040 SJ L 71 备案号：23323-2008 中华人民共和国电子行业标准 SJ/T113802008 自动声纹识别（说话人识别）技术规范 Technology specification for automatic voiceprint recognition (speaker recognition) 2008-03-10发布 2008-03-10实施中华人民共和国信息产业部发布 SJ/T11380—2008 目次 1范围 2规范性引用文件 3术语与定义， 4数据交换格式 4..1概述.. 4.2通用操作. 4.3语音操作. 4.4模型与模型集操作 4.5声纹模型训练 4.6声纹确认.. ..10 4.7声纹辨认 4.8声纹检出. .11 4.9声纹追踪附录A（规范性附录） VPR-APIv1.0函数定义 SJ/T11380—2008 前言请注意本标准的某些内容有可能涉及专利。本标准的发布机构不应承担识别这些专利的责任。本标准的附录A是规范性附录。本标准由全国信息技术标准化技术委员会归口。本标准由北京得意音通技术有限责任公司、清华大学智能技术与系统国家重点实验室（语音技术中心）、中国电子技术标准化研究所负责起草。本标准主要起草人：郑方、宋战江、徐明星、吴畏、邓菁、吴志刚。 Ⅱ SJ/T11380—2008 自动声纹识别（说话人识别）技术规范 1范围本标准规定了声纹识别（系统）的术语与定义、数据交换格式与应用编程接口（VPR-API1.0)。本标准适用于各种计算机、网络和智能设备配置的声纹识别系统。 2规范性引用文件下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件，其随后所有的修改单（不包括勘误的内容）或修订版均不适用于本标准，然而，鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件，其最新版本适用于本标准。 GB12200.1-1990汉语信息处理词汇01部分：基本术语 GF3006-2001语言文字规范-汉语拼音方案的通用键盘表示规范 3术语与定义下列术语和定义适用于本标准。 3.1声纹识别的基本概念 3.1.1 声纹 voiceprint 对语音中所蕴含的、能表征和标识说话人的语音特征，以及基于这些特征（参数）所建立的语音模型的总称。 3.1. 2 声纹特征voiceprintfeature 说话人特征speakerfeature 从说话人的语音中所提取出来的、可以表征该说话人语音的个性特征的参数。注：常用的特征参数包括频谱（spectrum)、倒频谱（cepstrum)、线性预测系数(LPC)、音高(pitch)、声调(tone)、共振峰（formant）、音质（voicequality）、声韵（prosody）、习语（phoneme/wordidiolect）等各种层次的信息。 3.1. 3 声纹模型voiceprintmodel 说话人模型speakermodel 对声纹特征进行描述的数学模型。注：常用的数学模型有：高斯混合模型（Gaussianmixturemodel)，基于通用背景模型的高斯混合模型（Gaussian mixturemodel-universalbackgroundmodel)，隐马尔可夫模型（hiddenMarkovmodel)，人工神经网络 (artificialneuralnetwork），支持向机（supportvectormachine）等。通常，一个声纹模型对应一名说话人，但一名说话人可以有多个声纹模型，以对应各种不同的应用环境或声纹信息层次，如一名说话人可以在不同的信道条件下有不同的声纹模型。 3.1.4 声纹模型训练voiceprintmodeltraining 说话人模型训练speakermodeltraining 1 SJ/T11380-2008 说话人注册speakerenrollment 从说话人的语音提取声纹特征并根据声纹特征估计其声纹模型的参数的过程。注：说话人一旦经过声纹训练并把其声纹模型的模型参数记录下来，即可在将来用于与未知说话人的语音进行声纹比对，从而辨认或确认该段语音所对应的说话人的身份。在不致混淆的情况下，该术语可简称为“声纹训练”或“说话人训练“。 3.1.5 声纹模型自适应 voiceprint model adaptation 说话人模型自适应speakermodeladaptation 利用新采集到的语音数据对其已有声纹模型的参数进行重新估计的过程。注：对已经建立声纹模型的说话人，当其年龄、情绪、说话环境等发生变化时原声纹模型的参数可能无法很好地表征其声纹的变化，声纹自适应就是利用新采集的该说话人的语音对原有模型的参数进行校正的过程。声纹自适应可以是在线的(on-line)，也可以是离线的（off-line)；可以是有监督的（supervised)，也可以是无监督的(unsupervised)。 3.1. 6 声纹识别voiceprintrecognition VPR 说话人识别speakerrecognition 根据待识别语音的声纹特征识别该段语音所对应的说话人的过程。 3.1.7 声纹识别系统voiceprintrecognitionsystem 声纹识别器voiceprintrecognizer 说话人识别系统speakerrecognitionsystem 说话人识别器speakerrecognizer 用以进行声纹识别的程序、设备、仪器或系统等。 3.1.8 拒识rejection <声纹确认>声纹识别系统判定待识别语音不是宣称说话人所说。《开集的声纹辨认>声纹识别系统判定待识别语音不是候选说话人集合内的说话人所说。《声纹检出和声纹追踪》声纹识别系统判定待识别语音不是目标说话人所说。 3.1.9 接受 acceptance <声纹确认>声纹识别系统判定待识别语音是宜宣称说话人所说《开集的声纹辨认>声纹识别系统判定待识别语音是候选说话人集合内的说话人所说。 <声纹检出和声纹追踪>声纹识别系统判定待识别语音是目标说话人所说。又称告警（alarm）。 3.2声纹识别的分类 3.2.1按声纹识别系统的应用方式分类从声纹识别系统的应用方式上可分为声纹确认、声纹辨认、声纹检出与声纹追踪等。 3.2.1.1 声纹确认voiceprintverification 说话人确认speakerverification 给定一段只含一名说话人的语音和一个说话人的声纹模型，判断该段语音是否是该说话人所说的声纹识别方式。注：该段语音通常也称为“待识别”语音，该说话人通常也称为“宣称的说话人”，声纹确认系统的输出是一个 2 SJ/T11380—2008 “二值判别”，它的结果只有两种：接受（见3.1.9)或拒识（见3.1.8)。 3.2.1.2 声纹辨认voiceprintidentification 说话人辨认speakeridentification 给定一段语音和一组候选说话人的声纹模型，判断该段语音是哪个说话人所说的声纹识别方式。注：声纹辨认是一个“多选一”的问题。声纹辨认可分为闭集辨认（见3.2.1.3)或开集辩认（见3.2.1.4)。 3.2.1.3 闭集（声纹）辨认close-set（voiceprint）identification 闭集（说话人）辨认close-set（speaker）identification 假定待识别的语音是由候选说话人集合中某个说话人所说的声纹辨认方式。注：闭集声纹辨认的任务为从候选说话人的声纹模型中挑出最可能的一个作为识别结果。 3.2.1.4 开集（声纹）辨认open-set（voiceprint）identification 开集（说话人）辨认open-set（speaker）identification 假定待识别的语音既可能由候选说话人集合中某个说话人所说，也可能由该集合以外的某个说话人所说的声纹辨认方式。注：其结果有两种可能：1）指出该段语音由候选说话人集合中某个说话人所说；2）指出该语音波形由候选说话人集合以外的未知说话人所说。相对于闭集辨认，开集辨认增加了对说话人是否在候选说话人集合内的判断，即接受（见3.1.9)或拒识（见3.1.8)判别。 3.2.1.5 声纹检出voiceprintdetection 说话人检出speakerdetection 给定一个说话人（目标说话人，targetspeaker）的声纹模型和一段（或多段）语音，判断目标说话人的语音是否在给定的语音中出现的声纹识别方式。注：给定的语音可能是只含有一名说话人的语音，也可能是含有多名说话人的对话语音。 3.2.1.6 声纹追踪voiceprinttracking 说话人追踪speakertracking 给定一个说话人（目标说话人，targetspeaker）的声纹模型和一段（或多段）语音，判断目标说话人的语音是否在给定的语音中出现，若出现则标示出对话语音中目标说话人所说的语音段的声纹识别方式。注：声纹追踪是声纹检出的扩展，其与开集的声纹辨认与声纹检出是刑事侦套和情报分析中常用的声纹识别模式。 3.2.2按声纹识别与语音文本的关系分类从声纹识别与语音文本的关系上可以分为文本相关的声纹识别，文本无关的声纹识别，以及指定文本的声纹识别。 3.2.2.1 文本相关的声纹识别text-dependentvoiceprintrecognition 文本相关的说话人识别text-dependentsp

SJ-T 11380-2008 自动声纹识别 说话人识别 技术规范

SJ-T 11380-2008 自动声纹识别说话人识别技术规范