说明:收录全网最新的团体标准 提供单次或批量下载
ICS35.040 SJ L 71 备案号:23323-2008 中华人民共和国电子行业标准 SJ/T113802008 自动声纹识别(说话人识别)技术规范 Technology specification for automatic voiceprint recognition (speaker recognition) 2008-03-10发布 2008-03-10实施 中华人民共和国信息产业部发布 SJ/T11380—2008 目 次 1范围 2规范性引用文件 3术语与定义, 4数据交换格式 4..1概述.. 4.2通用操作. 4.3语音操作. 4.4模型与模型集操作 4.5声纹模型训练 4.6声纹确认.. ..10 4.7声纹辨认 4.8声纹检出. .11 4.9声纹追踪 附录A(规范性附录) VPR-APIv1.0函数定义 SJ/T11380—2008 前言 请注意本标准的某些内容有可能涉及专利。本标准的发布机构不应承担识别这些专利的责任。 本标准的附录A是规范性附录。 本标准由全国信息技术标准化技术委员会归口。 本标准由北京得意音通技术有限责任公司、清华大学智能技术与系统国家重点实验室(语音技术中 心)、中国电子技术标准化研究所负责起草。 本标准主要起草人:郑方、宋战江、徐明星、吴畏、邓菁、吴志刚。 Ⅱ SJ/T11380—2008 自动声纹识别(说话人识别)技术规范 1范围 本标准规定了声纹识别(系统)的术语与定义、数据交换格式与应用编程接口(VPR-API1.0)。 本标准适用于各种计算机、网络和智能设备配置的声纹识别系统。 2规范性引用文件 下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的 修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究 是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。 GB12200.1-1990汉语信息处理词汇01部分:基本术语 GF3006-2001语言文字规范-汉语拼音方案的通用键盘表示规范 3术语与定义 下列术语和定义适用于本标准。 3.1声纹识别的基本概念 3.1.1 声纹 voiceprint 对语音中所蕴含的、能表征和标识说话人的语音特征,以及基于这些特征(参数)所建立的语音模 型的总称。 3.1. 2 声纹特征voiceprintfeature 说话人特征speakerfeature 从说话人的语音中所提取出来的、可以表征该说话人语音的个性特征的参数。 注:常用的特征参数包括频谱(spectrum)、倒频谱(cepstrum)、线性预测系数(LPC)、音高(pitch)、声调(tone)、 共振峰(formant)、音质(voicequality)、声韵(prosody)、习语(phoneme/wordidiolect)等各种层次的信 息。 3.1. 3 声纹模型voiceprintmodel 说话人模型speakermodel 对声纹特征进行描述的数学模型。 注:常用的数学模型有:高斯混合模型(Gaussianmixturemodel),基于通用背景模型的高斯混合模型(Gaussian mixturemodel-universalbackgroundmodel),隐马尔可夫模型(hiddenMarkovmodel),人工神经网络 (artificialneuralnetwork),支持向机(supportvectormachine)等。通常,一个声纹模型对应一名说 话人,但一名说话人可以有多个声纹模型,以对应各种不同的应用环境或声纹信息层次,如一名说话人可以 在不同的信道条件下有不同的声纹模型。 3.1.4 声纹模型训练voiceprintmodeltraining 说话人模型训练speakermodeltraining 1 SJ/T11380-2008 说话人注册speakerenrollment 从说话人的语音提取声纹特征并根据声纹特征估计其声纹模型的参数的过程。 注:说话人一旦经过声纹训练并把其声纹模型的模型参数记录下来,即可在将来用于与未知说话人的语音进行声 纹比对,从而辨认或确认该段语音所对应的说话人的身份。在不致混淆的情况下,该术语可简称为“声纹训 练”或“说话人训练“。 3.1.5 声纹模型自适应 voiceprint model adaptation 说话人模型自适应speakermodeladaptation 利用新采集到的语音数据对其已有声纹模型的参数进行重新估计的过程。 注:对已经建立声纹模型的说话人,当其年龄、情绪、说话环境等发生变化时原声纹模型的参数可能无法很好地 表征其声纹的变化,声纹自适应就是利用新采集的该说话人的语音对原有模型的参数进行校正的过程。声纹自 适应可以是在线的(on-line),也可以是离线的(off-line);可以是有监督的(supervised),也可以是无监督 的(unsupervised)。 3.1. 6 声纹识别voiceprintrecognition VPR 说话人识别speakerrecognition 根据待识别语音的声纹特征识别该段语音所对应的说话人的过程。 3.1.7 声纹识别系统voiceprintrecognitionsystem 声纹识别器voiceprintrecognizer 说话人识别系统speakerrecognitionsystem 说话人识别器speakerrecognizer 用以进行声纹识别的程序、设备、仪器或系统等。 3.1.8 拒识rejection <声纹确认>声纹识别系统判定待识别语音不是宣称说话人所说。 《开集的声纹辨认>声纹识别系统判定待识别语音不是候选说话人集合内的说话人所说。 《声纹检出和声纹追踪》声纹识别系统判定待识别语音不是目标说话人所说。 3.1.9 接受 acceptance <声纹确认>声纹识别系统判定待识别语音是宜宣称说话人所说 《开集的声纹辨认>声纹识别系统判定待识别语音是候选说话人集合内的说话人所说。 <声纹检出和声纹追踪>声纹识别系统判定待识别语音是目标说话人所说。又称告警(alarm)。 3.2声纹识别的分类 3.2.1按声纹识别系统的应用方式分类 从声纹识别系统的应用方式上可分为声纹确认、声纹辨认、声纹检出与声纹追踪等。 3.2.1.1 声纹确认voiceprintverification 说话人确认speakerverification 给定一段只含一名说话人的语音和一个说话人的声纹模型,判断该段语音是否是该说话人所说的声 纹识别方式。 注:该段语音通常也称为“待识别”语音,该说话人通常也称为“宣称的说话人”,声纹确认系统的输出是一个 2 SJ/T11380—2008 “二值判别”,它的结果只有两种:接受(见3.1.9)或拒识(见3.1.8)。 3.2.1.2 声纹辨认voiceprintidentification 说话人辨认speakeridentification 给定一段语音和一组候选说话人的声纹模型,判断该段语音是哪个说话人所说的声纹识别方式。 注:声纹辨认是一个“多选一”的问题。声纹辨认可分为闭集辨认(见3.2.1.3)或开集辩认(见3.2.1.4)。 3.2.1.3 闭集(声纹)辨认close-set(voiceprint)identification 闭集(说话人)辨认close-set(speaker)identification 假定待识别的语音是由候选说话人集合中某个说话人所说的声纹辨认方式。 注:闭集声纹辨认的任务为从候选说话人的声纹模型中挑出最可能的一个作为识别结果。 3.2.1.4 开集(声纹)辨认open-set(voiceprint)identification 开集(说话人)辨认open-set(speaker)identification 假定待识别的语音既可能由候选说话人集合中某个说话人所说,也可能由该集合以外的某个说话人 所说的声纹辨认方式。 注:其结果有两种可能:1)指出该段语音由候选说话人集合中某个说话人所说;2)指出该语音波形由候选说话 人集合以外的未知说话人所说。相对于闭集辨认,开集辨认增加了对说话人是否在候选说话人集合内的判断, 即接受(见3.1.9)或拒识(见3.1.8)判别。 3.2.1.5 声纹检出voiceprintdetection 说话人检出speakerdetection 给定一个说话人(目标说话人,targetspeaker)的声纹模型和一段(或多段)语音,判断目标说话 人的语音是否在给定的语音中出现的声纹识别方式。 注:给定的语音可能是只含有一名说话人的语音,也可能是含有多名说话人的对话语音。 3.2.1.6 声纹追踪voiceprinttracking 说话人追踪speakertracking 给定一个说话人(目标说话人,targetspeaker)的声纹模型和一段(或多段)语音,判断目标说话 人的语音是否在给定的语音中出现,若出现则标示出对话语音中目标说话人所说的语音段的声纹识别方 式。 注:声纹追踪是声纹检出的扩展,其与开集的声纹辨认与声纹检出是刑事侦套和情报分析中常用的声纹识别模式。 3.2.2按声纹识别与语音文本的关系分类 从声纹识别与语音文本的关系上可以分为文本相关的声纹识别,文本无关的声纹识别,以及指定文 本的声纹识别。 3.2.2.1 文本相关的声纹识别text-dependentvoiceprintrecognition 文本相关的说话人识别text-dependentsp

.pdf文档 SJ-T 11380-2008 自动声纹识别 说话人识别 技术规范

文档预览
中文文档 33 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共33页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
SJ-T 11380-2008 自动声纹识别 说话人识别 技术规范 第 1 页 SJ-T 11380-2008 自动声纹识别 说话人识别 技术规范 第 2 页 SJ-T 11380-2008 自动声纹识别 说话人识别 技术规范 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-12-28 04:08:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。