ICS35.040
L71
中华人民共和国国家标准
GB/T20090.10—2013
信
信息技术 先进音视频编码
第10部分:移动语音和音频
Informationtechnology—Advancedcodingofaudioandvideo—
Part10:Mobilespeechandaudio
2013-12-31发布 2014-07-15实施
中华人民共和国国家质量监督检验检疫总局
中国国家标准化管理委员会发布目 次
前言 Ⅰ …………………………………………………………………………………………………………
引言 Ⅱ …………………………………………………………………………………………………………
1 范围 1 ………………………………………………………………………………………………………
2 规范性引用文件 1 …………………………………………………………………………………………
3 术语和定义 1 ………………………………………………………………………………………………
4 符号和缩略语 3 ……………………………………………………………………………………………
5 概述 5 ………………………………………………………………………………………………………
6 编码器功能描述 12 …………………………………………………………………………………………
7 解码器功能描述 82 …………………………………………………………………………………………
8 位分配描述 101 ……………………………………………………………………………………………
9 存储、传输接口格式 107 ……………………………………………………………………………………
附录A(规范性附录) VAD检测 111 ………………………………………………………………………
附录B(规范性附录) 立体声参数码表 115 ………………………………………………………………
附录C(规范性附录) 舒适噪声模式 120 …………………………………………………………………GB/T20090.10—2013
前 言
GB/T20090《信息技术 先进音视频编码》分为以下13个部分:
———第1部分:系统;
———第2部分:视频;
———第3部分:音频;
———第4部分:符合性测试;
———第5部分:参考软件;
———第6部分:面向数字版权管理的可信解码器与访问协议;
———第7部分:面向交互应用的视频编解码;
———第8部分:在IP网络上传输AVS;
———第9部分:AVS文件格式;
———第10部分:移动语音和音频;
———第11部分:同步文本;
———第12部分:综合场景;
———第13部分:可重构视频编码工具集。
本部分为GB/T20090的第10部分。
本部分按照GB/T1.1—2009给出的规则起草。
本部分由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。
本部分起草单位:武汉大学、华为技术有限公司、天津大学、上海交通大学、北京三星通信技术研究
有限公司、芯晟(北京)科技有限公司、中国科学院声学研究所、展讯通信(上海)有限公司、中国电子技术
标准化研究所。
本部分主要起草人:高文、黄铁军、胡瑞敏、马付伟、张涛、高戈、张勇、刘佩林、王晓晨、李迅、詹杰、
邓浩江、林福辉。
ⅠGB/T20090.10—2013
引 言
GB/T20090的本部分是面向新一代移动通信系统的低码率语音频编解码技术标准,是为了适应
移动通讯、无线宽带多媒体通讯、互联网宽带流媒体业务等应用中对语音频压缩技术的需要而制定的。
本部分描述的音频编解码技术支持采样频率为8kHz、16kHz、24kHz、32kHz、48kHz、
11.025kHz、22.05kHz、44.1kHz的16位采样的单声道、立体声脉冲编码调制信号,解码输出是同样格
式的单声道或立体声信号,单声道模式输出位流为10.4kbit/s~24kbit/s,立体声模式下输出位流为
12.4kbit/s~32kbit/s。
本文件的发布机构提请注意,声明符合本文件可能涉及11项与数字音频编解码技术相关专利的使
用。这11项专利是:ZL200610139703.8,一种实现开环基音搜索的方法和装置;ZL200610145785.7,选
择自适应码本激励信号的方法和装置;ZL200610128778.6,语音或音频信号的带宽扩展方法及系统;
ZL200710001186.2,语音解码器中实现语音解码的方法及装置(基音周期);ZL200610162678.5,一种解
码方法及装置;ZL200710038078.2,利用缓存来加快量化数据取得的编码和解码方法;
ZL200810038192.X,基于变长分裂表的矢量量化高阶码本扩展编码及解码系统;ZL200710064350.4,一
种格矢量量化编解码的实现方法及装置;ZL200710099046.3,一种高效可配置的频域参数立体声及多
声道编解码方法与系统;ZL200710006619.3,一种截取输入信号的方法及装置;ZL200810006804.7,一
种增益量化方法及装置。
本文件的发布机构对于以上专利的真实性、有效性和范围无任何立场。
专利持有人已向本部分的发布机构保证,愿意同任何申请人在合理和非歧视的条款和条件下,就使
用授权许可证进行谈判。这方面,该专利持有人的声明已在本部分的发布机构备案。
本部分涉及的专利许可遵循本部分起草组织者数字音视频编解码技术标准工作组制订并经会员签
署同意的《知识产权政策》,通过“AVS专利池”进行许可,具体许可条款由专利池管理委员会决定。标
准实施者可通过专利池管理委员会或其授权机构获得专利池中所有专利的许可权。
专利池管理委员会由数字音视频编解码技术标准工作组推动发起。有关事宜可联系数字音视频编
解码技术标准工作组秘书处,联系方法如下:
联系人:黄铁军
通讯地址:北京2704信箱31分箱
邮政编码:100080
电子邮件:
[email protected]
电 话:+861058858303,+861058858300-303
传 真:+861058858301
网 址:http://www.avs.org.cn(可从本网址获得最新联系方法)
ⅡGB/T20090.10—2013
信息技术 先进音视频编码
第10部分:移动语音和音频
1 范围
GB/T20090的本部分规定了移动语音和音频信号的编码方法、编码表示及解码方法。
本部分适用于下述领域:
———移动通讯;
———无线宽带多媒体通讯;
———互联网宽带流媒体业务。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T5271.1—2000 信息技术 词汇 第1部分:基本术语(eqvISO/IEC2382-1:1993)
GB/T5271.4—2000 信息技术 词汇 第4部分:数据的组织(eqvISO/IEC2382-4:1987)
GB/T5271.9—2001 信息技术 词汇 第9部分:数据通信(eqvISO/IEC2382-9:1995)
GB/T15526—1995 音频记录PCM编解码系统
3 术语和定义
GB/T5271.1—2000、GB/T5271.4—2000、GB/T5271.9—2001和GB/T15526—1995界定的以
及下列术语和定义适用于本文件。
3.1
比特率 bitrate
压缩位流传输到解码器输入端的速率。
3.2
位流 bitstream
用作数据编码表示的有一定次序的一组位。
3.3
编码 coding
读入音频样本并产生编码位流的过程。
3.4
编码器 encoder
编码过程的具体实现者。
3.5
比例因子 scalefactor
量化前标度一组数值的因子。
1GB/T20090.10—2013
3.6
解码 decoding
读入编码位流并产生音频信号样本的过程。
3.7
解码器 decoder
完成解码处理的实体。
3.8
滤波器组 filterbank
覆盖全部音频频率范围的一组带通滤波器。
3.9
时频变换 time-frequencytransform
音频信号从时间域向频率域的变换。
3.10
频时变换 frequency-timetransform
音频信号从频率域向时间域的变换。
3.11
频谱包络 spectralenvelope
变换到频域后的幅度谱轮廓。
3.12
保留 reserved
定义了一些特定语法元素值用于将来对本部分的扩展。
注:这些值不应出现在符合本部分的位流中。
3.13
采样频率 samplingfrequency
在音频信号数字化过程中,单位时间内采样的次数。
3.14
音频缓冲区 audiobuffer
解码器中用于存储压缩音频数据的存储单元。
3.15
瞬变信号 transientsignal
在一帧音频信号内,由于信号能量等特征变化迅速,需要使用短窗序列进行分析的信号。
3.16
平稳信号 steadysignal
在一帧音频信号内,由于信号能量等特征变化平缓,需要使用长窗序列进行分析的信号。
3.17
开环基音搜索 open-looppitchsearch
直接从加权输入语音中估计最优基音延迟的过程。
注:开环基音搜索简化了基音延迟分析,并且将闭环基音搜索限定到开环基音搜索的延迟值附近。在编码中,每两
个子帧搜索