音频低比特率编码技术的新发展
宋盛姗 朱伟
2008年04月01日 |
宋盛姗女士,中国传媒大学信息工程学院硕士研究生;朱伟先生,中国传媒大学影视艺术学院录音系教授,本刊编委。
音频压缩方法普遍应用于各种数字音频系统之中,从1998年开始,MPEG开始致力于研究高质量的低比特率音频编码技术。低比特率编码要求系统在低比特率下提供更好的音质以及更高的适应性。近年来,由于多声道音频、数字广播、以及移动多媒体等的增值发展,向低比特率编码方法提出了新的挑战。本文针对低比特率编码技术的新发展进行论述。
1. AAC Plus
与传统的AAC(即MPEG-2 AAC,一种高质量的音频编码技术,对全带宽音频信号进行编码,每个声道比特率在64kb/s左右)编码不同,AAC Plus(即MPEG-4 High Efficiency AAC,MPEG-4HE AAC)增加了一种全新的音频编码增强工具——SBR (Spectral-Band Replication, 频带复制技术),它是音频压缩算法中的一种实现高效高频率的编码新方法,即通过增加在特定比特率下的音频带宽或改善在特定质量水平下的编码效率,以此来改善低比特率编码的音质。
在标准的AAC Plus编解码中,音频频带被分成低频段和高频段两部分。其中低频部分采用传统的AAC技术进行处理,解码端再利用这些低频内容来重建高频内容。SBR的这种处理过程是基于较低的频率信息和一个包含有控制数据的附加信号,通过复制原始信号的谱包络来重建高频部分。在与音频信号的低频部分结合之前,再生的高频内容须在频域和时域内接受一些调节。在编码端,SBR编码被安排在AAC音频编码之前。输入给AAC音频编码器的是限带信号,高频信息将借助SBR算法再生。SBR解码器为重建高频部分所需要的附加信息,在比特流复用器中被复用到编码比特流中。在解码端,AAC音频解码器的低频输出馈送给SBR单元,借以再生高频,并产生一个全带宽的音频信号。通常,低频频带的编码是在原始信号的1/2采样频率下进行,从而大大降低了比特率,然后在解码器中再次提高采样率,并与SBR重建的高频信息混合。如图1所示。
AAC Plus与传统AAC相比,在实际表现能力上有明显的优势。使用AAC Plus可以用低达24kb/s(单声道)和48kb/s(立体声)的码率传送高质量的音频信号。近期的研究主要集中在是否能将AAC Plus运用于更高的比特率,比如80~96kb/s的范围。其中的一种方法是:使用工作于输入信号采样频率的核心AAC编码器,同时SBR编码器被强制工作于两倍的采样频率。具体来说就是用32个频带的正交镜像滤波器(QMF)组对输入信号进行分析,另外再插入一个32频带QMF进行零点补偿,以完成SBR旁链的升采样工作。
相应的解码器应工作在降采样模式,以保证能正确地还原出原始信号。在此出于对编码时的升采样考虑,加在SBR旁链上的32个附加频带就被舍弃了,只保留包含信号成分(频率上限为奈奎斯特频率)的原始的32个频带。这种编、解码器的组合被称为准单一码率模式。由于核心AAC编码器工作在输入采样频率下(比如说48kHz),则低频频带(采用常规编码)与高频频带(采用SBR)的过渡区域可以处在比12kHz更高的频率上(假定核心编码器工作在24kHz),这样就可以将SBR中不需要的成分移至人耳听音灵敏度不高的区域。
经过主观评价测试,AAC Plus可以提供与工作于80~96kb/s码率下的传统AAC相当的声音质量,并且上述的准单一码率模式还可以采用96kb/s的码率进一步改善质量,达到双码率模式AAC Plus的效果。
2. SBR技术与MPEG Layer 2结合
目前MPEG Layer 2已经广泛应用于很多国家的数字音频广播系统。对广播系统来说,都希望降低比特率,以提高频道的容量。将MPEG Layer 2与SBR技术结合是解决这一问题不错的方案,它可以使编码效率提高30%。由于这种技术最初是为中等比特率网络应用服务而开发,所以现在的问题是,这种技术是否也能在较高的码率下提供高效率;另外一个问题是,由于传送SBR附加信息需要占用一定的数据宽度,听惯了传统的Layer 2广播的听众,是否能够接受由此造成的音质下降。
在一些实验中,将采用单一和双码率模式的Layer 2+SBR编解码器(码率分别为128kb/s和160kb/s)与没有加入SBR技术的Layer 2(码率分别为128,160和192kb/s)作了比较。结果表明,应用中单码率模式的优势在于它能够兼容此前的接收机,并且能够保证核心音频信号在采样频率下的完整带宽。在这一实验中,是将不同的Layer 2编码器用于SBR核心中,而不是将其用于传统的Layer 2处理之中。SBR单码率核心编码器采用的带宽为14.25kHz,码率为153kb/s,其中有7kb/s的SBR附加信息。主观评价结果如图2所示。
由图2可以看出,双码率模式的SBR系统明显优于传统Layer 2,在相同码率下双码率SBR系统具有更高的音质。但另一方面,对于听惯了传统的Layer 2广播的听众来说,他们收听的结果将如图中蓝色方块所示(为单独的SBR双码率核心编码器作用),这些信号受到严重的带宽限制,结果导致音质比经过传统Layer 2处理的更差(红色三角形表示听众收听传统Layer 2的结果)。在单码率模式下,SBR处理过程也没有表现出优于传统Layer 2的地方(收听结果如图中绿色方块所示),依然比传统编码器处理得到的声音音质差。
3. 空间音频编码(Spatial Audio Coding)
这是一种新的MPEG标准,它是基于向后兼容双声道立体声和单声道概念的一种低比特率编码方案。信号经过传统方式编码,可以与单声道或立体声解码器兼容,并且添加了一定的附加信息,这一附加信息是对声道间感知差异的编码。空间音频编码技术将普遍应用于信号传输。Herreet al.对这一技术作了很好的概述,在他近期发表的文献中提到:“空间音频编码,是下一代的高效且兼容多声道音频的编码技术。”(引自AES 117th会议论文6186)。论文还列出了有关空间音频编码的关键技术要求:
●尽可能与人们所感知到的多声道声像相吻合;
●与传统的单声道或双声道传输方式相比,码率要尽可能的低;
●所传输的音频信号应与现有的单声道或立体声重放系统相兼容(向后兼容),并且这种音频信号要能够表现多声道声像的所有信息;
●独立于音频编、解码器(其他的传输方案中,编码技术都要支持MPEG-4 AAC及HE-AAC编码器的编码方式);
●对于1-to-n和2-to-n的处理,应采用同一个结构处理框架。
MPEG专家组在近期的讨论中,同意将两种最实用的编码系统的优点结合起来,形成一种新的标准。
此前的相关文献提及了被称之为Binaural Cue Coding(BCC)的编码技术,该技术是一种听觉感知音频编码方案,是一种表示音频信号携带的空间信息的新方法。这种空间音频信号可以以任意的声道数来表现,它们可以采用单一基带结合附加信息的形式进行传输,附加信息包含了描述声道间的时间、电平,以及相关性差异等内容,这样可以提高传输能力。这就是所谓的BCC的C-to-1模式,在这种模式中,C个信源声道只用一个基带声道进行传输。将来还会发展出C-to-E模式,即C个信源声道被编码成E个基带声道传输。这些内容在AES 117th会议论文中曾被提及。这些模式可以为立体声或多声道音频的传输提供更实用的解决方案。
4. 多种环绕模式的编码
通常情况下,环绕声编码方案中都应用了BCC原理,Faller在“兼容不同重放格式的空间音频编码方案”一文(参见AES 117th会议论文6187)中谈到了C-to-E模式的编码处理过程。该处理是将C个信源声道向下混合成E个基带传输声道,这一过程是基于所考虑的声道配置,根据预先确定的优化矩阵在MPEG编码器的子带编码时实现。这种向下混合模式最有效的实现方案取决于声道配置和扬声器的摆放,所以并不必须要计算声道间的时间差、电平差,以及相关性差异等因素。
例如,在5声道环绕声系统设置中,对非相关信号扩散和包围感的感知,取决于被馈入了相同信号的扬声器的组合,而维持左右声道间的非相关性要比维持前后声道间的非相关性更为重要。所以对于应用BCC原理的5-to-2模式编码,其向下混合处理是将这个5声道排列的左、右两部分分离,重新建立与辅助信息相关联的两个基本声道。
在将来还会出现6-to-5模式(如Dolby Digital Surround EX模式中,在后方中间位置摆放了一只扬声器),以及7-to-5模式(如Lexicon Logic 7模式中增加了第二对侧向扬声器)。其中有些声道上的信息可以被原封不动地传输,而另一些声道上的信息则根据相邻声道间的差异进行重建。
5. MP3环绕声
MP3是现今世界上最流行的音频压缩格式,并逐渐走向多声道形式。MP3环绕声对5.1声道环绕声进行编码使其变成双声道,这种编码方式比传统的双声道立体声具有更高的数据率。编码后双声道立体声的比特流与现有的MP3解码器相兼容,另外,MPEG框架结构的辅助数据扩展中携带有BCC附加信息,双声道解码器很容易忽略掉这种辅助数据,而环绕声解码器却用它来呈现出5.1声道的环绕声像。其基本原理如图3所示。
从原理上讲,MP3环绕声的编码并不限制其向下混合的类型及方法,只是假设它会产生可兼容的双声道信号。这种向下混合可以是一种固定的自动向下混合,其中包含多声道音频成分的线性加权;也可以是由缩混工程师进行艺术性的缩混;或者是基于节目内容的可自动调整动态的向下混合。如果使用人工外部缩混,就需要利用BCC编码器对合成的双声道信号进行分析,并计算出所需的附加信息。有人认为:向下混合成可兼容的双声道的最好方式,对于用BCC重建多声道信号来说并不一定最好,这就需要再深入研究寻求一种更好的方法。
使用MUSHRA(Multi Stimulus test with Hidden Reference and Anchors)测试方法进行主观听音测试,192kb/s的MP3环绕声被认为与传统MPEG-2/4 AAC技术320kb/s编解码的高质量多声道音频具有同等的音质。在测试中参与比较的还有Prologic II,它同样是利用双声道媒体来传递多声道音频信号。测试的评价等级包括非常好(excellent),好(good),普通(fair),差(poor),很差(bad)。结果显示,传统AAC编解码器得到excellent的评价,MP3环绕声系统同样在excellent的范围内,但稍差于AAC,且处理过程中包含很多可变因素。而Prologic II处于good的评价范围,这是一个相当令人满意的结果。
从另一个基于BCC空间音频编码的测试中发现,在两个向下混合声道上重建多声道音频信息要优于在一个单声道上重建。在用双声道重建的实验中,由带有19.1kb/s空间附加信息的AAC-LC编解码器,以128kb/s的速率对音频信号编码。而用单声道重建的实验中,由带有14.9kb/s空间附加信息的AAC-LC编解码器,以64kb/s的速率对音频信号编码。结果显示,在单声道上重建的多声道音频信号可得到与Prologic II相当的音质效果。
6. DOLBY DIGITAL PLUS
杜比数字技术已经存在了很长时间,它是全世界DVD和高清电视广播节目的多声道音频标准之一。我们熟知的AC-3技术,在各种多声道音频应用中都可以看到它的身影。而Dolby Digital Plus(也称为E-AC-3)是为高清节目与多媒体所开发的下一代音频技术,是对AC-3的增强。它对AC-3的各种特性加以扩展,可实现更高的音质,而且能与当前基于AC-3的设备相兼容。
E-AC-3的主要特点有:它携带一定数量的辅助音频流,可以表达多达13.1个声道,并可处理6.1或7.1声道的环绕声音频节目,故更适应于将来的家庭影院设备。从其原理上看,基本的音频流仍然携带5.1个声道的环绕声信息(由原来的7.1个声道向下混合而成),而独立音频流用来携带附加音频声道的辅助信息。对这两种音频流解码之后,在5.1声道中的某些声道会向下混合被适合的辅助声道代替,以重现原始的声音格式。除了有8个仅用于描述作用的音频子数据流之外,还可以增加多达7个独立的音频数据流,用以支持多节目传输。
E-AC-3与AC-3相比较,工作范围由32kb/s扩展到6.144Mb/s(其最高码率为640kb/s)。在精确的比特率设置上E-AC-3具有更高的适应性,并且编码中的某些特定方面也得到了改善。在量化工具的使用中结合了一种新颖的转换形式——自适应混合转换(Adaptive Hybrid Transform,AHT)。另外,现在的技术还可以在保存声道间相位关系的同时,使用声道耦合技术将采样频率降到更低,同时可利用矩阵进行解码处理。声道耦合在概念上与其他声道间的编码过程类似(例如MPEG中的强度立体声),它是对核心单声道的高频部分以及其他声道的长期谱包络信息进行编码。
与前述的SBR相似,E-AC-3 同样具有频谱扩展能力,即前面讲到的利用较低频率的转换系数来重建高频的转换系数,而不是像AC-3中采用的时-频域变换的方法,将音频信号分成窄带信号。频谱调制被用来与原始HF频谱包络和增益相匹配。
由于E-AC-3数据流可以转换成具有最小编码损失的常规AC-3数据流,所以可以通过现有的杜比数字解码器解码。将E-AC-3数据流转换成AC-3数据流的转换器,产生640kb/s的AC-3 输出,输入的比特率则没有限定。这就是说这种转换器可以当作机顶盒、交互式DVD来使用。另外在E-AC-3中可以使用源数据来控制不同源数据流的混合和压缩。
7. 结语
从本文的阐述可以看出,在具有兼容性的前提下对传统编码方案进行的改进,大都利用了低比特率编码研究和开发的新成果。这样就可以在不淘汰原有系统的同时,使新系统获得更好的声音质量和更优越的性能。
(全文完)
来源:《世界专业音响与灯光》
出版日期:2008年4月