Internet音频技术概述

录入：edatop.com 点击：

Internet音频产业

    随着Internet的普及，Internet也迅速成为一个音乐发行渠道。消费者可以从Internet上把他们最喜欢的歌曲或新近发行的歌曲下载到便携式播放器中。固态音频压缩技术不断推进的里程和具有庞大容量的各种便携式存储媒体的出现，使Internet音频产业呈现欣欣向荣的景象。

    一些音像公司，如BMG、EMI和华纳，均向Internet内容提供商提供音乐，而Internet内容提供商则将音乐内容提供给消费者下载。这便产生了一个重要的问题，即如何保护Internet发行渠道中的版权。于是，一些在Internet上提供数字权利管理（DRM）的软件公司，如Liquid Audio、Intertrust、Microsoft和Verence便跻身进入这一领域。这种业务的成功在很大程度上取决于SDMI（安全数字音乐倡议组织），该机构联手录音公司、消费电子公司、器件（半导体芯片）供应商及DRM公司，建立安全方针，确保Internet音乐发行得到保护并具有合法性。以上是这一快速发展领域的总体状况。

MPEG 音频

    MPEG是高保真音频压缩的一个国际标准（采用于1992年）。这个标准分为3个层面：II层、III层和I层。流行的MP3是MPEG-1的III层。AAC(高级音频编码)是MPEG的第二阶段(MPEG-2)，MPEG-2是MPEG-1的改进。这个新标准采用于1997年。在同样的压缩比率下，AAC比MP3提供更佳的音频质量。MPEG-2和MPEG-3的采样频率高达44.1kHz 或48kHz，比特率在32kbps至128kbps之间。这些音频压缩标准全都利用了人类听觉系统的直觉特征心理声学。

心理声学

    通过将心理声学模型应用到音频比特流中，可以消除大量无关的音频数据。这一模型使用了频域和时域中强信号的屏蔽效果。

频率域屏蔽

    当一个强信号（屏蔽信号）出现时，与它同时产生的一个较弱信号（被屏蔽信号）就可能被我们的听觉系统所忽略，前提是在频率域中的被屏蔽信号与屏蔽信号十分相近。这称为频率屏蔽效果（如图1所示）。480Hz将被较强的500Hz信号所屏蔽。通过采集这些频率域在屏蔽效果下的有声和无声的音频水平，可以获得屏蔽阈值。任何振幅比阈值低的信号人耳都听不见，因此可以去除。这将大幅度减少用于对音频信号进行编码的数据量。

    当这个屏蔽信号变弱时，阈值曲线也随着降低，直到一个水平，到了这个水平后，无论屏蔽信号是否继续减弱，阈值曲线都将保持不变。只要信号大于3 dB，人耳就能听到音频内容。

时间域屏蔽（当时屏蔽）

    这种屏蔽效果不仅在频域发生，而且也在时域发生。当出现一个强信号，并在极短的间隔内跟随一个弱信号时，这个弱信号就几乎被人耳忽略了。这是人类听觉反应系统的感知效果。

    这种信号屏蔽能力取决于其频率位置和响度。音频编码器将使用这一信息（信号屏蔽比率SMR），利用允许的编码比特数对输入声频信号进行编码。

算法

    基于以上的屏蔽技术，典型的音频编码过程如下所示：

    1.使用滤波器带将音频信号分流入频率子带中，大约有32个关键（critical）子带-->子带滤波。

    2.使用心理声学模型确定每个子带的屏蔽阈值。

    3.计算每个子带的信号屏蔽比率（SMR），信号与屏蔽阈值的比率。

    4.如果一个子带中的功率低于屏蔽阈值，就可以去除这个子带。

    5.如果比屏蔽阈值高，应确定用来对采样进行量化的比特数量，使量化噪音低于屏蔽阈值动态比特分配。

    6.集合全部量化采样，把它们放入比特流帧中。

    最终的音频质量主要取决于如何在各个子带中分配比特。解码的复杂程度降低了。在解码过程中无需进行心理声学计算。被编码的比特流被解压缩，经历相反的过程。音频编码和解码过程如图2所示。

    以上讨论了MPEG I层的一个最基本的音频压缩算法。II层和III层较之I层有了极大改善。

MPEG-1 III 层 (MP3)增强特性

    III层的一些主要增强特性包括：

    * 利用一个MDCT（改进的DCT）处理滤波器输出，从而弥补滤波器的一些不足。 MDCT 进而将子带输出分流，产生更佳的光谱分辨率。

    * MDCT中频率分辨率的改善会产生失真，这证明它们是预回波。III层使用窗口切换技术减少这种预回波－在不同长度的数据库之间切换。

    * 每个子带可以有不同的比例因子。

    * 使用赫夫曼编码方法对量子化采样进行编码，以获得更佳的压缩率。

    * 比特库：与其它层面不同的是，被编码数据无需适应固定长度帧（每次采样有1152个样点）。当编码器在帧中需要的比特数低于平均数时，编码器可以向比特库提供比特。此后，当编码器需要的比特数高于平均数时，它又可以从比特库中借比特。只能向过去的帧借比特。

音频帧结构

    每个MPEG 帧包括（图3）

    帧头－ 32 比特

    循环冗余码校验－纠错循环冗余码（可选）, 16比特

    比特分配－通知解码器使用了多少比特来代表每个采样

    比例因子－是一个乘法器，将采样按大小排列，解码器将这个比例

    因子乘以量子化输出，得到量子化子带值

    子带采样－在III层中，由于有了“比特库”，该部分不是必需连接

    到被编码数据的帧上。它可以连接到下面的帧上。

    辅助数据－可以将非声频数据添加到这个帧上。

Internet音频解决方案

    音频编码算法要求精深的计算和数据处理技术。在便携式器件上实施音频压缩时，芯片存储器上的计算能力、和功率节省性能是主要的制约因素。考虑到这些因素，DSP应当是这一应用的优选平台。

    TI提供的IA解决方案是基于高性能、低功率的C5000系列DSP。这种器件运算速度可高达160MIPS，而其随后的器件会有更高的MIPS性能。除了这些处理能力，芯片上存储器也很大（多达128 K字）。用户接口、液晶显示器、存储器接口全都可以在单个DSP平台上
实施。有关C5000系列产品的详细内容可访问TI的外部网址: http://www.ti.com/sc/docs/products/dsp/

    总而言之， DSP IA 解决方案有如下优势：

    * 多制式解码器的可编程性和可升级性，以及不同的DRM标准
    * 其所具有的高性能，可利用更高级的产品特性
    * 节省功率特性可延长电池寿命
    * 电路简单，便于制造极小尺寸的产品

    这种解决方案提供USB连接。海量存储器可以是“与非”闪烁，或流行的可移动闪烁，如Compact Flash和多媒体卡，后二者是基于MSDOS系统中的ATA命令和FAT(文件分配表)文件系统。这些媒体的存取比特率范围是2.5MB/秒到6MB/秒。所有这些媒体都可以设置为休眠状态以省电。

Internet安全性

    在Internet上传送音乐的一般过程是，音频流由初始提音乐源得到，通过主机传送（一般都经过压缩），到达播放器，最后到达存储器（可移动或不可移动存储器）。Internet安全性既是保证这个数据传送过程具有合法性，所传送的内容得到保护。（如图5所示）。

    这个安全方案由三个部分组成：加密、水印、捆绑

    加密是将一套数据混杂起来，除非掌握这个混杂过程的“钥匙”，否则不能够恢复原来的数据。加密广泛用于数据安全方案。通常，用一个以上的钥匙保护数据内容。每次下载都混杂着不同的钥匙。一个良好的内容保护方案可以降低黑客侵犯的机会，即便黑客成功入侵，也只有一小个数据区被黑客恢复。

    水印是将无声数据添加到现有的声频流中。这种添加的信息可以是用户标识(ID)，使用规则和其它跟踪信息。利用这种信息避免未经授权的复制和压缩。

    捆绑是将传送内容与授权的器件/媒体关联起来。如果器件有可移动的存储器，那么内容就捆绑到PD（便携式器件）上。这样可以限制在一个播放器上的歌曲只能在授权的播放器上播放，同时也可以避免未经授权的复制和非法的音频压缩。

    为了实施数字权利管理(DRM)，在下载音乐过程中，特定的商和特定器件(DSP和存储器)的标识确定必须通过PC连接进行通信。原始音频内容在回放中得到恢复。这在MIPS和存储器使用率两方面增加了CPU / DSP的负载。

未来趋势

    综上所述，随着音频压缩技术的提高，可以在改进压缩比率的基础上，获得更佳的音频质量。例如，与市场上已有的同类MP3音频保真度相比，WMA比MP3的比特率低一半。解码器升级能力和适用于多种格式的能力是Internet音频业务的主流。

    音频编码是另一大突破。这是一种十分复杂的算法，这也解释了为什么市场上只有寥寥几种播放器能够提供音频编码功能。随着器件处理能力和可用片内存储能力的提升，一种可同时用于编码器和解码器的单芯片解决方案可望在不久将以合理价格投放市场，并会创造出更多的Internet音频产品供大家享用。

结论

    随着音频技术的改进，电子娱乐市场会变得更加趣味横生和富于创造性。作为消费者，您可以真正享受到所有这些新技术所带来的好处。