• 易迪拓培训,专注于微波、射频、天线设计工程师的培养
首页 > 无线通信 > 技术文章 > 基于多核媒体处理器 灵活实施HD视频转码标准战略

基于多核媒体处理器 灵活实施HD视频转码标准战略

录入:edatop.com     点击:

多层编码器架构

典型视频转码器实施方案需要HD解码器(SD、720p或1080p),有可能要调整图像尺寸、将YUV输出分配到其它内核或器件,并以CIF、SD、720p或1080p分辨度进行视频编码。本部分主要介绍完整的解/编码转码技术,相同工作原理也适用于高效转码器,其解码器参数(如:运动矢量)等常被用于编码器来降低编码器复杂性。

高清视频编码,即1080p(1920x1080)与 720p(1280x720)分辨度的任务非常苛刻,其需要多个媒体处理内核,以便实时实现30FPS~60FPS。该任务甚至可以跨越多个多核DSP器件。本文主要针对H.264展开讨论,不过相同原理同样适用于H.263与MPEG4编码器。可以采用两种方式实现DSP内核之间的任务划分。

图 1. H.264 编码器方框图。

一种选择是在DSP内核之间进行功能分配,尽可能均匀地在内核之间分配计算负载。例如,如图1所示,一个内核负责帧间预测与帧内预测,另一个内核负责实现变换与量化,而第三个内核则负责运行去块效应滤波器与熵编码工作。实际上,功能划分存在多种缺陷。负载均衡需要在内核之间实现更高级的通信与协调。均衡内核之间的计算负载难度更高,因为每个功能块都具有很高的复杂性。当图像分辨率从CIF提高到HD时,无法采用功能划分架构实现可扩展性。

能够克服上述问题的另一种视频编码器实施方案,是适用于可扩展多核器件的多层架构。该方案还适用于多器件架构,其中多个多核器件通过sRIO、PCIe等高速互连总线进行连接。

在这种架构中,编码器的实施分配到多个 DSP 内核。每个宏块条都分配到一个DSP内核。其中每个内核都提供一些特定功能,如:速率控制与帧内图像处理。事实上,无法预先进行比特预算并分配到各个宏块条,因为不同宏块条可能具有不同的图像复杂性,而在图像分割块之间采用差异很大的Qp值会造成合成图像的层边界出现伪影。在H.264中,宏块条NAL可以包含任意数量的宏块,因此与H.263不同,图像分割块的形状无需符合GOB边界。每个宏块条的头部(slice header)均包含宏块条数据中编码的第一个宏块的编号。

图2. HD 编码器多层处理。

在多宏块条架构中(如图2所示),DSP内核从sRIO接口(连接另一个多核媒体处理器)接收YUV格式的原始视频。该媒体处理器可实施H.264解码器。这种多处理器架构可以充分利用 sRIO的灵活性优势,动态地将一个多核媒体处理器中已经解码的宏块条分配给另一个多核媒体处理器中的DSP内核,从而进行深入处理。

sRIO是一种点对点技术,可以很灵活地连接多个器件来传输数据或处理通用数据集。每个器件都在其它器件的I/O空间自主地进行"写"操作。每个sRIO在各个方向都可支持高达 10Gbps的吞吐能力。把sRIO与高效DMA通道完美结合,可实现:

* 并行进行视频处理与数据传输

* 协调执行

* 通过共享存储器(DPS内核位于同一器件的情况下)或通过高速sRIO接口(DSP内核位于不同器件的情况下)实现数据共享。

图3. 高吞吐量、低时延多核器件互连示例。

图3说明,高速串行I/O在复杂视频处理任务中的潜在应用。图中显示用于扩展多个器件中多核器件处理能力的连接方案,其可以实现更复杂的视频处理运算或支持更多视频转码通道。采用sRIO开关能够实现更灵活的器件间通信,不过如果处理流处于相邻器件之间,也可以不采用这种开关。与PCIe开关相比,sRIO由于其数据包开销较低,因此一般成本更低、性能更高、且时延更短。

多核解码器架构

视频解码器的实现一般需要独立于编码器。也就是说,解码器结构必须通用,以处理不同编码器方案,如单NAL或多NAL实现方案。H.264解码器涉及串行操作和并行操作,而且一项重要任务是在多个内核DSP间实现高效分配。高效的多核实现架构是可分成众多串行操作。

熵解码器是一种包含串行操作和局部循环的功能块,无法分配给运行在多个内核中的并行任务。即使考虑采用上下文自适应二进制算术编码(CABAC)等先进技术,熵解码器的复杂性也低于重组块。随着DSP内核功能日益提高,可在单个DSP内核中实现解码功能。

图 4. H.264解码器方框图。

图4为一种多核架构,其采用单个DSP内核实现熵解码,且将重组块的计算强度更高的任务分配给多个DSP内核。这种数据分配技巧可将任务间通信保持在指定内核上并实现更有效的高速缓存性能。此架构的另一个优势,是具有从SD到HD的可扩展性,同时实现DSP 内核间更均匀的负载均衡。可以考虑采用不同实现方案,如:每内核单行或每内核多列。数据分配还有利于整体时延的最优化,因为是采用流水线方式实现解码,所以只要收到来自相邻宏块的数据就能够执行宏块的解码。

作者: Bahman Barazesh – LSI 公司高级技术总监

George Kustka – LSI 公司资深视频架构师

Mark Simkins – LSI 公司系统架构师

来源:电子工程专辑

上一篇:光电互补技术与电信节能
下一篇:基于WAP的移动学习平台的设计与实现

手机天线设计培训教程详情>>

手机天线设计培训教程 国内最全面、系统、专业的手机天线设计培训课程,没有之一;是您学习手机天线设计的最佳选择...【More..

射频和天线工程师培训课程详情>>

  网站地图