MPEG-2 详解-程序员宅基地

MPEG-2 详解

MPEG是活动图像组（Moving Picture Exports Group）的缩写。

MPEG-2是MPEG（Moving Picture Experts Group，运动图像专家组）组织制定的视频和音频有损压缩标准之一，它的正式名称为“基于数字存储媒体运动图像和语音的压缩标准”。与MPEG-1标准相比，MPEG-2标准具有更高的图像质量、更多的图像格式和传输码率的图像压缩标准。MPEG-2标准不是MPEG-1的简单升级，而是在传输和系统方面做了更加详细的规定和进一步的完善。它是针对标准数字电视和高清晰电视在各种应用下的压缩方案，传输速率在 3 Mbit/s~10 Mbit/s 之间,其在NTSC制式下的分辨率可达720X486。

MPEG-2也可提供并能够提供广播级的视像和CD级的音质。MPEG-2的音频编码可提供左右中及两个环绕声道，以及一个加重低音声道，和多达7个伴音声道（DVD可有8种语言配音的原因）。由于MPEG-2在设计时的巧妙处理，使得大多数MPEG-2解码器也可播放MPEG-1格式的数据，如VCD。

MPEG-2 的发展阶段

对MPEG-1增加了低采样频率，有16KHZ，22.05KHZ，以及24KHZ。
对MPEG-1实施了向后兼容的多声道扩展，将其称为MPEG-2 BC。支持单声道，双声道，多声道等编码。并附加“低频加重”扩展声道，从而达到五声道编码。
向后不兼容，将其称为MPEG-2 AAC先进音频编码。采样频率可以低至8KHZ；而高至96KHZ范围内的1-48个通道可选的高音质音频编码。

MPEG-2 的特点

MPEG-2 可提供一个较广的范围改变压缩比，以适应不同画面质量，存储容量，以及带宽的要求。
MPEG-2的音频编码可提供左右中及两个环绕声道，以及一个加重低音声道，和多达7个伴音声道（DVD可有8种语言配音的原因）。

MPEG-2 的应用

MPEG-2标准特别适用于广播质量的数字电视的编码和传送，被用于无线数字电视、DVB（Digital Video Broadcasting，数字视频广播）、数字卫星电视、DVD（Digital Video Disk，数字化视频光盘）等技术中。

数字化片库：压缩比的提高对节目的存储所需要的资源大大降低。采用基于MPEG-2的数字化节目库可以以较小的成本取得很好的效益。
节目传输：高压缩比和可变的输出码率使得MPEG-2技术在节目传播应用上发展迅速。在低至1.5Mbit/s的码率下，MPEG-2数据流仍然能提供相当的图象质量，因此目前的模拟电影频道甚至可以传送四路电视节目。这在地面广播、有线电视和卫星广播上都很有吸引力，可以节约大量的成本。
高清晰度电视：由于高清晰度电视的分辨率很高，带来的问题是所需的节目传输带宽很高，必须使用高压缩比才有可能传送高清晰度电视。在这一点上，MPEG-2技术能够胜任。
在数字化视频磁带、激光视盘、电视会议以及数字照相机等方面，MPEG-2也具有很广的应用前景。

MPEG-2 视频编码系统原理及关键技术

概括地说，MPEG-2图像压缩的原理是利用了图像中的两种特性：空间相关性和时间相关性。一帧图像内的任何一个场景都是由若干像素点构成的，因此一个像素通常与它周围的某些像素在亮度和色度上存在一定的关系，这种关系叫作空间相关性；一个节目中的一个情节常常由若干帧连续图像组成的图像序列构成，一个图像序列中前后帧图像间也存在一定的关系，这种关系叫作时间相关性。这两种相关性使得图像中存在大量的冗余信息。如果我们能将这些冗余信息去除，只保留少量非相关信息进行传输，就可以大大节省传输频带。而接收机利用这些非相关信息，按照一定的解码算法，可以在保证一定的图像质量的前提下恢复原始图像。一个好的压缩编码方案就是能够最大限度地去除图像中的冗余信息。

MPEG-2中编码图像被分为三类，分别称为I帧，P帧和B帧。

I帧图像采用帧内编码方式，即只利用了单帧图像内的空间相关性，而没有利用时间相关性。I帧主要用于接收机的初始化和信道的获取，以及节目的切换和插入，I帧图像的压缩倍数相对较低。I帧图像是周期性出现在图像序列中的，出现频率可由编码器选择。

P帧和B帧图像采用帧间编码方式，即同时利用了空间和时间上的相关性。P帧图像只采用前向时间预测，可以提高压缩效率和图像质量。P帧图像中可以包含帧内编码的部分，即P帧中的每一个宏块可以是前向预测，也可以是帧内编码。B帧图像采用双向时间预测，可以大大提高压缩倍数。值得注意的是，由于B帧图像采用了未来帧作为参考，因此MPEG-2编码码流中图像帧的传输顺序和显示顺序是不同的。

MPEG-2 的编码码流

MPEG-2的编码码流分为六个层次。从上至下依次为：视频序列层（Sequence），图像组层（GOP：Group of Picture），图像层（Picture），像条层（Slice），宏块层（MacroBlock）和像块层（Block）。

具体介绍

序列指构成某路节目的图像序列，序列起始码后的序列头中包含了图像尺寸，宽高比，图像速率等信息。序列扩展中包含了一些附加数据。为保证能随时进入图像序列，序列头是重复发送的。

序列层下是图像组层，一个图像组由相互间有预测和生成关系的一组I、P、B图像构成，但头一帧图像总是I帧。GOP头中包含了时间信息。

图像组层下是图像层，分为I、P、B三类。PIC头中包含了图像编码的类型和时间参考信息。

图像层下是像条层，一个像条包括一定数量的宏块，其顺序与扫描顺序一致。MP@ML中一个像条必须在同一宏块行内。

像条层下是宏块层。MPEG-2中定义了三种宏块结构：4:2:0宏块4:2:2宏块和4:4:4宏块，分别代表构成一个宏块的亮度像块和色差像块的数量关系。

4:2:0宏块中包含四个亮度像块，一个Cb色差像块和一个Cr色差像块；4:2:2宏块中包含四个亮度像块，二个Cb色差像块和二个Cr色差像块；4:4:4宏块中包含四个亮度像块，四个Cb色差像块和四个Cr色差像块。这三种宏块结构实际上对应于三种亮度和色度的抽样方式。

编码方法

在进行视频编码前，分量信号R、G、B被变换为亮度信号Y和色差信号Cb、Cr的形式。

4:2:2格式中亮度信号的抽样频率为13.5MHz，两个色差信号的抽样频率均为6.75MHz，这样空间的抽样结构中亮度信号为每帧720x576样值，Cb，Cr都为360x576样值，即每行中每隔一个像素对色差信号抽一次样。

4:4:4格式中，亮度和色差信号的抽样频率都是13.5MHz，因此空间的抽样结构中亮度和色差信号都为每帧720x576样值。而4:2:0格式中，亮度信号的抽样频率13.5MHz，空间的抽样结构中亮度信号为每帧720x576样值，Cb，Cr都为360x288样值，即每隔一行对两个色差信号抽一次样，每抽样行中每隔一个像素对两个色差信号抽一次样。

通过上述分析不难计算出，4:2:0格式中，每四个Y信号的像块空间内的Cb，Cr样值分别构成一个Cb，Cr像块；4:2:2格式中，每四个Y信号的像块空间内的Cb，Cr样值分别构成两个Cb，Cr像块；而4:4:4格式中，每四个Y信号的像块空间内的Cb，Cr样值分别构成四个Cb，Cr像块。相应的宏块结构正是以此基础构成的。

宏块层之下是像块层，像块是MPEG-2码流的最底层，是DCT变换的基本单元。MP@ML中一个像块由8x8个抽样值构成，同一像块内的抽样值必须全部是Y信号样值，或全部是Cb信号样值，或全部是Cr信号样值。另外，像块也用于表示8x8个抽样值经DCT变换后所生成的8x8个DCT系数。

在帧内编码的情况下，编码图像仅经过DCT，量化器和比特流编码器即生成编码比特流，而不经过预测环处理。DCT直接应用于原始的图像数据。

在帧间编码的情况下，原始图像首先与帧存储器中的预测图像进行比较，计算出运动矢量，由此运动矢量和参考帧生成原始图像的预测图像。而后，将原始图像与预测像素差值所生成的差分图像数据进行DCT变换，再经过量化器和比特流编码器生成输出的编码比特流。

可见，帧内编码与帧间编码流程的区别在于是否经过预测环的处理。

MPEG-2 视频压缩关键技术环节

余弦变换DCT

DCT是一种空间变换，在MPEG-2中DCT以8x8的像块为单位进行，生成的是8x8的DCT系数数据块。DCT变换的最大特点是对于一般的图像都能够将像块的能量集中于少数低频DCT系数上，即生成8x8DCT系数块中，仅左上角的少量低频系数数值较大，其余系数的数值很小，这样就可能只编码和传输少数系数而不严重影响图像质量。

DCT不能直接对图像产生压缩作用，但对图像的能量具有很好的集中效果，为压缩打下了基础。

量化器

量化是针对DCT变换系数进行的，量化过程就是以某个量化步长去除DCT系数。量化步长的大小称为量化精度，量化步长越小，量化精度就越细，包含的信息越多，但所需的传输频带越高。不同的DCT变换系数对人类视觉感应的重要性是不同的，因此编码器根据视觉感应准则，对一个8x8的DCT变换块中的64个DCT变换系数采用不同的量化精度，以保证尽可能多地包含特定的DCT空间频率信息，又使量化精度不超过需要。DCT变换系数中，低频系数对视觉感应的重要性较高，因此分配的量化精度较细；高频系数对视觉感应的重要性较低，分配的量化精度较粗，通常情况下，一个DCT变换块中的大多数高频系数量化后都会变为零。

之型扫描与游程编码

DCT变换产生的是一8x8的二维数组，为进行传输，还须将其转换为一维排列方式。有两种二维到一维的转换方式，或称扫描方式：之型扫描（Zig-Zag)和交替扫描，其中之型扫描是最常用的一种。由于经量化后，大多数非零DCT系数集中于8x8二维矩阵的左上角，即低频分量区，之型扫描后，这些非零DCT系数就集中于一维排列数组的前部，后面跟着长串的量化为零的DCT系数，这些就为游程编码创造了条件。

游程编码中，只有非零系数被编码。一个非零系数的编码由两部分组成：前一部分表示非零系数前的连续零系数的数量（称为游程），后一部分是那个非零系数。这样就把之型扫描的优点体现出来了，因为之型扫描在大多数情况下出现连零的机会比较多，游程编码的效率就比较高。当一维序列中的后部剩余的DCT系数都为零时，只要用一个“块结束”标志(EOB)来指示，就可结束这一8x8变换块的编码，产生的压缩效果是非常明显的。

熵编码

量化仅生成了DCT系数的一种有效的离散表示，实际传输前，还须对其进行比特流编码，产生用于传输的数字比特流。简单的编码方法是采用定长码，即每个量化值以同样数目的比特表示，但这种方法的效率较低。而采用熵编码可以提高编码效率。熵编码是基于编码信号的统计特性，使得平均比特率下降。游程和非零系数既可独立的，也可联合的作熵编码。熵编码中使用较多的一种是霍夫曼编码，MPEG-2视频压缩系统中采用的就是霍夫曼编码。霍夫曼编码中，在确定了所有编码信号的概率后生产一个码表，对经常发生的大概率信号分配较少的比特表示，对不常发生的小概率信号分配较多的比特表示，使得整个码流的平均长度趋于最短。

信道缓存

由于采用了熵编码，产生的比特流的速率是变化的，随着视频图像的统计特性变化。但大多数情况下传输系统分配的频带都是恒定的，因此在编码比特流进入信道前需设置信道缓存。信道缓存是一缓存器，以变比特率从熵编码器向里写入数据，以传输系统标称的恒定比特率向外读出，送入信道。缓存器的大小，或称容量是设定好的，但编码器的瞬时输出比特率常明显高于或低于传输系统的频带，这就有可能造成缓存器的上溢出或下溢出。因此缓存器须带有控制机制，通过反馈控制压缩算法，调整编码器的比特率，使得缓存器的写入数据速率与读出数据速率趋于平衡。缓存器对压缩算法的控制是通过控制量化器的量化步长实现的，当编码器的瞬时输出速率过高，缓存器将要上溢时，就使量化步长增大以降低编码数据速率，当然也相应增大了图像的损失；当编码器的瞬时输出速率过低，缓存器将要下溢出时，就使量化步长减小以提高编码数据速率。

运动估计

运动估计使用于帧间编码方式时，通过参考帧图像产生对被压缩图像的估计。运动估计的准确程度对帧间编码的压缩效果非常重要。如果估计作的好，那么被压缩图像与估计图像相减后只留下很小的值用于传输。运动估计以宏块为单位进行，计算被压缩图像与参考图像的对应位置上的宏块间的位置偏移。这种位置偏移是以运动矢量来描述的，一个运动矢量代表水平和垂直两个方向上的位移。运动估计时，P帧和B帧图像所使用的参考帧图像是不同的。P帧图像使用前面最近解码的I帧或P帧作参考图像，称为前向预测；而B帧图像使用两帧图像作为预测参考，称为双向预测，其中一个参考帧在显示顺序上先于编码帧（前向预测），另一帧在显示顺序上晚于编码帧（后向预测），B帧的参考帧在任何情况下都是I帧或P帧。

运动补偿

利用运动估计算出的运动矢量，将参考帧图像中的宏块移至水平和垂直方向上的相对应位置，即可生成对被压缩图像的预测。在绝大多数的自然场景中运动都是有序的。因此这种运动补偿生成的预测图像与被压缩图像的差分值是很小的。

MPEG-1 Audio Layer II 编码器框图

在这里插入图片描述

可以看到，编码器具有两条脉络：一是上方蓝色框内的子带编码部分，这也是编码的主线；二是下方的部分，是MPEG音频编码的亮点。

多相滤波器

数字音频信号通过一个多相滤波器组，变换成32个等宽频带子带，使得信号具有较高的时间分辨率，确保在短暂冲击信号的情况下，编码的声音信号具有足够高的质量。

但需要说明的是，高时域分辨率和高频域分辨率是不可兼得的，我们需要做出权衡。

滤波器组的输出是临界频带经过量化的系数样值。若一个子带覆盖多个临界频带，则选择具有最小NMR的临界频带来计算分配给子带的比特数。

心理声学模型

心理声学模型决定了各个子带中允许的最大量化噪声，小于它的量化噪声都会被掩蔽。若子带内的信号功率小于掩蔽阈值，则不进行编码；否则，确定要编码的系数所需的比特数，使量化引起的噪声低于掩蔽效应。

量化编码

比特分配：对每个子带计算掩噪比MNR (dB) = 信噪比SNR - 信掩比SMR。
然后找出其中具有最低MNR的子带，并给该子带多分配一些比特，然后重新计算MNR，继续分配，重复该步骤，直至没有比特可以分配。这样可以使得在满足比特率和掩蔽要求的前提下，使MNR最小。
计算比例因子：对各个子带每36个样点（Layer I为12个样点）进行一次比例因子的计算，先确定12个连续样值中的最大值，查Layer II、Layer I比例因子表中比这它大的最小值作为量化比例因子。每12个样值计算出一个比例因子，Layer II中将每个子带分为3组，每组各有12个取样值，因此36个样值具有3个比例因子。比例因子可以使得比较准确地计算出子带的声压级。一般比例因子从低频子带到高频子带连续下降。
子带样值量化：将子带样值除以比例因子（结果为X），根据所分配的比特数查表得A、B，量化结果为AX+B。
颗粒形成：对量化级别在3、5、9级时，采用“颗粒” 优化。大量实验证明，使用颗粒量化可将压缩比从4:1增加到6:1乃至8:1。

帧比特流形成

单个子带的连续36个样值（3组12个样值）组装成帧。

Layer II每帧包含1152个PCM样值（为Layer I的三倍）。若取样频率为48 kHz，一帧相当于1152 / 48k = 24 ms的声音样值，因此Layer II的精确度为24 ms（为Layer I的三倍，因而更精确）。

MPEG-1 Audio Layer II的帧结构：

在这里插入图片描述

参考

https://baike.baidu.com/item/MPEG-2/214322?fr=ge_ala
https://huifu.wondershare.cn/repair/10070867.html
https://blog.csdn.net/yangzhiloveyou/article/details/17101803
https://blog.csdn.net/szzheng/article/details/106692435

本文链接：https://blog.csdn.net/ProgramNovice/article/details/137373927

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

攻防世界_难度8_happy_puzzle_攻防世界困难模式攻略图文-程序员宅基地

文章浏览阅读645次。这个肯定是末尾的IDAT了，因为IDAT必须要满了才会开始一下个IDAT，这个明显就是末尾的IDAT了。，对应下面的create_head()代码。，对应下面的create_tail()代码。不要考虑爆破，我已经试了一下，太多情况了。题目来源：UNCTF。_攻防世界困难模式攻略图文

达梦数据库的导出（备份）、导入_达梦数据库导入导出-程序员宅基地

文章浏览阅读2.9k次，点赞3次，收藏10次。偶尔会用到，记录、分享。1. 数据库导出1.1 切换到dmdba用户su - dmdba1.2 进入达梦数据库安装路径的bin目录，执行导库操作　　导出语句：./dexp cwy_init/[email protected]:5236 file=cwy_init.dmp log=cwy_init_exp.log　注释：　　 cwy_init/init_123..._达梦数据库导入导出

js引入kindeditor富文本编辑器的使用_kindeditor.js-程序员宅基地

文章浏览阅读1.9k次。1. 在官网上下载KindEditor文件，可以删掉不需要要到的jsp，asp，asp.net和php文件夹。接着把文件夹放到项目文件目录下。2. 修改html文件，在页面引入js文件：<script type="text/javascript" src="./kindeditor/kindeditor-all.js"></script><script type="text/javascript" src="./kindeditor/lang/zh-CN.js"_kindeditor.js

STM32学习过程记录11——基于STM32G431CBU6硬件SPI+DMA的高效WS2812B控制方法-程序员宅基地

文章浏览阅读2.3k次，点赞6次，收藏14次。SPI的详情简介不必赘述。假设我们通过SPI发送0xAA，我们的数据线就会变为10101010，通过修改不同的内容，即可修改SPI中0和1的持续时间。比如0xF0即为前半周期为高电平，后半周期为低电平的状态。在SPI的通信模式中，CPHA配置会影响该实验，下图展示了不同采样位置的SPI时序图[1]。CPOL = 0，CPHA = 1：CLK空闲状态 = 低电平，数据在下降沿采样，并在上升沿移出CPOL = 0，CPHA = 0：CLK空闲状态 = 低电平，数据在上升沿采样，并在下降沿移出。_stm32g431cbu6

计算机网络-数据链路层_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输-程序员宅基地

文章浏览阅读1.2k次，点赞2次，收藏8次。数据链路层习题自测问题1.数据链路(即逻辑链路)与链路(即物理链路)有何区别?“电路接通了”与”数据链路接通了”的区别何在?2.数据链路层中的链路控制包括哪些功能?试讨论数据链路层做成可靠的链路层有哪些优点和缺点。3.网络适配器的作用是什么?网络适配器工作在哪一层?4.数据链路层的三个基本问题(帧定界、透明传输和差错检测)为什么都必须加以解决？5.如果在数据链路层不进行帧定界，会发生什么问题？6.PPP协议的主要特点是什么？为什么PPP不使用帧的编号？PPP适用于什么情况？为什么PPP协议不_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输

软件测试工程师移民加拿大_无证移民，未受过软件工程师的教育（第1部分）-程序员宅基地

文章浏览阅读587次。软件测试工程师移民加拿大无证移民，未受过软件工程师的教育(第1部分) (Undocumented Immigrant With No Education to Software Engineer(Part 1))Before I start, I want you to please bear with me on the way I write, I have very little gen...

随便推点

Thinkpad X250 secure boot failed 启动失败问题解决_安装完系统提示secureboot failure-程序员宅基地

文章浏览阅读304次。Thinkpad X250笔记本电脑，装的是FreeBSD，进入BIOS修改虚拟化配置（其后可能是误设置了安全开机），保存退出后系统无法启动，显示：secure boot failed ，把自己惊出一身冷汗，因为这台笔记本刚好还没开始做备份.....根据错误提示，到bios里面去找相关配置，在Security里面找到了Secure Boot选项，发现果然被设置为Enabled，将其修改为Disabled ，再开机，终于正常启动了。_安装完系统提示secureboot failure

C++如何做字符串分割（5种方法）_c++ 字符串分割-程序员宅基地

文章浏览阅读10w+次，点赞93次，收藏352次。1、用strtok函数进行字符串分割原型： char *strtok(char *str, const char *delim);功能：分解字符串为一组字符串。参数说明：str为要分解的字符串，delim为分隔符字符串。返回值：从str开头开始的一个个被分割的串。当没有被分割的串时则返回NULL。其它：strtok函数线程不安全，可以使用strtok_r替代。示例：//借助strtok实现split#include <string.h>#include <stdio.h&_c++ 字符串分割

2013第四届蓝桥杯 C/C++本科A组真题答案解析_2013年第四届c a组蓝桥杯省赛真题解答-程序员宅基地

文章浏览阅读2.3k次。1 .高斯日记大数学家高斯有个好习惯：无论如何都要记日记。他的日记有个与众不同的地方，他从不注明年月日，而是用一个整数代替，比如：4210后来人们知道，那个整数就是日期，它表示那一天是高斯出生后的第几天。这或许也是个好习惯，它时时刻刻提醒着主人：日子又过去一天，还有多少时光可以用于浪费呢？高斯出生于：1777年4月30日。在高斯发现的一个重要定理的日记_2013年第四届c a组蓝桥杯省赛真题解答

基于供需算法优化的核极限学习机(KELM)分类算法-程序员宅基地

文章浏览阅读851次，点赞17次，收藏22次。摘要：本文利用供需算法对核极限学习机(KELM)进行优化，并用于分类。

metasploitable2渗透测试_metasploitable2怎么进入-程序员宅基地

文章浏览阅读1.1k次。一、系统弱密码登录1、在kali上执行命令行telnet 192.168.26.1292、Login和password都输入msfadmin3、登录成功，进入系统4、测试如下：二、MySQL弱密码登录：1、在kali上执行mysql –h 192.168.26.129 –u root2、登录成功，进入MySQL系统3、测试效果：三、PostgreSQL弱密码登录1、在Kali上执行psql -h 192.168.26.129 –U post..._metasploitable2怎么进入

Python学习之路：从入门到精通的指南_python人工智能开发从入门到精通pdf-程序员宅基地

文章浏览阅读257次。本文将为初学者提供Python学习的详细指南，从Python的历史、基础语法和数据类型到面向对象编程、模块和库的使用。通过本文，您将能够掌握Python编程的核心概念，为今后的编程学习和实践打下坚实基础。_python人工智能开发从入门到精通pdf