视频处理加速及应用实践:基于英特尔GPU
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.6 视频行业主要标准

每一个行业的蓬勃发展,都不是一两家企业能够推动的,都需要有一套通用的标准,众多公司通力合作才能把产业做大做强,那么在多媒体领域,在电视、电影以及相关多媒体行业中,ISO/IEC和ITU是负责制定标准的组织,对整个行业的发展起到了至关重要的作用。ISO(International Organization for Standardization,国际标准化组织)于1947年成立于伦敦,现在总部在瑞士的日内瓦,是目前世界上最大、最有权威的国际标准化专门机构。IEC(International Electrotechnical Commission,国际电工技术委员会)成立于1906年,主要负责有关电气工程和电子工程领域中的国际标准的编写等工作,总部也设在瑞士的日内瓦。ITU(International Telecommunication Union,国际电信联盟),原名为国际电报联盟(International Telegraph Union),1865年就成立了,可以说是历史最悠久的联盟之一,侧重于电信号的交换协议等,它已经参与制定了2000多项国际标准。ITU下面主要有三大部门负责具体事务,分别是无线电通信部门、国际标准化部门以及电信发展部门。我们常见的CCIR就是负责无线电通信部门的国际无线电咨询委员会(International Radio Consultative Committee)的缩写,现在更加直观地称之为ITU-R。而与本书介绍的内容息息相关的部门则是国际电话电报咨询委员会(International Telephone and Telegraph Consultative Committee),简称ITU-T。是不是觉得越来越熟悉了?

介绍完三大组织,我们顺便提一句学术界的“扛把子”IEEE,全称是电气和电子工程师协会(Institute of Electrical and Electronics Engineers)。IEEE堪称全球最大的学术专业组织,每年会在各个领域举办多场顶级论坛,征集最权威、最有影响力的论文,同时参与制定电气与电子设备、试验方法、元器件等行业的标准,众多学子也把在IEEE上发表论文作为自己学术研究的起点。

1.6.1 电视制式

简要介绍完标准制定组织之后,下面介绍几个我们更加熟悉的组织,它们制定了与人们生活息息相关的电视、电影的播放标准,丰富了我们的生活。电视、电影的发明使得视频内容可以通过电信号长距离地传输到千家万户,并且可以通过仪器长时间保存,这不仅给人们带来丰富多彩的影像信息,也使得资讯得以快速传递,同时会记录很多珍贵的多媒体信息。但是在发展的早期,不同国家和地区使用了不同的播放方式,例如:

NTSC制式,简称为N制,是1952年12月由美国国家电视标准委员会(National Television Standards Committee)制定的彩色电视广播标准,属于同时顺序制,帧率为29.97fps,扫描线为525行,隔行扫描,画面比例为4:3,常见分辨率为720×480。这种制式的色度信号调制包括平衡调制和正交调制两种,解决了彩色、黑白电视广播兼容的问题,但存在相位容易失真、色彩不稳定问题。美国、加拿大、墨西哥等大部分美洲国家以及日本、韩国、菲律宾等亚洲国家均采用这种制式,中国香港的部分电视公司也采用NTSC制式广播,其中两大主要分支是NTSC-US(又名NTSC-U/C)与NTSC-J。

PAL制式,又翻译成帕尔制,全称为逐行倒相(Phase Alternating Line)。这种制式在1967年由当时任职于德律风根(Telefunken)公司的德国人沃尔特·布鲁赫(Walter Bruch)提出,也属于同时顺序制,帧率为25fps,扫描线为625行,隔行扫描,画面比例为4:3,分辨率为720×576。发明PAL的最初目的是克服NTSC制式相位敏感造成色彩失真的缺点,它是在综合NTSC制式的技术成就的基础上研制出来的一种改进方案。所谓逐行倒相,是指每行扫描线的彩色信号与上一行的彩色信号倒相,作用是自动改正在传播中可能出现的相位错误。PAL采用逐行倒相正交平衡调幅技术,对同时传送的两个色差信号中的一个色差信号采用逐行倒相,另一个色差信号进行正交调制。这样,如果在信号传输过程中发生相位失真,则会由于相邻两行信号的相位相反起到互相补偿的作用,从而有效克服了因相位失真而引起的色彩变化。因此,PAL制式对相位失真不敏感,图像彩色误差较小,与黑白电视的兼容也好。英国、中国香港、中国澳门使用的是PAL-I,中国内地使用的是PAL-D,新加坡使用的是PAL B/G或D/K。

SECAM制式,又翻译成塞康制,全称是按顺序传送的彩色与存储(Séquential Couleur Avec Mémoire),是1966年由法国研制成功的,所以它也是用法语命名的,属于同时顺序制,帧率为25fps,扫描线为625行,隔行扫描,画面比例为4:3,分辨率为720×576。在信号传输过程中,亮度信号每行传送,而两个色差信号则逐行依次传送,即用行错开传输时间的办法来避免同时传输时所产生的串色以及由其造成的彩色失真。SECAM制式的特点是不怕干扰,彩色效果好,但兼容性差。采用SECAM制式的国家主要为大部分独联体国家,以及法国、埃及和非洲的其他一些法语系国家等。

目前隔行扫描基本上从电视领域消失了,但是为了让大家对整个制式有个系统的了解,在这里把历史上使用得比较多的制式做一下简要介绍,以防在以后的实际工作中遇到不同的制式时出现问题。

1.6.2 视频图像标准

视频图像的参数主要是由ITU-R来负责制定的,针对不同时期的应用、不同的处理设备和显示设备,ITU-R制定了不同的标准化建议,我们大家所熟知的有面向标清数字电视(SDTV)标准的ITU-R Rec.601、面向高清晰度电视(HDTV)标准的ITU-R Rec.709、主要面向超高清晰度电视(UHDTV)标准的ITU-R Rec.2020以及主要面向3D电视系统的ITU-R Rec.2100等。首先,有的标准有很多名称,例如BT.601、Rec.601、ITU.601等,其实它们都是同一个标准,只是缩写方式不同。文档上的英文是Recommendation ITU-R BT.601,BT代表广播服务(Broadcasting Service),而Recommendation的缩写是Rec,所以才会有上面那么多名字。而且每个标准都是在不停地向前演变的,即使是同一个标准,比如BT.601,主要是面向数字电视的,但是后来又加入了宽屏的数字电视,既包含4:3的纵横比,也包括16:9的纵横比,所以大家不要固守某一个版本的协议,遇到具体问题具体分析即可。

除了负责制定标准的ITU-R,许多行业内的软件和硬件供应商也制定了不同的标准,并得到了广泛应用,具体来看一看最常用的RGB色彩空间模型。

首先是标准红绿蓝色彩空间模型,这是惠普和微软于1996年共同开发的,用于显示器、打印机以及因特网。这种标准得到了许多业界厂商的支持,例如W3C、Exif、英特尔、Pantone、Corel等,目前仍然是Windows操作系统的主流色彩空间模型。

Adobe RGB色彩空间模型是由Adobe Systems公司于1998年开发的,目的是尽可能在基于CMYK色彩模型的彩色印刷中囊括更多颜色。Adobe RGB色彩空间模型主要在青绿(Cyan Green)色系上有所提升。

DCI-P3或DCI/P3是美国电影行业推出的一种广色域标准,也是目前数字电影回放设备的色彩模型标准之一。DCI是数字电影联合的缩写,P表示Protocol,即协议。因为色域较宽,DCI-P3被很多厂家使用,但是应用的领域不同,所以衍生出了多个版本,苹果公司定义了其Display P3版本,而美国电影艺术与科学学院(Academy of Motion Picture Arts and Sciences,AMPAS)则定义了其专业色彩编码系统(Academy Color Encoding System,ACES)版以及其他版本等。

面向不同应用场景的色彩空间模型还在源源不断地涌现,这里不再赘述。对于一些新的色彩空间模型,可以重点看它们跟一些常用的空间模型的差异,这样就能了解其设计的初衷。相比于色彩空间模型,图像分辨率就混乱多了,因为不同的应用定义了适合于自己的分辨率,在早期的版本中主要使用了ITU-T推出的通用媒介格式(Common Intermediate Format,CIF)、ISO旗下的运动图像专家组建议的源输入格式(Source Input Format,SIF),以及电影与电视工程师协会(SMPTE)主要用于数字磁带录像机(Digital Video Tape Recorder,DVTR)的D1等格式,因为具体的分辨率与逐行扫描、隔行扫描以及制式等都有关系,所以表1-2只给出最基本的分辨率对应关系,遇到具体应用时,请大家具体分析。

表1-2 基本分辨率对应关系

数字后面的p代表progressive,表示逐行扫描;而i则代表interactive,表示隔行扫描。也就是说1080p的图像的尺寸是1920×1080,是按照逐行扫描的方式记录的;如果是1080i的话,则表示隔行扫描帧。

1.6.3 视频编解码行业标准

由于视频压缩的重要性,几十年来学术界和工业界都对视频编码技术进行了长期、深入的研究。国际上也一直有专门的标准化组织制定视频编码标准,国际标准化组织/国际电工委员会(ISO/IEC)旗下成立于1986年的运动图像专家组(MPEG)专门负责制定多媒体领域的相关标准,主要包括视频的MPEG系列标准,MP3、AAC等音频标准,以及MP4等容器标准,还有跟多媒体相关的一系列标准等,主要应用于存储、广播电视、因特网或无线网上的流媒体等。国际电信联盟电信标准化部门(ITU-T)旗下的视频编码专家组(Video Coding Experts Groups,VCEG)则主要制定面向实时视频通信领域的视频编码标准,如视频电话、视频会议等应用,主要制定了H.26X系列标准,例如,H.261、H.263、H.263+、H.263++等。

ITU-T的H系列和ISO/IEC的MPEG系列是开源组织在推动的主流的视频编码标准,而VPx系列是Google一家公司在推动的标准,就显得有些另类了。2006年,Google买下了当时全球最大的在线视频网站YouTube。YouTube的系统每天要处理上千万个视频片段,例如,视频上传、分发、展示、浏览服务,所以对于网络视频或者说在线视频的编解码需求非常强烈。与此同时,Google收购了一家专门做编解码标准的公司On2 Technologies,简称“On2科技”。从1992年成立起,On2科技就一直致力于打造基于网络的视频编码标准,并为VP命名,同时还需要规避众多MPEG的专利,也算是剑走偏锋。2010年5月,Google宣布启动了一个新的开放性的媒体项目,致力于开发高质量的所有人都可以免版税使用的开放网络开放媒体格式Web Media,简称WebM。它不仅定义了文件容器结构,还定义了视频和音频格式,视频格式是VP8,而音频是开源的Vorbis格式,文件结构则是基于Matroska容器。VP8视频格式在当时也是号称可以跟H.264/AVC掰一掰手腕的,再后来,又推出了VP9。到了VP10这一代,Google又成立了开放媒体联盟(Alliance for Open Media,AOMedia)来推动其视频标准,随后AOMedia的第一代视频标准——基于VP10技术框架的AV1诞生,其良好的压缩率,特别是免费的特点,引得众多受MPEG专利费困扰的厂商蜂拥跟进,目前的势头很猛!

与此同时,在我国,2002年6月成立的音视频编码工作组(Audio Video Coding Standard,AVS)也是异军突起,主要负责为国内多媒体工业界制定相应的数字音视频编码标准。经过多年的发展,AVS已成功制定了一系列标准并获得应用。2006年2月,AVS国际标准《信息技术先进音视频编码——第二部分》成功颁布。2015年AVS工作组制定了面向超高清视频应用的AVS2标准,并于2016年5月正式成为广播电视行业标准,已广泛应用于数字电视广播等。英特尔GPU目前还没有集成AVS标准。

1.6.3.1 MPEG/JPEG标准

MPEG系列的主要标准包括JPEG、M-JPEG、JPEG2000、H.261、MPEG-1、H.262/MPEG-2、H.263、MPEG-4(Part2/ASP)、H.264/MPEG-4(Part10/AVC)、H.265/MPEG-H(Part2/HEVC)、H.266/VVC、VP8/VP9、AV1、AVS1/AVS2等。而实际上,真正在业界产生较强影响力的标准均是由两个组织合作产生的,比如MPEG-2、H.264/AVC和H.265/HEVC等。

联合图像专家组(Joint Photographic Experts Group,JPEG)是第一个国际图像压缩标准。JPEG算法能够在提供良好的压缩性能的同时具有比较好的重建质量,被广泛应用于图像、视频处理领域。JPEG标准所依据的算法是DCT(离散余弦变换)和可变长编码。JPEG的关键技术有变换编码、量化、差分编码、运动补偿、霍夫曼编码和游程编码等。

M-JPEG(Motion- Join Photographic Experts Group)技术即运动静止图像(或逐帧)压缩技术,是把运动的视频序列作为连续的静止图像来处理。这种方式只针对帧内的空间冗余进行压缩,单独完整地压缩并保存每一帧,不对帧间的时间冗余进行压缩,它的优势是压缩的复杂度比较低,实现难度小,而且很容易对每帧图像进行精确编辑,所以被广泛应用于摄像头以及非线性编辑领域。缺点是压缩比不高,另外,M-JPEG并不是一个完全统一的压缩标准,不同厂家的编解码器和存储方式并没有统一的规定格式,所以对兼容性的影响较大。

MPEG-1标准制定于1993年,主要面向VCD(Video Compact Disk)应用,数据速率在1.5Mbit/s左右;除了音频MP3还在广泛使用此标准外,其他领域已经用得不多了。MPEG-2标准又称为H.262,发布于1995年,主要面向DVD、数字视频广播等应用,适用于1.5~60Mbit/s甚至更高码率,以实现音视频服务与应用互操作的可能性,正式标准规范定义在ISO/IEC 13818中。MPEG-2不是MPEG-1的简单升级,而是在系统和传送方面做了更加详细的规定和进一步的完善,所以特别适用于广播级的数字电视的编码和传送,被认定为标清和高清电视的编码标准。英特尔的GPU支持MPEG-2硬件加速。

MPEG-4(ISO/IEC 14496)于2000年年初正式成为国际标准,主要面向低码率传输的应用。MPEG-4与MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具体压缩算法,它是针对数字电视、交互式绘图应用(影音合成内容)、交互式多媒体等整合及压缩技术需求而制定的国际标准。MPEG-4标准将众多多媒体应用集成在一个完整的框架内,旨在为多媒体通信及应用环境提供标准的算法及工具,从而建立起一种能被多媒体传输、存储、检索等应用领域普遍采用的统一数据格式。

1.6.3.2 ITU-T H.26x系列标准

H.264/MPEG-4(Part10 AVC)是由ISO/IEC与ITU-T组成的联合视频组(Joint Video Team,JVT)制定的新一代视频压缩编码标准。在ISO/IEC中,该标准命名为高级视频编码(Advanced Video Coding,AVC),作为MPEG-4标准的第10个选项,在ITU-T中正式命名为H.264标准。

H.265/HEVC是ITU-T VCEG继H.264之后制定的新的视频编码标准,围绕着现有的视频编码标准H.264/AVC,保留原来的某些技术,同时对一些相关技术加以改进。新技术使用先进的技术来改善码流、编码质量、延时和算法复杂度之间的关系,达到最优化设置。具体的研究内容包括提高压缩效率,提高鲁棒性和错误恢复能力,减少实时的时延,减少信道获取时间和随机接入时延,降低复杂度等。英特尔的GPU支持H.264/AVC和H.265/HEVC的硬件加速。

1.6.3.3 Google VPx/AV1系列标准

VP8编码标准的开发是从2008年9月开始的,2010年,Google以BSD(Berkeley Software Distribution)授权许可发布了VP8编码软件,VP8的比特流格式则是以免费专利使用权发布的。2013年3月,Google与全球技术标准和平台的一站式许可打包方案及供应商MPEG LA达成协议:Google获取VP8可能受影响的专利授权,同时Google也可以再次授权给VP8的用户。VP8同样采用了YUV420采样,每通道8位色深,逐行扫描,图像尺寸最高可达16383×16383像素。

VP9的开发从2011年第三季度开始,2013年,Google发布了WebM格式的更新版本,正式支持VP9和Opus音频。2014年,Google向VP9添加了两个高色彩深度工具集Profile。作为VP8的下一代标准,VP9提供了比VP8更高的压缩比,特别是对高清内容,而且复杂度与压缩比相比增加并不多。

AV1是一种新兴的开源、免版税的视频压缩格式,由开放媒体联盟(AOMedia)于2018年年初联合开发并最终确定。AV1开发的主要目标是在保持实际解码复杂度和硬件可行性的同时,实现比最先进的编解码器更大的压缩增益。AV1开发的重点包括但不限于实现一致的高质量实时视频传输、可扩展到各种带宽的现代设备、可处理的计算占用空间、硬件优化以及商业和非商业内容的灵活性。

1.6.3.4 我国AVS系列标准

AVS系列标准是由中国数字音视频编解码技术标准工作组(Audio Video coding Standard Workgroup of China,AVSWG)面向国内外信息产业需求,联合相关企业和科研机构,制定的数字音视频的压缩、解压缩、处理和表示等共性技术标准。AVS系列标准旨在为数字音视频设备与系统提供高效、经济的编解码技术,服务于高分辨率数字广播、高密度激光数字存储媒体、无线宽带多媒体通信、互联网宽带流媒体等重大信息产业应用。自2002年成立以来,AVS工作组已制定了AVS1、AVS+、AVS2以及AVS3等多代标准。

AVS1标准作为我国第一个国产数字音视频编码标准,属于我国《信息技术先进音视频编码》(国家标准代号GB/T 20090)系列,该系列于2006年2月颁布,压缩效率与同期国际标准MPEG-2基本相当;随后针对广播电视应用需求,AVS工作组继续制定了广电行业标准《广播电视先进音视频编解码第1部分:视频》,该标准于2012年7月获批为GY/T 257.1—2012,并被简称为AVS+标准,目前AVS+已经广泛应用于我国各类数字广播电视领域。

2016年5月,我国第二代针对4K超高清视频内容的高效编码标准AVS2被广电总局正式颁布为行业标准,同年12月获颁国家标准,它在对标H.265/HEVC国际标准的同时具备了监控和视频会议等场景的针对性编码技术。AVS2视频标准全面应用于IPTV和4K超高清行业,解码芯片迅速推向市场,极大助力了我国视频产业的发展。

AVS工作组最新一代标准AVS3于2019年正式发布第一阶段标准,截至目前仍在蓬勃发展。AVS3标准的主要目标是在控制编解码复杂度的基础上进一步实现性能的翻倍提升,不仅能够支持8K超高清视频编码,还能支持VR、流媒体视频等领域的应用,为各种视频应用场景提供高效的解决方案。

AVS3标准在制定过程中采用了分档制定与芯片集成技术协调研发的推进方式,同步全产业链应用开源合作,显著加速了我国超高清产业链的革新和落地,目前已经在技术创新、专利政策和生态建设等方面有全面的布局。