近十年來,視頻編解碼技術不斷的進步,依 McCann 定律所指的規(guī)律,壓縮率平均每年會以 15%的速率增加,尤其近年的發(fā)展更是迅速,并引起業(yè)界及其相關行業(yè)的廣泛重視。本文主要介紹在進入二十一世紀前后,視頻編解碼標準方面已經取得的成績,目前讓各界震驚的新視頻編解碼技術與標準,以及預估未來壓縮技術可能的發(fā)展趨勢,供讀者參考。
文/董春利
在互聯網日新月異發(fā)展的今天,異質網絡日益進入和影響人們的日常生活和工作,影音多媒體等相關產業(yè)受到各界重視,尤其是像手機及數字相機等的手持式裝置加入了影音功能之后又進入網絡的互聯,更加促使人們研究如何將影音的壓縮與傳輸做到更快更好。
2007年全球彩色手機占全部手機市場份額的92.3%,其中內建相機模塊的約占71.5%。預估2008年彩色手機將占98.1%,其中內建相機模塊將占88.7%。這個趨勢說明了影音多媒體應用已成為手機服務的主流。為了促進消費者能夠使用更多高質量之影音應用服務,無論是手機大廠或是電信業(yè)者都希望隨著第三代手機的來臨,能夠進一步提供消費者高質量的影音服務。
因此,如何能夠將數字影音信號有效地壓縮并傳送,是設計影音多媒體相關產品所需重視的問題。我們知道影音數據量非常龐大,例如,以大約320×240大小的分辨率,24位/像素,每秒30幀的形式傳輸時,其數據量高達 56 M bit/s。而以這個速率保存的1分鐘未壓縮影像將占用 3.3G bit的儲存空間,顯然這樣的要求即便對千兆網的帶寬也是難以接受的。
對于現有的無線網絡和窄帶頻寬來說更是難以接受。尤其運用在手機、可視電話等上,頻寬仍過于狹窄,接收質量不佳,所以想要在手機上傳輸高畫質視頻,需要有更好的壓縮技術。
成熟的視頻編解碼技術標準
MPEG系列視頻編解碼技術標準
MPEG的全稱是“Motion Picture Expert Group”(運動圖像專家組),隸屬于國際標準化組織ISO/IEC的一個專家工作組,主要負責為數字音視頻編碼算法開發(fā)和制定標準。
該組織始建于1988年,并于1992年制定出MPEG-1標準,它是將視頻數據壓縮成1-2Mb/s的標準數據流,工業(yè)產品VCD機和MP3播放器都是以該標準為基礎衍生出來的。
隨后的1994年,制定出MPEG-2標準,它是為了獲得更高的分辨率(720×486),提供廣播級視頻和CD品質的音頻而產生的高質量音視頻編碼標準,傳輸速率在3-10Mbit/s之間,它也是數字電視、DVB和DVD所遵循的壓縮標準。
隨著研究工作的深入發(fā)展,又公布了“超低比特率活動圖像和語音壓縮標準”,排序MPEG-4,它是一種新型的多媒體標準,與前標準一個重要區(qū)別就在于它是一個基于對象的視頻編碼壓縮標準,它所定義的碼率控制的目標就是獲得在給定碼率下的最優(yōu)質量,它為互聯網上傳輸高質量的多媒體視頻提供了很好的技術平臺。
MPEG-1視頻編解碼技術標準
MPEG-1為數字存儲媒體的視頻和伴音編碼(Coding of moving pictures and associated audio for digital storage media)。它是低分辨率的數字視頻編碼標準,1992年11月成為國際標準ISO/IEC 11172。標準名稱為“信息技術—用于數據速率約1.5Mbit/s的數字存儲媒體的視頻和伴音編碼”。
MPEG-1廣泛的應用在VCD的制作和一些視頻片段下載的網絡應用上面,可以說99%的VCD都是用MPEG1格式壓縮的。MPEG-1的像質等同于VHS,存儲媒體為CD-ROM,圖像尺寸為320×240,音質等同于CD。壓縮后的輸出速率定義在1.5 Mbit/s以下。這個標準主要是針對當時具有這種數據傳輸率的CD-ROM和網絡而開發(fā)的,用于在CD-ROM上存儲數字影視(即VCD)和在網絡上傳輸數字影視。
MPEG-2視頻編解碼技術標準
MPEG-2為運動圖像和伴音信息的通用編碼(Generic coding of moving pictures and associated audio information ),為高分辨率數字視頻編碼標準,1994年11月成為國際標準ISO/IEC 13818。
MPEG-2主要應用在 DVD 的制作(壓縮)方面,同時在一些 HDTV(高清晰電視廣播)和一些高要求視頻編輯、處理上面也有相當多的應用。
MPEG-2與MPEG-1的區(qū)別在于:
·除了對幀(frame)進行搜索,還對場(field)進行搜索;
·色度格式還可為4:2:2、4:4:4;
·幀尺寸最大可為16383×16383;
·可分級(Scalable):時域(Temporal)等等;
·非線性MB量化因子。
此間,MPEG組曾經起草過MPEG-3,原本針對于HDTV(1920×1080),后來被MPEG-2代替。
MPEG-4視頻編解碼技術標準
MPEG-1主要是為VCD設計的,MPEG-2最初是為HDTV設計的,后來也用于DVD。但是它們都不太適合于網絡傳輸,特別是在低碼率和異構網絡環(huán)境下的音視頻信號通信。MPEG-4的目標就是為視聽(audio-visual)數據的編碼和交互播放開發(fā)算法和工具,最初是一個數據速率很低的多媒體通信標準,后來的目標是要在異構網絡環(huán)境下能夠高度可靠地工作(傳輸的碼率可變、圖像的分辨率可變、畫面的內容可選),并且具有很強的交互功能。
為了達到低碼率的目標,必須大幅度提高視頻數據的壓縮比,而MPEG-1/2所采用的基于像象素的的壓縮方法,在壓縮40到50倍后就幾乎達到算法的極限,必須另辟蹊徑。
為此,MPEG-4引入了基于對象表達(object-based representation)的概念,用來表達視聽對象(audio/visual objects,AVO);MPEG-4擴充了編碼的數據類型,由自然數據對象擴展到計算機生成的合成數據對象,采用合成對象/自然對象混合編碼(Synthetic/ Natural Hybrid Coding,SNHC)算法;在實現交互功能和重用對象中引入了組合、合成和編排等重要概念。MPEG-4系統(tǒng)結構示意如圖1所示。MPEG-4接收端的構造部件如圖3所示。
MPEG-4中制定了一個稱為傳輸多媒體集成框架(Delivery Multimedia Integration Framework,DMIF)的會話協(xié)議,它用來管理多媒體數據流。該協(xié)議在原則上與文件傳輸協(xié)議FTP(File Transfer Protocol)類似,其差別是:FTP返回的是數據,而DMIF返回的是指向到何處獲取數據流的指針。DMIF覆蓋了三種主要技術:廣播技術,交互網絡技術和光盤技術,如圖2所示。
MPEG-4為視聽對象編碼(Coding of audio-visual objects),是針對多媒體應用的圖像編碼標準。1999年1月成為國際標準ISO/IEC DIS 14496-1。
MPEG-4是分辨率可變的視聽對象編碼標準,使用的是一種新的壓縮算法,使用這種算法的 ASF 格式可以把一部 120 分鐘長的電影(未視頻文件)壓縮到 300M 左右的視頻流,可供在網上觀看。其它的 DivX 格式也可以壓縮到 600M 左右,但其圖像質量比 ASF 要好很多。
MPEG-4將應用在移動通信和公用電話交換網(public switched telephone network,PSTN)上,并支持可視電話(videophone)、電視郵件(video mail)、電子報紙(electronic newspapers)和其他低數據傳輸速率場合下的應用,如電視會議、網絡流媒體、移動視頻通信、IPTV等流媒體方面。
·編碼:視音頻對象、分塊/分級/分層、基于內容和對象的編碼;
·格式:支持各種不同的分辨率;
·音頻:支持多種碼率2-64kb/s。
MPEG-7視頻編解碼技術標準
MPEG-7為多媒體內容描述接口(Multimedia content description interface),是基于內容表示的多媒體內容描述標準。2001年9月成為國際標準ISO/IEC 15938-1。
目的是制定一套描述符標準,用來描述各種類型的多媒體信息及它們之間的關系,以便更快更有效地檢索信息。這些媒體材料可包括靜態(tài)圖像、圖形、3D模型、聲音、話音、電視以及在多媒體演示中它們之間的組合關系。在某些情況下,數據類型還可包括面部特性和個人特性的表達。
MPEG-7致力于視聽數據信息編碼的表達(表達內容的信息,而不是內容本身)。這一點與目標集中在視頻/音頻數據的壓縮與編碼的MPEG-1/2/4不同,MPEG-7所表達的不是內容/信息本身,而是表示信息的信息。
MPEG-7聚焦于多媒體材料的通用接口的標準化,關注數據資源的交互性與全球化、數據管理的靈活性。MPEG-7只關心描述本身,而將描述的生成、特征的提取、索引的處理等都排除在標準之外。
MPEG-7提供了可視內容的標準結構和聯接機制、以及對可視內容表述的標準化,為實現基于內容的檢索提供了應用框架,并使對多媒體數據的創(chuàng)建、交換、檢索和重用更加有效。
MPEG-21視頻編解碼技術標準
由于多媒體標準層出不窮,但各個標準之間還存在缺漏,不能真正做到配套銜接,還需要一個綜合性標準來協(xié)調;隨著網絡技術和應用的發(fā)展,基于多媒體的電子商務需要一個其結構可以理解的共享模式——多媒體框架的支持。
有鑒于此,MPEG于1996年10月提出制定多媒體框架標準的設想,2000年6月正式批準制定MPEG-21標準的計劃。MPEG-21又叫多媒體框架(ISO/IEC TR 21000-1:2001 Information technology -- Multimedia framework (MPEG-21)),2001年12月成為標準,功能是多媒體框架標準,基于多媒體的電子商務需要發(fā)展的共享模式,應用于不同多媒體系統(tǒng)的集成和應用。
H.26X系列視頻編解碼技術標準
ITU-T國際電信同盟-電信標準化部門(International Telecommunications Union - Telecommunication Standardization Sector)及其前身國際無線電咨詢委員會CCIR(International Radio Consultative Committee)制定了一系列音視頻壓縮編碼和通信技術標準。其中的ITU-T H.26x是與MPEG類似的視頻編碼系列標準,參見表1。
H.261視頻編解碼技術標準
H.261—P×64kb/s碼率音像服務的視頻編碼(Video codec for audiovisual services at p x 64 kbit/s),1993年3月制定,為可視電話與視頻會議的編碼標準。
采用的格式為:
·CIF格式:288×360;
·QCIF格式:144×180、29.97幀/秒;
·其編碼為:DCT + 運動補償 + 視覺加權量化 + 熵編碼。
H.262視頻編解碼技術標準
H.262—運動圖像和伴音信息的通用編碼(Information technology - Generic coding of moving pictures and associated audio information: Video),1995年7月通過,與MPEG-2共同作為ISO/IEC 13818標準(HDTV、DVD)
·格式為:25或29.97幀/秒;
·主—720×480或576;
·編碼:同H.261。
H.263視頻編解碼技術標準
H.263—低比特率通信的視頻編碼(Video coding for low bit rate communication),1998年2月制定,為低比特率/可變比特率視頻編碼標準(PSTN網、無線網、因特網)
格式為:
·CIF與QCIF格式同H.261;
·Sub-QCIF格式:128×96;
·4CIF格式:704×576;
·16CIF格式:1408×1152;
·編碼:H.261+ 非限制運動矢量模式 + 基于語法的算術編碼 + 高級預測 + PB幀。
H.264視頻編解碼技術標準
H.264—針對通用音視頻服務的先進[高級]視頻編碼(Advanced video coding for generic audiovisual services),2003年5月批準,H.264是由ISO/IEC的MPEG與ITU-T的VCEG(Video Coding Experts Group視頻編碼專家組)聯合組成的JVT(Joint Video Team聯合視頻組)共同制定的,MPEG的對應標準為MPEG-4的第10部分MPEG-4/AVC。
格式:同H.263
編碼:采用先進視頻編碼(AVC)= H.263 + 多參考幀和變塊尺寸運動補償 + 1/4像素精度的運動估值 + 基于上下文的二元算數和變長編碼 + 冗余條帶 + 補充增強信息和視頻可用信息 + 輔助圖層 + 圖像順序計數 + 柔性宏塊 + 排序 + 整數DCT變換 + 分層編碼 + 錯誤約束機制 + 錯誤掩蓋技術 + 高效比特流切換技術。
通過引入多種先進的編碼技術,使得H.264(MPEG-4/AVC)編碼的碼率只有H.263(MPEG-4)的一半。當然,提高壓縮比的代價,是同時也增加了編解碼的復雜性。一般情況下,編碼難度增加了2倍,解碼難度增加了1倍。
與MPEG標準主要用于光存儲、廣播和流媒體不同,H.26x標準主要用于網絡和通信。除了視頻編碼標準本身之外,H.26x還有配套的系統(tǒng)、音頻、控制等相關標準。參見表2和圖4。
(未完待續(xù))