- 相關推薦
小議3D 視頻編碼傳輸技術
1 引言
隨著網(wǎng)絡技術和視頻編解碼技術的進步,視頻和多媒體業(yè)務得到了廣泛的應用。對這類業(yè)務人們不只追求畫面的高清晰度,業(yè)務的實時性,更提出了在二維平面的顯示設備上滿足現(xiàn)實感、臨場感、立體感的要求。這種現(xiàn)實感和立體感正是3D 視頻技術需要解決的問題。
3D 立體感是人眼視覺的重要功能之一,人雙眼的平均瞳距約為65 mm,當兩眼從稍微不同的兩個角度去觀察客觀三維世界的景物時,與觀察者不同距離的景物由于光學投影的原因會在左、右兩眼視網(wǎng)膜上形成不同的位置的像。這種兩眼視網(wǎng)膜上位置差就稱為雙眼視差,它反映了客觀景物的深度。人眼的深度感即立體感就是因為有了這個視差,再經(jīng)大腦加工而形成的,F(xiàn)有的3D 視頻技術正是基于上述原理,通過技術手段還原人們對客觀景物的深度感知從而達到3D 立體的效果。
3D 視頻技術誕生以來便備受關注,然而由于3D 視頻占用大量帶寬并且觀看時容易疲勞等原因,3D 視頻技術一直沒有在市場上引發(fā)大規(guī)模商用,僅僅定位于所謂的利基市場,應用在專業(yè)領域(科學模擬、醫(yī)療)和娛樂領域(立體電影、3D 游戲)。近年來由于大量科研力量的投入,技術上的進步拓展了3D 視頻技術的應用,市場上已經(jīng)出現(xiàn)了3DTV,F(xiàn)VV(freeview TV),3D 會議系統(tǒng)等較為成熟的產(chǎn)品。這些進步使得更為多樣化的3D 視頻系統(tǒng)和業(yè)務應用進入市場成為可能。
不同的 3D 視頻系統(tǒng)有著不同的3D 視頻表現(xiàn)格式,無論哪種表現(xiàn)格式都帶來了大量的數(shù)據(jù)需要進行存儲,傳輸和保護。大量的數(shù)據(jù)對視頻獲取、編碼、傳輸、到3D 視頻顯示的各個處理環(huán)節(jié)都提出了技術挑戰(zhàn)。雖然當前網(wǎng)絡技術已經(jīng)有了很大進步,但是帶寬仍然是很稀缺的資源,尤其在無線傳輸環(huán)境中無線終端的功率有限,高效的數(shù)據(jù)壓縮非常必要。實現(xiàn)高效的數(shù)據(jù)壓縮后的比特流會對信道傳輸條件十分敏感。因此,考慮到3D 視頻系統(tǒng)有效性和可靠性,如何實現(xiàn)對數(shù)據(jù)的高效壓縮編碼,如何保證數(shù)據(jù)的可靠傳輸是我們需要重點關注的問題。本文將結合研究熱點對當前的3D 視頻編碼和傳輸技術做個概括性的介紹和比較,文章最后會對未來3D 視頻技術的發(fā)展做個展望。
2 3D 視頻編碼技術
2.1 傳統(tǒng)立體視頻編碼
傳統(tǒng)立體視頻編碼是目前所知最簡單的3D 視頻表示方法。這種編碼系統(tǒng)通過模擬人雙眼的功能獲取視頻的立體效果。首先將兩部攝像機擺放到稍有差異的位置進行拍攝,兩部攝像機獲取的視頻信息經(jīng)過正交化,色彩糾正等處理步驟后,視頻信號直接由3D 視頻系統(tǒng)播放。播放之前不需要在視頻信號中添加視頻場景的幾何信息,各個攝像機的視頻信號可以獨立進行編解碼。
編碼過程使用時序預測和視頻序列間預測可以大大提高編碼效率, MPEG-2 在10 多年前就對這種方法給出了相應標準,在最新的編碼標準H.264/AVC 中也給出了類似建議。
這種時序預測和視頻序列間預測相結合的方式已經(jīng)成了目前立體視頻編碼的基本原則。
傳統(tǒng)立體視頻的編碼對由兩幅圖像組成組成,由于觀看同一景物時視角稍有差異,兩幅圖像有很大的相關性,因而非常適合壓縮編碼。也就是說,可以把圖像I1 獨立編碼,另一幅圖像P1 通過已編碼的I1 進行預測,這種思想和時序預測編碼非常相似。
由于左右兩個視頻序列3D 場景和相機參數(shù)(焦距)的一致性,對視頻編碼對的兩個圖像(如I1,P1)的編碼,可以采用同一視頻序列中兩個連續(xù)圖像預測和編碼的方法。相應的,兩個圖像(I1,P1)的差異可以當作是由于拍攝物移位而產(chǎn)生的,因此圖像的運動估計和運動補償可以采用差值預測和差值補償?shù)姆椒ā?br />
理想情況下,I1,P1 的差異僅僅是由視角不同引起的,實際應用中我們發(fā)現(xiàn)一些細節(jié)也會帶來兩者的差異。比如,出現(xiàn)在I1 的內容可能沒有在另一幅圖像P1 中出現(xiàn),這種情況出現(xiàn)在I1,P1 之間的概率會大于出現(xiàn)在I1 和B1 之間的概率。兩個攝像機光照條件不同,拍攝物不同角度的反光也能造成圖像差異。這些都是傳統(tǒng)立體視頻編碼需要關注和解決的問題。
實踐表明,兩種預測方法相結合的編碼方式并沒有帶來編碼效率的顯著提高,這主要因為,兩個在時間上連續(xù)的兩個圖像比空間上相鄰的兩個圖像有更大的相關性,因此引入視頻序列間的預測并不能進一步大幅度提高編碼效率。目前傳統(tǒng)立體視頻編碼優(yōu)化朝著多個方向發(fā)展,出現(xiàn)了很多不同的優(yōu)化算法,如優(yōu)化碼率在兩個視頻序列間分配,設計更有效的序列間預測結構等。傳統(tǒng)立體視頻的解碼器也大多基于最新的H.264/AVC,MPEG-4 visual 標準。
傳統(tǒng)立體視頻技術相對其他編碼方法有很多缺陷,由于可再現(xiàn)的3D 場景從拍攝時就已經(jīng)確定了,圖像的深度感覺不能隨著的3D 設備的顯示類型和顯示尺寸做出調整,輸出的視頻角度也不能變化。這些缺點限制了傳統(tǒng)立體視頻技術的應用,在目前尚未形成立體視頻的大眾市場的背景下,還沒有傳統(tǒng)立體視頻技術達到商業(yè)化的水平。
2.2 基于深度信息的視頻編碼(V+D)
傳統(tǒng)立體視頻系統(tǒng)通過模擬人類視覺的二目成像原理獲得深度信息,在基于深度信息的視頻編碼(Video+Depth)系統(tǒng)中,解碼端接收到一個普通的色彩圖像和一個像素深度信息圖后,根據(jù)深度信息圖重新生成立體圖像對。深度信息圖可以看作一個單色的亮度圖像,每個像素的深度數(shù)值被限定在最大值Zmax 和Zmin 之間,數(shù)值的大小代表相應物點到鏡頭的遠近。一般深度值通過8 比特線性量化,即:用255 代表最近點,0 代表最遠點,這樣深度信息圖完全可以視為一個灰度圖像。
由于灰度圖像比較平滑,圖像邊緣比較銳利,大概色彩圖像10%~20%的比特速率就可以完成對灰度信息的編碼。這種V+D 的編碼方式比傳統(tǒng)立體視頻編碼有更高的效率。V+D視頻編碼方式中的色彩圖像可以直接在傳統(tǒng)的2D 顯示設備上播放,具有良好的后向兼容性。
多年來業(yè)界一致認為,對某些3D 視頻業(yè)務(如3DTV)而言,良好的后向兼容性是關系到3D 視頻業(yè)務能否大規(guī)模應用的關鍵。V+D 方式實現(xiàn)了高壓縮率,后向兼容性及更優(yōu)秀的3D視頻顯示功能,是很被看好的3D 視頻編碼方法。
V+D 作為目前3D 視頻編碼的研究熱點,已經(jīng)有了很多成熟的算法。這些算法大都利用了深度信息圖像的特征,有的還考慮到了色彩圖像和深度圖像的相關性等。
V+D 系統(tǒng)最終顯示的3D 視頻是由色彩圖像和深度圖像共同恢復出來的,通過觀察得知,深度圖像質量的小幅下降并不會顯著影響所恢復的3D 視頻質量,因此可以在編碼過程中使用較低分辨率的深度圖像,由于解碼端需要原始分辨率的深度信息圖像,人們提出了所謂的DSUS 算法,即在編碼前對深度信息圖像下采樣,解碼之前進行上采樣,這種DSUS算法比直接用較低分辨率進行編碼取得更好的視頻圖像質量。
由于色彩圖像和深度圖的像是用來描述同一個視頻場景的內容的,色彩圖像包含了顏色表面結構等紋理信息,而深度描述每個像素點相對攝像機的位置。因此有人認為在色彩圖像和深度圖像中的物體運動情況是一致的,可以把色彩圖像的運動矢量運用到深度圖像中,實現(xiàn)色彩和深度圖像共用運動矢量。研究結果證明通過一系列3D 宏塊的匹配算法可以實現(xiàn)碼率的降低,但同時也增加了計算的復雜度,使用這種共用運動矢量的算法,需要在碼率降低和運算復雜度提高之間做個折中。
這種 V+D 的編碼方式在實際應用中也有一定困難,目前存在的最大問題是V+D 視頻的生成質量不高。雖然當前市場上有了可以自動獲取圖像深度的攝像機,但是攝像機獲取圖像深度信息的能力依然非常有限,深度預測算法也有許多改進的空間。考慮到深度預測差值對3D 視頻恢復有很大影響,改進的算法一般都會犧牲編碼效率,因此非常有必要開發(fā)一套完全自動的,準確,可靠的視頻深度獲取系統(tǒng)?梢哉f,提高V+D 視頻的獲取質量是擴大該編碼方式應用范圍的關鍵所在。
2.3 多視角視頻編碼(MVC)
多視角視頻即MVC 用多部攝像機從多個角度拍攝同一場景,傳統(tǒng)立體視頻可以當作多視角視頻中攝像機數(shù)N=2 的特殊情況。每個攝像機獲取的視頻信息進行獨立編碼是最直接的方法,但是由于拍攝的場景一樣,各個視頻間有很大的相關性,引入時序預測和視頻序列間預測能顯著提高編碼效率。
現(xiàn)在有很多算法提出了優(yōu)化的預測結構。目前效率最高的編碼預測結構是H.264/AVC標準支持的分等級的B 幀預測,但這種方法的編碼效果很大程度上依賴視頻圖像的內容特征,攝像距離,幀率等。這種編碼方法的缺點是預測結構復雜,所謂預測結構復雜涉及到計算量,存儲空間,延遲等方面,在編碼過程中需要考慮碼率降低和復雜度升高之間的取舍。
現(xiàn)有的 MVC 編碼還出現(xiàn)了很多新的編碼方法,這些編碼算法的基本思想看可以概括為利用視頻序列間的相關性,提高預測的準確性。如基于圖像景深和差值的預測方法,該方法通過在MVC 編碼中引入景深來提高預測的準確度,光照和色彩補償?shù)姆椒ǹ梢蕴岣進VC不同視頻序列的相關性。目前還出現(xiàn)了分布式的MVC 視頻編碼,利用用戶之間的交互性對視頻進行有效的編碼和傳輸?shù)榷喾N靈活的編碼方式。
MVC 編碼的缺點在于多個視頻序列的控制相對其它編碼方法復雜,如多個視頻序列間的同步控制,不同序列的延時抖動對顯示端的影響。但是MVC 給用戶提供了多視角的視覺享受,MVC 編碼系統(tǒng)與傳統(tǒng)2D 系統(tǒng)相比,對硬件幾乎沒有特殊要求。應用范圍特別廣泛,是很被看好的3D 視頻編碼方法。
2.4 多描述編碼(MDC)
在典型的通信環(huán)境中,壓縮后的3D 視頻數(shù)據(jù)需要在有突發(fā)錯誤的信道中傳輸,高效壓縮后的數(shù)據(jù)會對信道傳輸狀況十分敏感。為此人們提出了所謂的信源信道聯(lián)合編碼的概念,多描述編碼(MDC)就是其中一種應用較為廣泛的信源信道聯(lián)合編碼方式。MDC 首先將原始數(shù)據(jù)分成兩個或者多個可獨立解碼的比特流,每個比特流稱為一個描述,在解碼端接受任何一個描述都可以恢復出質量尚可的原始數(shù)據(jù),接收到的描述越多,恢復出的原始數(shù)據(jù)越好。
達到這個效果的代價是需要在所有的描述中加入一定數(shù)量的冗余信息。
需要特別指明的是,MDC 編碼并不是一種基本的3D 視頻的表現(xiàn)格式,該方法只是為了實現(xiàn)數(shù)據(jù)的可靠性傳輸而使用的編碼手段。單個視頻編碼,基于深度的視頻編碼,多視角視頻都可以使用這個編碼手段來提高視頻數(shù)據(jù)傳輸?shù)目煽啃浴?br />
多描述編碼(MDC)碼流之間相互獨立,且可以與多種編碼方式結合使用,通過不同信道傳輸,因而可以在較高的壓縮效率下增強信號的強壯性和靈活性。因此,MDC 已經(jīng)成為視頻圖像數(shù)據(jù)傳輸?shù)挠行Чぞ。在當前互?lián)網(wǎng),無線網(wǎng)等資源受限的系統(tǒng)中,在多描述編碼做為解決問題的可選方案之一,具有很強的生命力。
3 3D 視頻傳輸技術
3D 視頻業(yè)務的蓬勃發(fā)展給傳輸網(wǎng)絡帶來很大挑戰(zhàn),實時3D 視頻業(yè)務對網(wǎng)絡延時很敏感,立體視頻對不同視頻序列的同步性要求很高。在IP 網(wǎng)或者無線網(wǎng)這樣資源受限的網(wǎng)絡上實現(xiàn)視頻數(shù)據(jù)有效、可靠傳輸,是3D 視頻傳輸技術需要解決的問題。
視頻傳輸?shù)氖д嬷饕怯尚畔G失和信道錯誤引起的,在有線網(wǎng)絡中,擁塞引起的丟包是視頻失真的主要原因,而無線網(wǎng)絡的傳輸失真主要是由帶寬窄和信道干擾大引起的。因此為保證3D 視頻的傳輸質量,現(xiàn)有傳輸技術在IP 網(wǎng)中重點解決丟包問題,無線網(wǎng)中重點關注差錯恢復。
為了防止數(shù)據(jù)在傳輸過程中發(fā)生數(shù)據(jù)丟失,人們提出了所謂的不對稱差錯保護法。這種算法的基本思想是,給3D 視頻中的重要信息編碼時分配更高的比特率,傳輸過程中給予更高的傳輸優(yōu)先級,進行重點保護。例如,在V+D 視頻傳輸過程中,因為色彩圖像包含了絕大部分信息,丟失色彩圖像比丟失深度圖像更讓用戶難以接受,可以給色彩圖像更多的保護,以保證信道條件惡劣的情況下,用戶仍然接收到質量尚可的視頻圖像。該方法也可以用在MDC、MVC 視頻編碼中。
在視頻傳輸過程中,如果發(fā)生丟幀失,可以用差錯隱藏算法降低丟幀對視頻質量的影響,該算法的基本思想是:在視頻序列解碼過程中,如果發(fā)生丟幀或者接收到的某一幀質量太差必須丟掉,可以用一個最近正確解碼的幀,通過運動矢量預測丟掉的幀。為了對丟失幀有更好的預測效果,一些更為復雜的預測方法還會綜合空間時間和頻譜域特點對運動矢量進行糾正。
傳統(tǒng) IP 網(wǎng)上的信息傳遞采用單播和廣播的方式,兩種傳播方式有效性低且缺乏QoS 保證,廣播方式還會讓用戶被動接收無用信息或者接收到未經(jīng)授權的信息,尤其在存在路由環(huán)路時還可能引起廣播風暴。組播技術有效彌補單播和廣播的缺陷,被認為是解決3D 視頻傳輸?shù)挠行Ы鉀Q方案。
在傳送組播數(shù)據(jù)時,路由器需要構造一個連接所有組播組成員的樹。根據(jù)這個樹,路由器得出轉發(fā)分組的一條唯一路徑,這個樹就是分布樹。根據(jù)構造方法的不同,分布樹分為源分布樹和共享分布樹。源分布樹以組播源為根節(jié)點構造到所有組播組成員的生成樹。共享分布樹的構造方法是以網(wǎng)絡中的某特定路由器為根節(jié)點,由此根節(jié)點生成包含所有組成員的樹。使用共享分布樹時,組播源需要先把組播分組發(fā)送給集合點路由器,再由這個路由器轉發(fā)給其他的組成員。由于成員可以動態(tài)地加入和退出,分布樹也必須動態(tài)更新。動態(tài)分布樹的實現(xiàn)是組播技術的一個難點,目前已經(jīng)有了很多比較成熟的分布樹生成算法,這些分布樹基本實現(xiàn)了如下功能:能夠提供靜態(tài)預先計算功能,樹的結構是集中化的,分布樹有自管功能,能夠根據(jù)網(wǎng)絡性能進行調整。
現(xiàn)有組播技術根據(jù)組播分組的構建方法不同可分為IP 組播和覆蓋組播,IP 組播假定每組有唯一確定的組地址,其他主機可以通過向該地址發(fā)消息而把信息傳遞給所有組成員。IP組播技術需要網(wǎng)絡中所有的路由節(jié)點都具有組播功能,而現(xiàn)實網(wǎng)絡中只有部分路由節(jié)點具有組播功能,因此IP 組播技術目前不能大范圍應用到實際網(wǎng)絡中。覆蓋組播技術把網(wǎng)絡中具有組播功能的節(jié)點集看作組播覆蓋網(wǎng)絡,在其上構建“核心”組播數(shù)據(jù)分發(fā)樹,組成員以某種規(guī)則接入“核心”組播樹,從而實現(xiàn)組播功能。比較而言,IP 組播效率較高而覆蓋組播更為靈活。
組播技術在應用中顯現(xiàn)出了很大的優(yōu)勢。組播技術可以通過建立合理的動態(tài)路由防止網(wǎng)絡擁塞,通過增加路由器的復制能力,防止同樣的數(shù)據(jù)包在線路上重復傳送。現(xiàn)在有了很多很成熟的算法優(yōu)化組播傳送路由,有的算法還做到了傳播路由隨網(wǎng)絡性能調整,傳送的視頻包大小根據(jù)可用帶寬調整。
組播技術被認為是傳播視頻數(shù)據(jù)業(yè)務最好的方案, IP 組播的所有路由器都需要記錄每個數(shù)據(jù)流的狀態(tài),而覆蓋組播的各個分組之間不能共享底層信息,在傳播過程中需要考慮帶寬限制,連接限制和分組動態(tài)。這些問題是目前網(wǎng)絡傳輸技術研究的熱點,尤其利用MDC方式所提供的編碼傳輸間的多個接口的研究方向,已經(jīng)有了很成熟的解決方案。另一個研究方向就是根據(jù)應用端點和途徑節(jié)點的重要性,找到算法合理分配上行帶寬。覆蓋組播的途徑節(jié)點模式是另一個研究方向,這個模式需要重點解決的問題是途經(jīng)節(jié)點的管理,哪些節(jié)點何時加入組播分組,何時離開組播分組。
4 結論
本文著重介紹了三種基本的3D 視頻表現(xiàn)格式,實際應用中的3D 視頻編碼格式非常豐富,新的編碼方法不斷涌現(xiàn),多種編碼方式有互相結合的趨勢,如在MDC 中的每個描述可以是一個V+D,也可以是MVC 的一個視頻序列,甚至在MVC 的每個視頻序列都可以是V+D 的表現(xiàn)格式。由于組播技術絕對優(yōu)勢,組播傳輸是未來3D 視頻傳輸?shù)淖钣袧摿Φ慕鉀Q方案,結合組播特點和3D 視頻業(yè)務的需求,是未來3D 視頻業(yè)務發(fā)展需要重點關注的問題。
【小議3D 視頻編碼傳輸技術】相關文章:
基于數(shù)據(jù)分割和可逆變長編碼的數(shù)字視頻傳輸差錯復原技術12-07
視頻壓縮編碼的差錯復原技術03-21
視頻監(jiān)控系統(tǒng)―視頻捕獲和傳輸模塊VC++03-08
基于DIRECTSHOW技術的MPEG4編碼IP視頻監(jiān)控系統(tǒng)的設計03-07
基于ADSL傳輸?shù)木W(wǎng)絡視頻應用系統(tǒng)03-18
Video Object編碼技術01-07
剖析 MPEG-2 視頻編碼器03-18
數(shù)字視頻信號的長線傳輸03-18