- 相關(guān)推薦
體育視頻的內(nèi)容標(biāo)注和解析技術(shù)研究
這篇體育視頻的內(nèi)容標(biāo)注和解析技術(shù)研究的關(guān)鍵詞是內(nèi)容,研究,體育,技術(shù),視頻,一,開展本課題研究的意義
近年來,數(shù)字視頻的應(yīng)用日趨廣泛.諸如視頻點(diǎn)播,數(shù)字電視,數(shù)字圖書館,視頻會(huì)議,遠(yuǎn)程教育等等,已經(jīng)為越來越多的人所接受和熟悉.面對大量涌現(xiàn)的視頻數(shù)據(jù),如何找到所需的視頻信息就成為一個(gè)急需解決的問題.
簡單的視頻名查詢和類似錄像機(jī)的播放功能已不能滿足人們的需要.正如一本書通常會(huì)有目錄和索引幫助人們迅速瀏覽和查詢內(nèi)容,一部視頻同樣需要有效的目錄和索引.傳統(tǒng)的方法需要由人對視頻內(nèi)容進(jìn)行標(biāo)注,十分費(fèi)時(shí)費(fèi)力.尤其是當(dāng)視頻資源的數(shù)量達(dá)到海量級,或是處理的速度要求接近實(shí)時(shí)的時(shí)候,完全采用人工的方法都會(huì)遇到難以克服的困難.為了解決這一問題,九十年代以來,出現(xiàn)了基于內(nèi)容的視頻分析和檢索[1][2][3].其核心就是通過對視頻內(nèi)容進(jìn)行計(jì)算機(jī)分析理解,建立結(jié)構(gòu)和語義索引,以方便用戶檢索.
巨大的商業(yè)前景和重要的學(xué)術(shù)價(jià)值,吸引了來自于業(yè)界和學(xué)術(shù)界不同領(lǐng)域的研究人員在這一問題上開展研究.一些原型系統(tǒng)先后被提出,主要有IBM的QBIC/CueVideo[4][5],Virage公司的Video Engine[6],卡內(nèi)基梅隆大學(xué)的Informedia[7],哥倫比亞大學(xué)的VideoQ[8]等.這些努力最終促成了國際標(biāo)準(zhǔn)——MPEG-7(多媒體內(nèi)容描述接口)的誕生.但是隨著問題的深入,研究人員面臨了更大的障礙:視覺/聽覺內(nèi)容的機(jī)器理解,即難以建立底層特征與高層語義的聯(lián)系.同樣的難題困擾了人工智能領(lǐng)域多年.一般認(rèn)為,尋找通用的解決方法是異常艱難的.因此,一些研究轉(zhuǎn)而專注于解決特定領(lǐng)域的應(yīng)用問題,如新聞,電影等.在這些特定領(lǐng)域,結(jié)合相應(yīng)的領(lǐng)域知識(shí),是可能將底層特征與高層語義建立某種聯(lián)系的.
體育視頻,即體育比賽的電視轉(zhuǎn)播,作為一個(gè)重要的應(yīng)用領(lǐng)域,一直備受關(guān)注.體育比賽一般很漫長,但對于大多數(shù)觀眾來說,真正關(guān)心并有可能反復(fù)觀看的只是其中的一小部分.例如一場跳水比賽常常需要持續(xù)幾個(gè)小時(shí),而其中的精彩部分——運(yùn)動(dòng)員從起跳到入水的過程卻只有短短幾分鐘.人們需要一種方便快捷的手段來訪問體育視頻的內(nèi)容.
與其他視頻相比,體育視頻具有自己的特點(diǎn).首先,體育視頻中存在一些領(lǐng)域相關(guān)的語義事件,如跳水比賽中運(yùn)動(dòng)員的跳水,足球比賽中的射門等.這些語義事件往往是視頻中最有價(jià)值的部分,需要進(jìn)行標(biāo)注以便于檢索.其次,體育比賽一般有較強(qiáng)的結(jié)構(gòu)性,如跳水比賽由若干輪組成,每輪又由若干選手組成等.為了便于對視頻內(nèi)容的瀏覽,原始的視頻數(shù)據(jù)應(yīng)按這些結(jié)構(gòu)進(jìn)行解析并組織成層次目錄.本課題的目標(biāo)就是研究針對體育視頻內(nèi)容的語義標(biāo)注和結(jié)構(gòu)解析技術(shù).
盡管限于當(dāng)前的技術(shù)水平,完全自動(dòng)的,通用的視頻內(nèi)容理解是不太可能的,但是本課題的研究將證明部分的解決是有可能的和有價(jià)值的,此外我們的研究也將為最終的全面解決奠定基礎(chǔ).除了學(xué)術(shù)上的意義,本課題的研究還可以有以下一些直接的應(yīng)用:
1,視頻資料庫:適用于各類體育專業(yè)人士或愛好者對收集的體育比賽視頻資料進(jìn)行查詢,瀏覽和管理.目前,我們已申請到國家體育總局的科研項(xiàng)目——跳水訓(xùn)練圖像分析軟件系統(tǒng)研制.通過對跳水比賽視頻的內(nèi)容標(biāo)注與解析,能夠方便快捷的實(shí)現(xiàn)一個(gè)典型動(dòng)作的視頻數(shù)據(jù)庫.
2,Web多媒體發(fā)布:適用于新聞或者體育網(wǎng)站在Web上及時(shí)發(fā)布體育多媒體信息.今天,已經(jīng)有越來越多人的習(xí)慣于從網(wǎng)上獲取最新的資訊.基于我們的技術(shù),可以在第一時(shí)間采編和發(fā)布綜合圖文和視音頻在內(nèi)的體育多媒體信息.
3,個(gè)人移動(dòng)業(yè)務(wù):適用于無線服務(wù)提供商為個(gè)人提供定制的多媒體消息服務(wù)(Multimedia Message Service,簡稱MMS).我們的內(nèi)容標(biāo)注和解析技術(shù),可以為冗長的體育視頻生成摘要,從而可以根據(jù)用戶的個(gè)人喜好和終端能力,向移動(dòng)設(shè)備發(fā)送體育多媒體消息.
二,國內(nèi)外研究現(xiàn)狀分析
國際上對于體育視頻的研究是從90年代中期開始的,屬于視頻檢索領(lǐng)域的一個(gè)子課題.與新聞視頻領(lǐng)域取得的成功相比[9][10][11],體育視頻的研究相對較少也更為困難.這主要是因?yàn)樾侣勔曨l有一個(gè)基本一致的時(shí)域結(jié)構(gòu)和場景語義,即先是播音員鏡頭,然后是新聞報(bào)道,最后再回到播音員鏡頭進(jìn)行下面的新聞報(bào)道,而對于體育視頻則不存在這樣統(tǒng)一的結(jié)構(gòu)和語義.目前體育視頻的研究尚處于初期探索階段,對于其過程和方法還沒有統(tǒng)一的結(jié)論,也還沒有可以投入實(shí)用的系統(tǒng).
1,鏡頭檢測
通常在對體育視頻進(jìn)行分析前,需要將其分割成鏡頭.所謂鏡頭,是指攝像機(jī)不間斷拍攝的一組幀序列,它常被看成一部視頻的最小結(jié)構(gòu)單元.為了將鏡頭分割出來,需要進(jìn)行鏡頭邊界檢測.鏡頭與鏡頭之間的邊界有兩種類型:突變和漸變.突變時(shí),鏡頭直接切換到下一個(gè);漸變時(shí),從一個(gè)鏡頭到下一個(gè)鏡頭會(huì)有一個(gè)持續(xù)多幀的變化過程,常見的主要有淡出淡入(fade out and fade in),溶解(dissolve),擦變(wipe)等.淡出淡入是指視頻幀逐漸隱去直到完全黑屏,再逐漸顯現(xiàn)后一鏡頭的幀圖像.溶解是指在前一鏡頭幀圖像逐漸模糊的同時(shí),后一鏡頭的幀逐漸增強(qiáng),并且產(chǎn)生前后幀圖像的重疊.擦變表現(xiàn)為后一鏡頭幀圖像的區(qū)域逐漸變大把前一鏡頭的圖像擦掉.
鏡頭檢測的關(guān)鍵問題是如何區(qū)分鏡頭之間的切換和因?yàn)閿z像機(jī)或物體運(yùn)動(dòng)造成的鏡頭內(nèi)變化.由于這個(gè)原因,漸變比突變更難以檢測.早期的工作主要在突變檢測,近來更多的研究集中到對漸變的分析.
鏡頭檢測的方法可以分為兩類:非壓縮域的和壓縮域的.在[12][13]中,對各種非壓縮域的鏡頭檢測算法進(jìn)行了實(shí)驗(yàn)評價(jià).與非壓縮域的方法相比,基于壓縮域的方法不需要對視頻編碼流進(jìn)行解碼,而是直接使用如DCT系數(shù),運(yùn)動(dòng)矢量,宏塊(macroblock)信息等壓縮域特征進(jìn)行分析,從而提高了處理速度[14][15][16][17].今天大量的視頻數(shù)據(jù)是以壓縮格式(如MPEG)存儲(chǔ)的,因此基于壓縮域的方法往往具有更大的實(shí)用價(jià)值.
2,語義標(biāo)注
所謂語義標(biāo)注,是指對體育視頻中的語義事件進(jìn)行檢測和標(biāo)注,其實(shí)質(zhì)就是依據(jù)事先定義好的類別對視頻片段進(jìn)行識(shí)別.當(dāng)前,國內(nèi)外對體育視頻研究實(shí)際上主要集中在這個(gè)方面,下面介紹一下相關(guān)工作.
Y. Gong等首先提出了對足球比賽視頻的分析[18].他們結(jié)合足球比賽的領(lǐng)域知識(shí),通過場地白線識(shí)別,攝像機(jī)運(yùn)動(dòng)檢測,足球和運(yùn)動(dòng)員檢測等分析,對視頻內(nèi)容進(jìn)行推斷,包括處在球場什么位置,射門,角球等.例如,如果場景接近球門區(qū)域而且足球有一個(gè)向球門的運(yùn)動(dòng),則可以推斷這是一個(gè)射門.實(shí)驗(yàn)結(jié)果表明,系統(tǒng)對于球場位置的識(shí)別較為準(zhǔn)確,達(dá)到90%,但是射門和角球的識(shí)別率只有53%,這主要是因?yàn)楦咚龠\(yùn)動(dòng)和遮擋關(guān)系,使得足球的檢測較為困難.
哥倫比亞大學(xué)的Peng Xu等觀察到足球比賽可以劃分為兩種狀態(tài):進(jìn)行和暫停(如因?yàn)榍蛟诮缤饣虿门袝憾ū荣?.他們開發(fā)了一個(gè)能夠檢測視頻中的足球比賽是在進(jìn)行還是暫停的系統(tǒng)[19].該系統(tǒng)對足球視頻分析分為兩步.首先,根據(jù)顏色分析得出每一幀中的草地顏色比率,使用這個(gè)特征將幀標(biāo)注為三種:全景(globe view),近景(zoom-in view)和特寫(close-up view).在檢測的時(shí)候,算法可以對草色和分類決策進(jìn)行學(xué)習(xí)和自動(dòng)調(diào)整.接著,在對視頻幀進(jìn)行上述分類標(biāo)記后,根據(jù)經(jīng)驗(yàn)總結(jié)的規(guī)則(如全景一般是比賽進(jìn)行,特寫一般是比賽中斷等)判斷比賽是在進(jìn)行還是暫停了.實(shí)驗(yàn)使用了四段來自不同足球比賽的五分鐘片斷,檢測準(zhǔn)確率最好達(dá)到86.5%,最壞只有67.3%.
在另一篇文章里,他們使用了基于隱馬爾科夫模型(HMM)的統(tǒng)計(jì)方法[20].根據(jù)足球視頻的特點(diǎn),選擇主色比率(dominant-color ratio)和運(yùn)動(dòng)強(qiáng)度(motion intensity)為提取特征.他們?yōu)檫M(jìn)行和暫停分別建立了各自的隱馬爾科夫模型組,依據(jù)最大的可能性對足球視頻進(jìn)行標(biāo)注.與基于規(guī)則的方法相比,這種方法不需要去直接建立復(fù)雜的分類規(guī)則和確定閾值,而是通過訓(xùn)練樣本自動(dòng)學(xué)習(xí).實(shí)驗(yàn)結(jié)果表明該方法較為有效而且表現(xiàn)穩(wěn)定,對不同的測試集準(zhǔn)確率都在80%以上,平均準(zhǔn)確率達(dá)到83.5%.
清華大學(xué)的Ming Luo等也以足球?yàn)槔岢隽艘粋(gè)體育視頻分析系統(tǒng)[21].他們的系統(tǒng)根據(jù)關(guān)鍵幀中場地顏色的比率和物體的大小,將鏡頭分類為遠(yuǎn)鏡頭和近鏡頭.此外,對于遠(yuǎn)鏡頭,他們觀察到在射門或長傳時(shí),快速的攝像機(jī)運(yùn)動(dòng)通常會(huì)使圖像模糊,從而提出根據(jù)幀圖像的模糊度(blur extent)來檢測足球比賽中的這些事件.實(shí)驗(yàn)結(jié)果表明算法對射門和長傳事件檢測的查準(zhǔn)率為89.3%,查全率為97.2%.
Drew D. Saur等人使用直接基于MPEG壓縮域的特征,實(shí)現(xiàn)了對籃球視頻內(nèi)容的自動(dòng)分析和標(biāo)注[22].算法首先進(jìn)行基于壓縮域DC圖的鏡頭分割,然后對每個(gè)P幀統(tǒng)計(jì)其中運(yùn)動(dòng)矢量的大小,考慮特寫(close-up)鏡頭比廣角(wide-angle)鏡頭一般變化更激烈,將視頻劃分為廣角鏡頭和特寫鏡頭.對于廣角鏡頭,進(jìn)一步分析其中的攝像機(jī)運(yùn)動(dòng),來標(biāo)注特定的視頻內(nèi)容,如搶斷,快攻,可能的投籃等.
微軟研究院的Y. Rui等人提出一種依據(jù)計(jì)算量較小的音頻特征來檢測棒球比賽中精彩事件的方法,適用于計(jì)算能力有限的環(huán)境[23].他們的算法首先是基于機(jī)器學(xué)習(xí)的解說員激動(dòng)語音識(shí)別和棒球擊打聲檢測,然后將這兩者進(jìn)行概率混合來推斷最終的精彩片斷.與人工標(biāo)注的精彩片斷進(jìn)行對比,實(shí)驗(yàn)表明他們的算法能夠達(dá)到75%的準(zhǔn)確率.
同樣對于棒球,Dongqing Zhang等通過對比賽中比分和狀態(tài)的字幕顯示進(jìn)行檢測和識(shí)別來分析語義事件的發(fā)生[24][25],如觸壘得分和最后一投(投手被罰出局).他們使用視頻文本檢測和識(shí)別技術(shù)分析比賽中的字幕信息.識(shí)別結(jié)果再進(jìn)一步利用領(lǐng)域知識(shí)模型來提高準(zhǔn)確度.
B. Li和M. I. Sezan對美式橄欖球比賽的電視轉(zhuǎn)播進(jìn)行了分析[26].為了濾除比賽視頻中死球的時(shí)間,生成更為緊湊的摘要,他們將比賽片斷定義為表現(xiàn)球在運(yùn)動(dòng)的視頻片斷,并提出了兩種檢測方法:確定的基于規(guī)則方法和概率的基于統(tǒng)計(jì)的方法.基于規(guī)則的方法,分析了場地顏色,場地標(biāo)線,攝像機(jī)運(yùn)動(dòng)和運(yùn)動(dòng)員衣服顏色等,然后根據(jù)經(jīng)驗(yàn)總結(jié)的規(guī)則,對視頻內(nèi)容進(jìn)行判斷.基于統(tǒng)計(jì)的方法,使用HMM推斷視頻中的比賽片斷,實(shí)驗(yàn)表明這種方法也是很有效的.兩者相比,前者易于實(shí)現(xiàn)和計(jì)算,但是需要制定推導(dǎo)規(guī)則,而后者則具有一定的學(xué)習(xí)能力避免了直接設(shè)定閾值的困難.
在體育比賽轉(zhuǎn)播的時(shí)候,通常會(huì)在精彩事件之后及時(shí)穿插重放慢鏡頭,這方面也吸引了許多研究者的注意[27][28][29][30].通過檢測重放事件,以及發(fā)現(xiàn)之前視頻中相同內(nèi)容的正常鏡頭,就可以為冗長的體育視頻生成一個(gè)令人滿意的精彩索引.
Di. Zhang針對體育視頻的分析,試圖提出一個(gè)一般性的框架[31].為了兼顧效率和準(zhǔn)確性,他認(rèn)為事件的檢測可以分為兩步進(jìn)行.即基于壓縮域分析的初選階段,和基于對象層次的驗(yàn)證階段.第一步,選擇一些壓縮域的特征,如顏色和運(yùn)動(dòng)等,通過統(tǒng)計(jì)學(xué)習(xí)的方法實(shí)現(xiàn)對事件的初選.第二步,在候選場景中進(jìn)行對象分割,根據(jù)總結(jié)的領(lǐng)域規(guī)則進(jìn)行判定,如對于網(wǎng)球比賽的發(fā)球鏡頭,圖像中應(yīng)有大塊場地區(qū)域,在下方有小的運(yùn)動(dòng)員對象.
J. Assfalg等認(rèn)為體育視頻的鏡頭一般可以分為三類:場地,運(yùn)動(dòng)員和觀眾[32].場地鏡頭關(guān)注體育運(yùn)動(dòng)本身,表現(xiàn)為大塊一致的顏色區(qū)域和場地線條等.在運(yùn)動(dòng)員鏡頭中,運(yùn)動(dòng)員作為前景中的物體出現(xiàn),而背景則變得模糊.在觀眾鏡頭中,個(gè)體常常是不清楚的,而觀眾整體可以看作一種紋理.基于這些認(rèn)識(shí),他們通過邊緣提取,圖形分割和顏色
這篇體育視頻的內(nèi)容標(biāo)注和解析技術(shù)研究的關(guān)鍵詞是內(nèi)容,研究,體育,技術(shù),視頻, 分析等,對三類鏡頭實(shí)現(xiàn)了有效的識(shí)別.N. Babaguchi綜合了文本和視覺特征來對體育視頻中的事件進(jìn)行檢測[33].文本信息來自于電視信號中的隱藏字幕(Closed Caption).首先,通過搜尋文本中事件相關(guān)的關(guān)鍵字,估計(jì)事件發(fā)生的可能時(shí)間段.然后,再對時(shí)間段內(nèi)的鏡頭進(jìn)行視覺特征分析,計(jì)算與已有的事件例子的匹配度,檢測出事件相關(guān)的鏡頭.
3,結(jié)構(gòu)解析
一部視頻中常常包含了成百上千個(gè)鏡頭,特別是在體育視頻中.這主要是因?yàn)轶w育比賽電視轉(zhuǎn)播的時(shí)候,會(huì)有多個(gè)攝像機(jī)從不同視角對比賽進(jìn)行拍攝,它們之間的頻繁切換就構(gòu)成了鏡頭.為了更好的訪問視頻內(nèi)容,除了語義標(biāo)注,還需要對鏡頭進(jìn)行有效的組織.結(jié)構(gòu)解析的任務(wù)就是通過鏡頭組織為視頻數(shù)據(jù)流建立類似書目的分層瀏覽結(jié)構(gòu).
以[34][35]為代表,一些研究人員提出了通用的視頻結(jié)構(gòu)分析方法.他們用時(shí)間約束的聚類法把視覺上相似和時(shí)間上相鄰的鏡頭聚類在一起,再在聚類組的基礎(chǔ)上構(gòu)造場景轉(zhuǎn)換圖(Scene Transition Graph)或高層場景,進(jìn)而形成層次化的瀏覽結(jié)構(gòu).但是這種統(tǒng)一的結(jié)構(gòu)組織方式(如[34]中將視頻分成幀/鏡頭/組/場景四層)并不適合針對體育視頻的分析,這主要是因?yàn)轶w育比賽都有自己特定結(jié)構(gòu)(如圖1所示),對體育視頻的分析應(yīng)當(dāng)結(jié)合這種領(lǐng)域知識(shí).
圖1 跳水比賽的樹狀結(jié)構(gòu)
4,總結(jié)
綜上對國內(nèi)外研究現(xiàn)狀的調(diào)查,我們有以下結(jié)論:
(1)應(yīng)當(dāng)結(jié)合領(lǐng)域知識(shí)進(jìn)行特征選擇.領(lǐng)域知識(shí)包括比賽相關(guān)和制作相關(guān).比賽相關(guān)的領(lǐng)域特征涉及特定的體育運(yùn)動(dòng),如足球比賽中的草色比率,籃球比賽中快攻時(shí)攝像機(jī)的運(yùn)動(dòng)等.制作相關(guān)的領(lǐng)域特征適用于大多數(shù)體育視頻的分析,主要來自對體育視頻制作的總結(jié),如精彩場面的重放,有關(guān)運(yùn)動(dòng)員和比分信息的字幕顯示等.綜合這兩類領(lǐng)域知識(shí),選擇合適的特征進(jìn)行分析是取得研究成功的基礎(chǔ).
(2)多模式融合分析代表了新的研究趨勢.除了視覺特征外,綜合體育視頻中所包含的音頻特征和文本信息,能夠有效提高視頻分析的準(zhǔn)確度.這也是近年來的研究熱點(diǎn).在體育視頻中,一個(gè)語義事件常常是一個(gè)多模式的表達(dá),如運(yùn)動(dòng)員的跳水事件既有視覺上的運(yùn)動(dòng)也有聽覺上的踏板聲和入水聲,只對其中一個(gè)模式進(jìn)行分析是不完整的.因此在對體育視頻進(jìn)行內(nèi)容分析時(shí),融合多模式尤為重要.
(3)盡量考慮壓縮域的特征分析.一場體育比賽長達(dá)數(shù)個(gè)小時(shí),其視頻數(shù)據(jù)也非常龐大,因而提高處理速度是很有意義的,在某些要求實(shí)時(shí)應(yīng)用的場合也是必需的.直接基于壓縮域的分析,不需要完全解碼,可以顯著提高處理速度.[22][31]表明基于壓縮域的分析不僅能夠大幅度降低計(jì)算量,同時(shí)也能獲得較好的結(jié)果,或者作為進(jìn)一步處理的基礎(chǔ).
(4)基于統(tǒng)計(jì)的事件檢測方法要優(yōu)于基于規(guī)則的方法.早期的研究多采用基于規(guī)則的方法.但是,體育視頻中的事件檢測常常需要綜合多種特征分析手段,需要適應(yīng)不同的場景.這些都增加了直接設(shè)定規(guī)則的難度.與之相比,統(tǒng)計(jì)算法易于混合多種特征同時(shí)又具備一定的學(xué)習(xí)能力,因而具有更大的實(shí)用價(jià)值.
(5)忽略了對事件之間關(guān)系的研究.體育比賽中的各種語義事件不是孤立的,它們具有某種因果關(guān)系或概率相關(guān).因此綜合多種事件及其之間關(guān)系的分析,對于提高分析的精度和深度都是有價(jià)值的.
(6)缺乏對體育視頻內(nèi)容的結(jié)構(gòu)解析.盡管許多文章中提到了體育視頻的結(jié)構(gòu)分析,但是它們對結(jié)構(gòu)的分析主要是基本場景的分解,如[20]中將足球視頻分為比賽進(jìn)行和暫停,[31]中檢測網(wǎng)球比賽的發(fā)球場景.體育視頻的結(jié)構(gòu),如圖1所示,通常是一個(gè)多層的目錄結(jié)構(gòu).在檢測基本場景的基礎(chǔ)上,需要進(jìn)一步研究高層結(jié)構(gòu)的解析.據(jù)我們所知,這方面的研究還沒有.
(7)沒有一個(gè)統(tǒng)一的體育視頻內(nèi)容分析框架.[31]中提出了一個(gè)視頻分析的一般框架,但是他們的系統(tǒng)主要是實(shí)現(xiàn)語義事件的檢測,缺乏對視頻結(jié)構(gòu)的充分解析.根據(jù)體育視頻的自身特點(diǎn)和應(yīng)用需要,我們認(rèn)為視頻分析的過程應(yīng)該有一個(gè)基本的框架,這對于進(jìn)一步的研究無疑是有意義的.
三,研究目標(biāo),內(nèi)容和擬解決的關(guān)鍵技術(shù)
本課題的目標(biāo)是研究體育視頻內(nèi)容的語義標(biāo)注和結(jié)構(gòu)解析技術(shù).在實(shí)際研究中,我們主要選擇跳水比賽作為研究對象.跳水運(yùn)動(dòng)十分富有觀賞性,是我國的奧運(yùn)優(yōu)勢項(xiàng)目,深受人們的喜愛.跳水比賽具有一般體育比賽的典型特征,如層次化的結(jié)構(gòu),領(lǐng)域相關(guān)的語義事件等.通過內(nèi)容分析技術(shù)的研究,最終我們將實(shí)現(xiàn)一個(gè)面向跳水運(yùn)動(dòng)的視頻查詢系統(tǒng).
如果把視頻也看作一種語言表達(dá),視頻分析在某種程度上與自然語言理解是非常類似的,其目的都是使計(jì)算機(jī)能夠理解信息的內(nèi)容,從而實(shí)現(xiàn)智能化的信息處理.自然語言理解作為人工智能中的一個(gè)重要研究方向,已經(jīng)有四十多年的歷史了.它對于新興的視頻分析研究必然有很多可以借鑒的地方.通常,自然語言理解將詞匯作為基本的處理對象,包括自動(dòng)分詞,詞性標(biāo)注,句法分析等幾個(gè)階段.與之類似,由于鏡頭是視頻中具有完整內(nèi)容表達(dá)的最小單位,我們將鏡頭作為體育視頻分析的基本單元,并提出如圖2所示的體育視頻內(nèi)容分析框架.
圖2 體育視頻內(nèi)容分析框架
1,鏡頭檢測
與自動(dòng)分詞類似,鏡頭檢測按照鏡頭為基本單位對視頻流進(jìn)行分解.鏡頭檢測是視頻內(nèi)容分析的基礎(chǔ)步驟,很大程度上影響了整個(gè)系統(tǒng)的性能.雖然鏡頭檢測是一個(gè)一般性的問題,但是在體育視頻中也有其特殊要求:
(1)針對體育視頻數(shù)據(jù)量大的特點(diǎn),算法應(yīng)能實(shí)現(xiàn)快速檢測;
(2)在體育視頻中存在大量的運(yùn)動(dòng),算法應(yīng)能盡量避免由于運(yùn)動(dòng)導(dǎo)致的誤判;
(3)作為之后分析的基礎(chǔ),算法應(yīng)具有較高的準(zhǔn)確性.
2,模式學(xué)習(xí)和語義標(biāo)注
鏡頭檢測后的視頻流是一組鏡頭序列.在此基礎(chǔ)上,語義標(biāo)注通過事件檢測對鏡頭序列進(jìn)行標(biāo)注.我們采用基于統(tǒng)計(jì)的方法來識(shí)別語義事件.識(shí)別的時(shí)候,首先通過對訓(xùn)練樣本的學(xué)習(xí)建立分類器,然后利用這個(gè)分類器對鏡頭中的事件進(jìn)行識(shí)別.以下問題需要解決:
(1)多模式提取和選擇領(lǐng)域相關(guān)的特征來表示語義事件;
(2)應(yīng)用壓縮域分析提高處理速度;
(3)設(shè)計(jì)一個(gè)良好的學(xué)習(xí)分類模型,實(shí)現(xiàn)高準(zhǔn)確度的識(shí)別;
(4)對鏡頭的標(biāo)注應(yīng)當(dāng)有利于后續(xù)的結(jié)構(gòu)分析.
3,文法描述和結(jié)構(gòu)解析
在語義標(biāo)注之后,結(jié)構(gòu)解析的任務(wù)是通過對視頻標(biāo)注序列的分析,生成體育視頻的層次瀏覽結(jié)構(gòu).目前,這方面還沒有好的算法.為解決這一問題,我們借鑒自然語言理解中句法分析的思想,根據(jù)體育比賽具有較強(qiáng)結(jié)構(gòu)性的特點(diǎn),使用文法來定義語法規(guī)則,提出了基于文法的體育視頻結(jié)構(gòu)解析.在結(jié)構(gòu)解析中引入文法描述,有以下好處:(1)根據(jù)文法描述可以按照體育比賽特定結(jié)構(gòu)進(jìn)行解析;(2)實(shí)現(xiàn)了領(lǐng)域知識(shí)和具體算法的分離.這樣,只需要引入相應(yīng)的文法描述,我們可以使用統(tǒng)一的解析器來分析不同類型的體育比賽.關(guān)鍵技術(shù)包括:
(1)自動(dòng)生成體育視頻的分層瀏覽目錄;
(2)實(shí)際應(yīng)用中視頻流可能不完整或存在標(biāo)注錯(cuò)誤,解析器應(yīng)具有良好的容錯(cuò)能力;
(3)對于大數(shù)據(jù)量的體育視頻,要求結(jié)構(gòu)解析的效率要高.
四,擬采取的研究方法,技術(shù)路線及可行性分析
1,基于壓縮域的鏡頭分割算法
體育視頻中常見的漸變主要有溶解,擦變,特別是其中的一些擦變具有特技效果,如圖3所示.這些特定模式的擦變,通常出現(xiàn)在慢鏡重放的開始和結(jié)束,識(shí)別這種鏡頭邊界是十分有價(jià)值的.現(xiàn)有壓縮域算法主要對切變檢測比較成功,而對于漸變的研究不多.我們將綜合壓縮域的DCT系數(shù),運(yùn)動(dòng)矢量以及宏塊信息等,研究一種有效的漸變檢測方法.
圖3 體育視頻中特定模式的擦變
一般在進(jìn)行鏡頭邊界檢測的時(shí)候,首先從相鄰幀提取合適的特征,然后比較這些特征之間的差值,如果差值超過了事先設(shè)定的閾值,則認(rèn)為出現(xiàn)了鏡頭轉(zhuǎn)換.因此,選取合適的閾值是非常關(guān)鍵的.常用的方法包括單閾值法,多閾值法和局部閾值法.單閾值法使用一個(gè)全局閾值,方法簡單,但是對于漸變不能很好檢測.多閾值法使用多個(gè)閾值進(jìn)行分級判定,如使用較大閾值檢測突變,使用較小閾值檢測漸變.局部閾值法根據(jù)局部范圍內(nèi)的變化情況自動(dòng)調(diào)整合適的鏡頭切分閾值,代表了新的研究趨勢.目前,有關(guān)閾值選取的研究仍然是視頻處理中的一個(gè)難點(diǎn).我們將主要基于局部閾值法進(jìn)行研究.
2,體育視頻中語義事件的檢測
我們將體育視頻中的語義事件分為三類:重放事件,狀態(tài)事件和目標(biāo)事件.重放事件是指體育比賽轉(zhuǎn)播中穿插播放的慢鏡重放片斷.重放事件反映了比賽中觀眾感興趣的精彩部分.狀態(tài)事件發(fā)生在比賽狀態(tài)發(fā)生變化的時(shí)候,如跳水比賽每一輪結(jié)束的評分,網(wǎng)球比賽中一局的開始鏡頭等.狀態(tài)事件的檢測對于視頻結(jié)構(gòu)的解析有非常重要的作用.目標(biāo)事件,如跳水比賽中運(yùn)動(dòng)員的跳水,足球比賽中的射門等,是指體育比賽中具有觀賞性的特定運(yùn)動(dòng),通常表現(xiàn)為物體及其之間的運(yùn)動(dòng)關(guān)系.對這三類事件,我們分別采用如下的技術(shù)路線:
(1)通過標(biāo)志性邊界檢測來識(shí)別重放事件
[1]中將重放分為三種類型:重復(fù)播放的同一鏡頭;慢動(dòng)作方式重放的同一鏡頭;同一場景但是由不同攝像機(jī)在不同視角拍攝的.直接從內(nèi)容上比較重放事件和先前視頻鏡頭的相似性來進(jìn)行分析,是很難識(shí)別準(zhǔn)確的,尤其對于最后一種重放.
通過對體育比賽電視轉(zhuǎn)播的觀察,可以發(fā)現(xiàn)一般對于精彩片斷的重放都會(huì)以一個(gè)標(biāo)志性的鏡頭切換引入,再以類似的變化結(jié)束,如圖3所示.因此對于重放事件的檢測,事實(shí)上可以歸結(jié)到對這種標(biāo)志性鏡頭邊界的檢測,從而簡化問題.我們將主要研究這種方法.
(2)利用視頻文本識(shí)別確定狀態(tài)事件
狀態(tài)事件是和體育比賽的狀態(tài)變化直接相關(guān)的,而通常在比賽狀態(tài)發(fā)生變化的時(shí)候,電視轉(zhuǎn)播會(huì)在視頻中加入相關(guān)字幕提示,如跳水比賽中在運(yùn)動(dòng)員入場的時(shí)候,會(huì)有文字說明運(yùn)動(dòng)員姓名和所要做的動(dòng)作;在一輪比賽結(jié)束的時(shí)候,會(huì)顯示該輪所有選手的得分情況.
根據(jù)這個(gè)特性,我們提出通過視頻中文本檢測和識(shí)別的方法來檢測狀態(tài)事件.該方法包括兩個(gè)層次.首先,通過視頻文本的檢測[36][37][38][39][40]就可以初步確定狀態(tài)事件的出現(xiàn).然后,我們對檢測的文本進(jìn)行識(shí)別,通過關(guān)鍵字的匹配,識(shí)別狀態(tài)事件的類別.例如,運(yùn)動(dòng)員入場的字幕顯示中有關(guān)鍵字"Round"(輪次),"Rank"(排名),"DD"(難度),"Total"(總分)等,通過匹配這些關(guān)鍵字,就可以判斷當(dāng)前鏡頭為運(yùn)動(dòng)員入場的狀態(tài)事件.
(3)融合視音頻雙模式的目標(biāo)事件檢測
在目標(biāo)事件中,往往存在顯著的運(yùn)動(dòng)和音頻特征,如運(yùn)動(dòng)員的跳水事件既有視覺上的運(yùn)動(dòng)也有聽覺上的踏板聲和入水聲.融合視音頻的分析避免了單純使用視覺或聽覺特征不能完整描述語義事件的不足,可以有效提高識(shí)別精度.
在進(jìn)行識(shí)別的時(shí)候,我們采用混合隱馬爾科夫模型和支持向量機(jī)的方法[41].支持向量機(jī)能夠在小樣本條件下,通過結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,實(shí)現(xiàn)有效分類.但是支持向量機(jī)只是靜態(tài)分類機(jī),不能很好模擬時(shí)序過程.與之相反,隱馬爾科夫模型雖然能夠較好的處理隨機(jī)時(shí)序數(shù)據(jù)的識(shí)別,但是并不能保證訓(xùn)練好的模型能夠良好的分類未知數(shù)據(jù).這樣,將兩者混合起來使用,通過在隱馬爾科夫模型中引入靜態(tài)數(shù)據(jù)識(shí)別良好的支持向量機(jī),能對視頻流數(shù)據(jù)取得最佳的識(shí)別效果.
3,語法制導(dǎo)
這篇體育視頻的內(nèi)容標(biāo)注和解析技術(shù)研究的關(guān)鍵詞是內(nèi)容,研究,體育,技術(shù),視頻, 的結(jié)構(gòu)解析為了對輸入的體育視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)解析,首先我們需要對該類體育比賽的文法規(guī)則進(jìn)行描述.喬姆斯基(Chomsky)把文法分成4種類型,即0型文法(或稱短語文法),1型文法(或稱上下文有關(guān)文法),2型文法(或稱上下文無關(guān)文法)和3型文法(或稱正則文法).型號越高所受約束越多,對語言的描述能力也就越弱.
我們使用上下文無關(guān)文法對體育比賽的結(jié)構(gòu)進(jìn)行描述,主要是基于以下考慮:(1)上下文無關(guān)文法完全可以勝任對體育比賽樹狀結(jié)構(gòu)的描述;(2)上下文無關(guān)文法在自然語言理解,句法模式識(shí)別,編譯技術(shù)等領(lǐng)域有廣泛的應(yīng)用,技術(shù)比較成熟;(3)基于上下文無關(guān)文法的解析器不僅可以為視頻有效生成層次瀏覽樹,而且具有較強(qiáng)的錯(cuò)誤處理能力.
其中終結(jié)符r,b,e,u分別表示一輪比賽的結(jié)束,選手比賽開始,選手比賽結(jié)束和一般鏡頭,非終結(jié)符和為結(jié)構(gòu)單元,分別代表每輪比賽和每個(gè)選手的比賽.對于語義標(biāo)注序列"buuuuuuuebuuuuuuuueeur",使用文法分析器進(jìn)行解析得到它的層次結(jié)構(gòu)"[[buuuuuuue][buuuuuuuue]eur]".其中序列最后"r"前面的"eu"為錯(cuò)誤標(biāo)示,可以用錯(cuò)誤恢復(fù)策略進(jìn)行處理(例如,在發(fā)現(xiàn)終結(jié)符不能匹配時(shí),彈出該終結(jié)符并發(fā)出警告).由于視頻序列在進(jìn)行基于統(tǒng)計(jì)的語義標(biāo)注時(shí),存在某種程度的不確定性.所以錯(cuò)誤處理應(yīng)當(dāng)結(jié)合語義標(biāo)注的確定度來進(jìn)行.如果出錯(cuò)標(biāo)注本身的確定度比較低,則可以認(rèn)為該標(biāo)注有錯(cuò);如果出錯(cuò)標(biāo)注的確定度比較高,則可以認(rèn)為錯(cuò)誤發(fā)生在它的前面.
以上,我們通過基于壓縮域的鏡頭分割,語義事件的檢測和語法制導(dǎo)的結(jié)構(gòu)解析實(shí)現(xiàn)了體育視頻的內(nèi)容標(biāo)注和解析.雖然我們主要以跳水視頻為例進(jìn)行分析,但是其中的技術(shù)完全可以應(yīng)用到其他類似體育視頻的分析中,甚至一般視頻的處理中.我們的研究表明,盡管限于當(dāng)前的技術(shù)水平,完全自動(dòng)的,通用的視頻內(nèi)容理解是不太可能的,但是通過有效的人機(jī)交互和建立應(yīng)用相關(guān)的模型,新的技術(shù)將可以面對視頻信息大量涌現(xiàn)的挑戰(zhàn),給人們帶來更加豐富和方便的體驗(yàn).
五,預(yù)期研究成果及創(chuàng)新之處
一個(gè)壓縮域鏡頭邊界檢測的有效算法
體育視頻中慢鏡重放的檢測方法
基于壓縮域的視頻文本檢測和分割
體育視頻中狀態(tài)事件的識(shí)別
視音頻融合的事件檢測
基于文法的體育視頻結(jié)構(gòu)解析
一個(gè)通用的體育視頻內(nèi)容分析框架及其系統(tǒng)實(shí)現(xiàn)
六,已有工作基礎(chǔ)
1,已有資源:
4.96G的跳水比賽視頻數(shù)據(jù),總長度約8小時(shí)20分鐘;
5.33G的足球比賽視頻數(shù)據(jù),總長度約9個(gè)小時(shí);
2.58G的其他體育視頻數(shù)據(jù),包括籃球,排球和網(wǎng)球等;
2,已進(jìn)行工作
一個(gè)基于內(nèi)容的智能視頻檢索系統(tǒng):iVideo
一種通過關(guān)鍵幀提取和組織來瀏覽視頻的方式:XPlayer
可視化的視頻分析工具:MediaLab
綜合顏色特征和攝像機(jī)運(yùn)動(dòng)分析的鏡頭邊界檢測算法
基于標(biāo)志模板的重放鏡頭檢測算法
跳水比賽視頻中精彩片斷的自動(dòng)提取:iVideoAnalyzer
基于壓縮域文本檢測的體育視頻結(jié)構(gòu)分析:SportsPlayer
3,專利和文章
王扉,李錦濤,張勇東,林守勛,"跳水比賽視頻中精彩片斷的自動(dòng)提取",計(jì)算機(jī)研究與發(fā)展,評審中.
王扉,張勇東,李錦濤,林守勛,"在體育比賽視頻中檢測精彩片斷的方法",(發(fā)明)專利號02156973.8,已受理.
七,研究計(jì)劃及預(yù)期進(jìn)展
2003/01 – 2003/04 基于文法的體育視頻結(jié)構(gòu)解析
2003/05 – 2003/06 壓縮域的鏡頭邊界檢測算法
2003/07 – 2003/10 體育視頻中的語義事件檢測
2003/11 – 2003/12 跳水比賽的視頻分析和檢索系統(tǒng)
2004/01 – 2004/04 技術(shù)改進(jìn),論文寫作
八,參考文獻(xiàn)
Content-based Video Analysis and Retrieval
[1] C.W. Ngo, H.J. Zhang, and T.C. Pone, "Recent Advances in Content Based Video Analysis", International Journal of Image and Graphics, Dec 2001.
[2] N. Dimitrova, H.J. Zhang, B. Shahraray, I. Sezan, T. Huang, and A. Zakhor, "Applications of Video-Content Analysis and Retrieval", IEEE Multimedia, Vol. 9, No. 4, 2002.
[3] 莊越挺,潘云鶴,吳飛編著,網(wǎng)上多媒體信息分析與檢索,清華大學(xué)出版社,2002年.
[4] M. Flickner et al, "Query by Image and Video Content: The QBIC System", IEEE Computer, 28(9), 1995.
[5] D. Ponceleon, S. Srinivasan, A. Amir, D. Petkovic, and D. Diklic, "Key to Effective Video Retrieval: Effective Cataloging and Browsing", in Proc. ACM Multimedia, 1998.
[6] A. Hampapur, A. Gupta, B. Horowitz, C-F. Shu, C. Fuller, J. Bach, M. Gorkani, and R. Jain, "Virage Video Engine", SPIE Storage and Retrieval for Images and Video Databases V, 1997.
[7] H. D. Wactlar, T. Kanade, M. A. Smith, and S. M. Stevens, "Intelligent Access to Digital Video: Informedia Project", IEEE Computer, Vol.29, No.3, pp.46-52, May 1996.
[8] S.-F. Chang, W. Chen, H. Meng, H. Sundaram, and D. Zhong, "VideoQ: an automated content based video search system using visual cues", in Proc. ACM Multimedia, November 1997.
【體育視頻的內(nèi)容標(biāo)注和解析技術(shù)研究】相關(guān)文章:
從詩文解析唐代民間體育習(xí)俗08-13
鯽魚養(yǎng)殖技術(shù)研究06-12
財(cái)政科技資金的審計(jì)重點(diǎn)和內(nèi)容08-28
OFDM技術(shù)研究及其系統(tǒng)仿真05-11
生態(tài)豬養(yǎng)殖前景及技術(shù)研究06-14
插齒刀制造技術(shù)研究05-06
通信工程中傳輸技術(shù)研究05-14
水利工程凍害防治技術(shù)研究05-31