- 相關(guān)推薦
對(duì)于未來計(jì)算機(jī)視覺應(yīng)用的深思
無論是計(jì)算能力,還是記憶能力,計(jì)算機(jī)的如今表現(xiàn)都堪稱卓越。但僅擁有這些還遠(yuǎn)遠(yuǎn)不夠,我們期待計(jì)算機(jī)可以做得更多。耕耘在計(jì)算機(jī)視覺領(lǐng)域十余年,賦予計(jì)算機(jī)一雙慧眼,讓它也能看懂這個(gè)多彩的世界,一直是激勵(lì)著眾多計(jì)算機(jī)從業(yè)人員在這條充滿挑戰(zhàn)的道路上前行的重要力量。在這篇文章中,小編將就如何讓計(jì)算機(jī)能“看”懂世界這個(gè)主題,為大家介紹計(jì)算機(jī)視覺的基本概念、這個(gè)領(lǐng)域面臨的挑戰(zhàn)、一些帶來重要突破的技術(shù)并展望未來的演進(jìn)趨勢(shì)。
世界如何在我們眼中形成?
對(duì)人類而言,“認(rèn)人”似乎是與生俱來的本能,剛出生幾天的嬰兒就能模仿父母的表情;它賦予我們只憑極少細(xì)節(jié)就分辨彼此的能力,借著暗淡燈光我們?nèi)阅苷J(rèn)出走廊那端的朋友。然而,這項(xiàng)對(duì)人類而言輕而易舉的能力,對(duì)計(jì)算機(jī)而言卻舉步維艱。過去很長(zhǎng)一段時(shí)間,計(jì)算機(jī)視覺技術(shù)徘徊不前,在進(jìn)一步探求前,不如先談?wù)勎覀兪侨绾斡醚劬τ^察世界的。
相信大家都在中學(xué)的物理課上嘗過小孔成像的原理。不過人的眼睛要比小孔成像復(fù)雜得多,當(dāng)我們觀察物體時(shí),每秒大約掃視3次,并有1次駐留。當(dāng)視網(wǎng)膜的感光體感受到蠟燭的輪廓,一個(gè)被稱為中央凹的區(qū)域其實(shí)是以扭曲變形的形式記錄下蠟燭的形狀。
那么問題來了,為何我們看到的世界既未扭曲也沒有變形呢?很簡(jiǎn)單,因?yàn)槿祟悡碛写竽X皮層這個(gè)萬能的“轉(zhuǎn)換器”,它將我們的視覺神經(jīng)捕捉到的信號(hào)轉(zhuǎn)換為真實(shí)的形象。這個(gè)“轉(zhuǎn)換器”可簡(jiǎn)化理解為四個(gè)區(qū)域,生物學(xué)家將它們分別稱為V1、V2、V4和IT區(qū)。V1區(qū)的神經(jīng)元,只針對(duì)整個(gè)視覺區(qū)域中很小的一部分做出反應(yīng),例如,某些神經(jīng)元發(fā)現(xiàn)一條直線,就變得異;钴S。這條直線可以是任何事物的一部分,也許是桌邊,也許是地板,也許是這篇文章某個(gè)字符的筆劃。眼睛每掃視一次,這部分神經(jīng)元的活動(dòng)就可能發(fā)生快速變化。
奧秘出現(xiàn)在大腦皮層頂層的IT區(qū),生物學(xué)家發(fā)現(xiàn),物體在視野的任何地方出現(xiàn)(例如一張臉),某些神經(jīng)元會(huì)一直處于固定的活躍狀態(tài)中。也就是說,人類的視覺辨識(shí)是從視網(wǎng)膜到IT區(qū),神經(jīng)系統(tǒng)從能識(shí)別細(xì)微特征,到逐漸變?yōu)槟茏R(shí)別目標(biāo)。如果計(jì)算機(jī)視覺也可以擁有一個(gè)“轉(zhuǎn)換器”,那么計(jì)算機(jī)識(shí)別的效率將大為提高,人眼視覺神經(jīng)的運(yùn)作為計(jì)算機(jī)視覺技術(shù)的突破提供了啟迪。
計(jì)算機(jī)為何總是“霧里看花”?
盡管人眼識(shí)別的奧秘已經(jīng)被逐步揭開,但直接應(yīng)用于計(jì)算機(jī)上卻非易事。我們會(huì)發(fā)現(xiàn)計(jì)算機(jī)識(shí)別總是在“霧里看花”,一旦光線、角度等發(fā)生變化,計(jì)算機(jī)難以跟上環(huán)境的節(jié)奏,就會(huì)誤識(shí)。對(duì)計(jì)算機(jī)而言,識(shí)別一個(gè)在不同環(huán)境下的人,還不如識(shí)別在同一環(huán)境下的兩個(gè)人來得簡(jiǎn)單。這是因?yàn)樽畛跹芯空咴噲D將人臉想象為一個(gè)模板,用機(jī)器學(xué)習(xí)的方法掌握模板的規(guī)律。然而人臉雖然看起來是固定的,但角度、光線、打扮不同,樣子也有差別,都令簡(jiǎn)單的模板難以匹配所有人臉。
因此,人臉識(shí)別的核心問題在于,如何讓計(jì)算機(jī)忽略同一個(gè)人的內(nèi)部差異,又能發(fā)現(xiàn)兩個(gè)人之間的分別,即讓同一個(gè)人相似,不同的人有別。
對(duì)人工神經(jīng)網(wǎng)絡(luò)的引進(jìn)是計(jì)算機(jī)視覺超越模板識(shí)別的關(guān)鍵。然而人類尚且未完全掌握神經(jīng)的運(yùn)作機(jī)制時(shí),又該如何引導(dǎo)計(jì)算機(jī)進(jìn)步呢?人工神經(jīng)網(wǎng)絡(luò)在1960年代就已萌芽,初期理論只固定在簡(jiǎn)單的模型之上,即生物課上的“輸入-隱層-輸出”模型。在介紹神經(jīng)的工作原理時(shí),老師們一般都會(huì)簡(jiǎn)單告知是外界刺激接觸到輸入神經(jīng)元,輸入神經(jīng)元再鏈接其他部分形成隱層,最后通過輸出神經(jīng)元表現(xiàn)出來。這些神經(jīng)元的鏈接強(qiáng)度并不相同,就像不同樂譜的強(qiáng)弱高低不同,人工神經(jīng)網(wǎng)絡(luò)就是依靠這些神經(jīng)元之間不同的鏈接強(qiáng)度,學(xué)會(huì)將輸入方式映射到輸出上。
不過“樂譜”只是靜止不動(dòng)的,而且只能從“輸入走向輸出”,不存在反向呈現(xiàn)。也就是說如果人靜止不動(dòng),計(jì)算機(jī)也許可以通過這一原理讀出,但這在現(xiàn)實(shí)生活中不可能實(shí)現(xiàn)。1980年代末期,用于人工神經(jīng)網(wǎng)絡(luò)的“反向傳播算法”發(fā)明,它能將輸出單元的錯(cuò)誤傳回輸入單元,并記住它。這種方法令人工神經(jīng)網(wǎng)絡(luò)能從大量訓(xùn)練樣本中學(xué)習(xí)統(tǒng)計(jì)規(guī)律,對(duì)未知事件做出預(yù)測(cè)。不過與大腦的復(fù)雜及層級(jí)結(jié)構(gòu)相比,這種只包含一個(gè)隱層的神經(jīng)網(wǎng)絡(luò)構(gòu)造還顯得微不足道。
深層神經(jīng)網(wǎng)絡(luò)為計(jì)算機(jī)“撥云見日”
2006年,多倫多大學(xué)教授Geoffrey Hinton在深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練上取得了突破。一方面,他證明了多隱層的人工神經(jīng)網(wǎng)絡(luò)具備更優(yōu)異的特征學(xué)習(xí)能力,另一方面能通過逐層初始化克服此前一直困擾研究者的訓(xùn)練難題——基本原理是先通過大量無監(jiān)督數(shù)據(jù)保證網(wǎng)絡(luò)初始化,再用有監(jiān)督數(shù)據(jù)在初始化好的或者是預(yù)訓(xùn)練的網(wǎng)絡(luò)上優(yōu)化調(diào)整。
受到這些因素的啟發(fā),如今的人臉或圖像識(shí)別研究,大多基于CNN(Convolution Neural Networks)原理。CNN可以被視為一種逐層掃描的“機(jī)器”。第一層檢測(cè)邊緣、角點(diǎn)、平坦或不平坦的區(qū)域,這一層幾乎不包含語義信息;第二層基于第一層檢測(cè)的結(jié)果進(jìn)行組合,并將組合傳遞給下一層,以此類推。多層掃描之下,累加準(zhǔn)確率,計(jì)算機(jī)就在向前文提及的“讓同一個(gè)人相似,不同的人有別”這一目標(biāo)邁進(jìn)。
CNN的學(xué)名為帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),這一網(wǎng)絡(luò)識(shí)別物體還可分為兩個(gè)步驟:圖像分類和物體檢測(cè)。在第一個(gè)階段,計(jì)算機(jī)首先識(shí)別出物體的種類,例如人、動(dòng)物或其他物品;第二個(gè)階段,計(jì)算機(jī)獲取物品在圖像中的精確位置——這兩個(gè)階段分別回答了“是什么”和“在哪里”兩個(gè)問題。微軟的智能聊天機(jī)器人“小冰”具有辨識(shí)狗的品種的能力即是CNN的典型示例。首先,需要搭建一個(gè)好幾層深度卷積網(wǎng)絡(luò)。第一層跟人類視覺系統(tǒng)的定義很像,用來對(duì)一些小的邊緣或者小的色塊做一些檢測(cè);第二層會(huì)把這些小的結(jié)構(gòu)組成大的結(jié)構(gòu),如狗腿和狗的眼睛;依次向上進(jìn)行組織,最后就能鑒別出狗的種類來。其次,需要往這個(gè)帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)里投入很多的圖,訓(xùn)練系統(tǒng)識(shí)狗的準(zhǔn)確度。
2013年,加州大學(xué)伯克利分校的研究者們提出了一種稱為叫R-CNN方式(Region-based CNN)的物體檢測(cè)方法,具有很高的識(shí)別準(zhǔn)確度,它將每張圖像分為多個(gè)窗口或個(gè)子區(qū),在每個(gè)子區(qū)域應(yīng)用神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。但其主要缺陷在于,對(duì)于實(shí)時(shí)檢測(cè),算法過慢。為了在一張圖片上檢測(cè)幾個(gè)物體,整個(gè)神經(jīng)網(wǎng)絡(luò)可能需要運(yùn)算上千次。
在微軟亞洲研究院,視覺計(jì)算組的研究員們實(shí)現(xiàn)了一種稱為空間金字塔聚合(Spatial Pyramid Pooling,SPP)的新算法,通過在內(nèi)部特征識(shí)別,而不是每個(gè)區(qū)域從頭檢測(cè),對(duì)整個(gè)圖片只做一次計(jì)算。利用這種新算法,在不損失準(zhǔn)確度的前提下,物體檢測(cè)速度有了上百倍的提升。在2014年ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽中,微軟亞洲研究院采用SPP算法的系統(tǒng)取得了分類第三名和檢測(cè)第二名的成績(jī)。目前,這項(xiàng)技術(shù)已經(jīng)成功轉(zhuǎn)化進(jìn)入OneDrive中。采用了這項(xiàng)技術(shù)后,OneDrive可以自動(dòng)為上傳的圖片添加標(biāo)簽。同時(shí),用戶輸入關(guān)鍵詞,就可以搜索與之相對(duì)應(yīng)的圖片。
展望未來 計(jì)算機(jī)視覺和人類共舞
如果單純識(shí)別面部,而不考慮發(fā)型和身體的其他部分,人類的正確率約為97.5%,而計(jì)算機(jī)目前則能達(dá)到99%以上。這是否意味著計(jì)算機(jī)已經(jīng)勝過了人類?不是,因?yàn)槲覀儾恢挥^察面部,身材和體態(tài)都有助于我們認(rèn)出對(duì)方。在復(fù)雜光照的真實(shí)環(huán)境下,人能夠更智能地選擇這些分支幫助自己決策,而計(jì)算機(jī)在這方面則要遜色許多。不過,如果數(shù)據(jù)量龐大,或者面對(duì)陌生的臉孔,計(jì)算機(jī)又更強(qiáng)大些。如果能夠各揚(yáng)其長(zhǎng),歌詞中所唱的“借我一雙慧眼吧”或許將會(huì)實(shí)現(xiàn)。
人類通過不斷發(fā)明的新技術(shù)來替代舊技術(shù)去更高效和經(jīng)濟(jì)地完成任務(wù)。在計(jì)算機(jī)視覺領(lǐng)域亦是如此,我們開發(fā)更便捷人臉識(shí)別用于門禁系統(tǒng),以替代手動(dòng)的輸入用戶名和密碼——Xbox One利用紅外相機(jī)設(shè)計(jì)的人臉識(shí)別系統(tǒng)就頗受用戶好評(píng)。
除上述人類自身也能做到的識(shí)別功能外,計(jì)算機(jī)視覺還可應(yīng)用在那些人類能力所限,感覺器官不能及的領(lǐng)域和單調(diào)乏味的工作上——在微笑瞬間自動(dòng)按下快門,幫助汽車駕駛員泊車入位,捕捉身體的姿態(tài)與電腦游戲互動(dòng),工廠中準(zhǔn)確地焊接部件并檢查缺陷,忙碌的購(gòu)物季節(jié)幫助倉(cāng)庫(kù)分揀商品,離開家時(shí)掃地機(jī)器人清潔房間,自動(dòng)將數(shù)碼照片進(jìn)行識(shí)別分類……
或許在不久的將來,超市電子秤就能辨別出蔬菜的種類;門禁系統(tǒng)能分辨出帶著禮物的朋友,抑或手持撬棒的即將行竊的歹徒;可穿戴設(shè)備和手機(jī)幫助我們識(shí)別出鏡頭中的任何物體并搜索出相關(guān)信息。更奇妙的是,它還能超越人類雙眼的感官,用聲波、紅外線來感知這個(gè)世界,觀察云層的洶涌起伏預(yù)測(cè)天氣,監(jiān)測(cè)車輛的運(yùn)行調(diào)度交通,甚至突破我們的想象,幫助理論物理學(xué)家分析超過三維的空間中物體運(yùn)動(dòng)。
曾經(jīng),人類用眼睛記錄了波瀾壯闊的歷史。未來,我們希望逐步開啟計(jì)算機(jī)的眼,讓它在看懂這個(gè)多彩的世界的同時(shí),也能幫助人類更高效和智能地完成工作和生活。期待在計(jì)算機(jī)視覺和人類的共舞下,世界不僅有多彩,更有智慧。
【對(duì)于未來計(jì)算機(jī)視覺應(yīng)用的深思】相關(guān)文章:
對(duì)于新西蘭留學(xué)回購(gòu)是否好就業(yè)的深思05-30
學(xué)好計(jì)算機(jī)應(yīng)用06-02
計(jì)算機(jī)應(yīng)用基礎(chǔ)教案06-19
計(jì)算機(jī)應(yīng)用專業(yè)簡(jiǎn)介10-21
計(jì)算機(jī)基礎(chǔ)應(yīng)用試題08-11
色彩的視覺知識(shí)10-26