- 相關(guān)推薦
語(yǔ)音識(shí)別技術(shù)在智能家居中的應(yīng)用
摘要:研究實(shí)用的智能家居語(yǔ)音識(shí)別系統(tǒng),對(duì)于智能家居的發(fā)展具有重要意義。通過(guò)分析嵌入式語(yǔ)音識(shí)別技術(shù)以及智能家居控制技術(shù),以NL6621板為平臺(tái),VS1003為音頻解碼芯片錄制語(yǔ)音。并利用隱馬爾可夫(HMM)算法進(jìn)行語(yǔ)音模型訓(xùn)練和語(yǔ)音匹配,實(shí)現(xiàn)智能家居語(yǔ)音控制系統(tǒng)。實(shí)驗(yàn)證明此語(yǔ)音控制系統(tǒng)具有較高的識(shí)別率和實(shí)時(shí)性。
關(guān)鍵詞:嵌入式系統(tǒng);隱馬爾可夫;智能家居;語(yǔ)音識(shí)別
引言
隨著計(jì)算機(jī)的發(fā)展,智能家居在近幾年也得到了大家的重視,智能家居利用各種通信、網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)家居設(shè)備集成,為用戶提供了更加舒適高效的環(huán)境。近幾年人們對(duì)智能家居的便利程度提出了更高的要求,同時(shí)語(yǔ)音識(shí)別技術(shù)也進(jìn)一步的發(fā)展,但是語(yǔ)音在智能家居中的應(yīng)用還是相對(duì)較少,一般還要依靠遙控、手機(jī)等中控設(shè)備。語(yǔ)言是信息交流的重要手段,語(yǔ)音識(shí)別可以用聲音來(lái)控制設(shè)備完成一些特定的命令,減少用戶如手機(jī),遙控等中控設(shè)備的依賴,使生活更加方便。
本文通過(guò)對(duì)語(yǔ)音識(shí)別技術(shù)與嵌入式控制技術(shù)的研究,用語(yǔ)音命令實(shí)現(xiàn)直接管控從而可以取代以往利用手機(jī)或者遙控方式來(lái)控制的方法,方便操作而又能提高效率。本系統(tǒng)基于NL6621板與語(yǔ)音芯片VS1003實(shí)現(xiàn)語(yǔ)音采集,并采用當(dāng)今語(yǔ)音識(shí)別領(lǐng)域的主流技術(shù)一一隱馬爾科夫模型(Hidden Markov Model,HMM)算法實(shí)現(xiàn)對(duì)人語(yǔ)音命令的識(shí)別主要是進(jìn)行模型訓(xùn)練和匹配。實(shí)驗(yàn)證明在多個(gè)語(yǔ)音樣本對(duì)系統(tǒng)的訓(xùn)練識(shí)別下,系統(tǒng)在非特定人、孤立詞語(yǔ)識(shí)別上具有良好的效果。
一、語(yǔ)音識(shí)別與智能家居
1.1 語(yǔ)音識(shí)別技術(shù)
語(yǔ)音識(shí)別技術(shù)本質(zhì)上是一種模式匹配識(shí)別的過(guò)程,是機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變成相應(yīng)的文本文件或命令的技術(shù)。根據(jù)模式匹配過(guò)程語(yǔ)音識(shí)別系統(tǒng)可以如下圖表示。語(yǔ)音識(shí)別系統(tǒng)可以分為:特定人和非特定人的識(shí)別、獨(dú)立詞和連續(xù)詞的識(shí)別等,無(wú)論哪種識(shí)別系統(tǒng)識(shí)別過(guò)程都主要包括了語(yǔ)音信號(hào)預(yù)處理、特征提取、訓(xùn)練等。分別通過(guò)對(duì)信號(hào)的預(yù)處理分析和計(jì)算建立模板,當(dāng)對(duì)語(yǔ)音進(jìn)行識(shí)別時(shí),需要將輸入的語(yǔ)音與系統(tǒng)中存放的語(yǔ)音進(jìn)行比較從而得到識(shí)別結(jié)果。
1.2 語(yǔ)音識(shí)別算法
人的言語(yǔ)過(guò)程是一個(gè)雙重隨機(jī)過(guò)程。因?yàn)檎Z(yǔ)音信號(hào)本身是一個(gè)可觀察的序列,而它又是由大腦里的不可觀察的、根據(jù)言語(yǔ)需要和語(yǔ)法知識(shí)狀態(tài)選擇所發(fā)出的音素(詞、句)的參數(shù)流,大量實(shí)驗(yàn)表明,隱馬爾可夫模型(HMM)的確可以非常精確地描述語(yǔ)音信號(hào)的產(chǎn)生過(guò)程。隱馬爾可夫模型是對(duì)語(yǔ)音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過(guò)程,采用HMM進(jìn)行語(yǔ)音識(shí)別,實(shí)質(zhì)上是一種概率運(yùn)算,根據(jù)訓(xùn)練集數(shù)據(jù)計(jì)算得出模型參數(shù)后,測(cè)試集數(shù)據(jù)只需分別計(jì)算各模型的條件概率(Viterbi算法),取此概率最大者即為識(shí)別結(jié)果。一階離散馬爾可夫模型可表示為:有N個(gè)狀態(tài),Sl,S2... SN,存在一個(gè)離散的時(shí)間序列t=0,t=1…在每個(gè)時(shí)刻t,系統(tǒng)只能處于唯一一個(gè)狀態(tài)qt,下一個(gè)時(shí)刻所處的狀態(tài)是隨機(jī)出現(xiàn)的,當(dāng)前狀態(tài)qt只與前面相鄰的一個(gè)狀態(tài)qt-l有關(guān), 與其他狀態(tài)無(wú)關(guān),用表達(dá)式
HMM語(yǔ)音識(shí)別的一般過(guò)程:
1.前向后向算法計(jì)算
已知觀測(cè)序列 和模型 ,如何有效的計(jì)算在給定模型條件下產(chǎn)生觀測(cè)序列O的概率
2.Baum-Welch算法求出最優(yōu)解 :
(1)初始化
(2)迭代計(jì)算
(3)最后計(jì)算
3.Viterbi算法解出最佳狀態(tài)轉(zhuǎn)移序列:
已知觀測(cè)序列 和模型 ,如何選擇在某種意義上最佳的狀態(tài)序列。
(1)初始化
(2)迭代計(jì)算:
4.根據(jù)最佳狀態(tài)序列對(duì)應(yīng)的九給出候選音節(jié)或聲韻母
5.通過(guò)語(yǔ)言模型形成詞和句子
二、基于NL6621嵌入式硬件設(shè)計(jì)
語(yǔ)音識(shí)別的硬件平臺(tái)主要包括中央處理器NL6621,可讀寫(xiě)存儲(chǔ)器,聲卡芯片vs1003以及一些外圍設(shè)備,硬件體系結(jié)構(gòu)如圖2所示。
主系統(tǒng)使用新岸線公司的NL6621。MCU采用的最高主頻為160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,軟AP,WiFi保護(hù)設(shè)置以及WMM-PS和WPA/WPA2安全協(xié)議。codec芯片是vs1003,它與核心控制器NL6621的數(shù)據(jù)通信是通過(guò)SPI總線方式進(jìn)行的。它集成了麥克風(fēng)輸入接口,音頻輸出接口,對(duì)話筒輸入或者線路輸入進(jìn)行IMA ADPCM編碼,能有效的接受和播放音頻信息。
硬件電路實(shí)現(xiàn):VS1003通過(guò)xCS、xDCS引腳的置高或低來(lái)確認(rèn)是哪一個(gè)接口處于傳送狀態(tài)。通過(guò)串行命令接口(SCI)和串行數(shù)據(jù)接口(SDI)來(lái)接收NL6621的控制命令和數(shù)據(jù),通過(guò)SCI HDAT1來(lái)獲取語(yǔ)音流;VS1003的功能控制,如初始化、軟復(fù)位、暫停、音量控制、播放時(shí)間的讀取等,均是通過(guò)SCI口寫(xiě)入特定寄存器實(shí)現(xiàn)的。兩條SCI指令之間要通過(guò)DREQ引腳信號(hào)判斷上一次處理是否完成。
三、基于NL6621嵌入式軟件設(shè)計(jì)
軟件設(shè)計(jì)主要包括兩部分實(shí)現(xiàn)軟件控制嵌入式系統(tǒng)和基于HMM技術(shù)的語(yǔ)音識(shí)別算法編寫(xiě),基本的軟件架構(gòu)如圖3所示。
針對(duì)嵌入式系統(tǒng)控制部分,包括硬件初始化以及采集音頻信號(hào)。主要是使用NL6621提供的軟件開(kāi)發(fā)包,利用SDK編寫(xiě)應(yīng)用程序,包括硬件管腳初始化,波特率匹配,錄音文件配置,WiFi配置,錄音,音頻文件格式轉(zhuǎn)化、程序編寫(xiě)完成后需要用燒寫(xiě)工具進(jìn)行燒寫(xiě)。系統(tǒng)啟動(dòng)后,先初始化硬件模塊。然后系統(tǒng)開(kāi)始工作,通過(guò)語(yǔ)音輸入設(shè)備MIC采集語(yǔ)音,并通過(guò)聲卡VS1003輸入語(yǔ)音。當(dāng)系統(tǒng)監(jiān)聽(tīng)到語(yǔ)音輸入,開(kāi)始語(yǔ)音識(shí)別,判斷識(shí)別是否正確,若正確,將命令發(fā)送給執(zhí)行設(shè)備,入耳不正確,給出相應(yīng)
的錯(cuò)誤提示,不執(zhí)行語(yǔ)音命令。判斷識(shí)別是否結(jié)束,如果結(jié)束則退出,否則繼續(xù)下一輪的識(shí)別;贖MM技術(shù)的語(yǔ)音識(shí)別算法編寫(xiě),還包括了語(yǔ)音預(yù)處理,特征值提取和匹配識(shí)別的部分。主要的原理如圖4所示,輸入語(yǔ)音經(jīng)過(guò)預(yù)處理后,語(yǔ)音信號(hào)的特征被提取出來(lái),首先在此基礎(chǔ)上建立所需的模板,這個(gè)建立模板的過(guò)程稱為訓(xùn)練過(guò)程。根據(jù)語(yǔ)音識(shí)別整體模型,將輸入的語(yǔ)音信號(hào)特征與存在的語(yǔ)音模板(參考模式)進(jìn)行比較,找出一系列最優(yōu)的與輸入的語(yǔ)音相匹配的模板。然后,根據(jù)此模板號(hào)的定義,通過(guò)查表就可以給出計(jì)算機(jī)的識(shí)別結(jié)果。采用HMM進(jìn)行語(yǔ)音識(shí)別,實(shí)質(zhì)上是一種概率運(yùn)算。根據(jù)訓(xùn)練集數(shù)據(jù)計(jì)算得出模型參數(shù)后,測(cè)試集數(shù)據(jù)只需分別計(jì)算各模型的條件概率(Viterbi算法),取此概率最大者即為識(shí)別結(jié)果。除訓(xùn)練時(shí)需運(yùn)算量較大外,識(shí)別時(shí)的運(yùn)算量?jī)H有模式匹配法的幾分之一。
四、實(shí)驗(yàn)與總結(jié)
將程序下載到NL6621平臺(tái)上運(yùn)行,實(shí)時(shí)傳人語(yǔ)音,麥克風(fēng)傳人16k采樣的ADPCM語(yǔ)音流,通過(guò)解碼算法轉(zhuǎn)換為PCM語(yǔ)音數(shù)據(jù),然后再通過(guò)語(yǔ)音識(shí)別系統(tǒng)識(shí)別語(yǔ)音結(jié)果。實(shí)驗(yàn)結(jié)果表明在普通的工作環(huán)境中進(jìn)行錄音解析系統(tǒng)的識(shí)別率可達(dá)到90%以上,具有較好的識(shí)別精度和效率。本文設(shè)計(jì)了一個(gè)簡(jiǎn)單嵌入式語(yǔ)音識(shí)別的平臺(tái),并通過(guò)實(shí)驗(yàn)驗(yàn)證了其語(yǔ)音識(shí)別有效性及可行性。對(duì)智能家居中嵌入式語(yǔ)音控制開(kāi)發(fā)具有一定的意義。我們?nèi)砸ㄟ^(guò)不斷研究,設(shè)計(jì)更加可靠方便的系統(tǒng),從而使智能家居語(yǔ)音識(shí)別走向跟成熟的市場(chǎng)。
【語(yǔ)音識(shí)別技術(shù)在智能家居中的應(yīng)用】相關(guān)文章:
基于HMM的語(yǔ)音識(shí)別技術(shù)在嵌入式系統(tǒng)中的應(yīng)用03-18
基于LD3320的語(yǔ)音識(shí)別系統(tǒng)在家庭電路中的模擬應(yīng)用03-11
語(yǔ)音識(shí)別中LPC特征矢量提取的研究與實(shí)現(xiàn)03-07
AMBE-1000在語(yǔ)音壓縮中的應(yīng)用03-19
ISD4004語(yǔ)音芯片在語(yǔ)音報(bào)站器中的應(yīng)用03-19
語(yǔ)音處理芯片AC48105在低速語(yǔ)音編碼設(shè)備中的應(yīng)用03-18
語(yǔ)音參數(shù)提取在聾兒學(xué)習(xí)中的應(yīng)用03-07
語(yǔ)音識(shí)別中雙門(mén)限端點(diǎn)檢測(cè)算法的研究03-07