基于內(nèi)容的音樂信息檢索研究論文
摘 要:音樂信息檢索是從音樂資源中找到滿足用戶所需信息的匹配、定位過程。傳統(tǒng)的基于文本描述的音樂檢索技術(shù)已經(jīng)無法滿足大量音頻數(shù)據(jù)的檢索需要,基于內(nèi)容的音頻信息檢索技術(shù)應(yīng)運(yùn)而生。。本文根據(jù)音樂檢索的研究現(xiàn)狀, 論述了基于內(nèi)容的音樂檢索步驟,討論了音樂檢索系統(tǒng)的基本組成。
關(guān)鍵詞:音樂檢索;音樂分類;音樂信息檢索系統(tǒng)
1.序言
隨著多媒體和Internet的技術(shù)的發(fā)展和深入普及,推動(dòng)著各種基于Internet 的音頻應(yīng)用逐步走向?qū)嵱。各種音頻數(shù)據(jù)的數(shù)量正在呈指數(shù)增長(zhǎng),其信息量也在迅速膨脹。語音和音樂是兩類最重要的音頻信息。如何快速有效地在大量的音樂數(shù)據(jù)中查詢到所需要的內(nèi)容,已經(jīng)成為現(xiàn)代信息檢索領(lǐng)域的一個(gè)研究重點(diǎn)。
目前現(xiàn)有絕大多數(shù)的音樂搜索平臺(tái)都只支持文本的檢索,比如www.baibu.com。用戶可以通過歌名、歌詞等信息搜索到相關(guān)的音頻文件。但是,許多情況下,人們只記得一部分音樂內(nèi)容,比如旋律。他們希望可以通過這些信息直接搜索到相關(guān)的歌曲。如何基于實(shí)際音樂內(nèi)容快速查找到音樂信息成為當(dāng)前的一個(gè)研究熱點(diǎn)。
2.數(shù)字音頻
要對(duì)音樂信息進(jìn)行搜索,首先就需要了解音頻信息的記錄方式。當(dāng)前音頻信息聲音可通過多種格式進(jìn)行存儲(chǔ),總結(jié)下來基本上可以分為兩類:記錄聲音波形變化的格式(如WAV格式)和記錄聲音指令的格式(以MIDI格式為代表)。
波形音頻文件是以數(shù)字方式來表示波形,使用采樣位數(shù)、采樣頻率和聲道數(shù)這三個(gè)參數(shù):對(duì)聲波進(jìn)行采樣、量化、編碼,最后轉(zhuǎn)換成數(shù)字形式,并壓縮儲(chǔ)存的聲音文件。
而與波形文件相MIDI是Musical Instrument Digital Interface的縮寫,又稱作樂器數(shù)字接口,是數(shù)字音樂/電子合成樂器的統(tǒng)一國(guó)際標(biāo)準(zhǔn)。MIDI文件相對(duì)波形文件來說較小,它記錄的內(nèi)容是一系列可以被 PC 的聲卡解釋的數(shù)字音樂指令(音符)。
波形音頻文件是對(duì)實(shí)時(shí)播放的音樂信號(hào)進(jìn)行采樣和數(shù)字編碼,記錄了實(shí)際的演奏效果。而MIDI格式則是記錄的一系列音符的演奏信息,如音符的起始、結(jié)束、控制變化等等信息。
另外隨著網(wǎng)絡(luò)和多媒體技術(shù)的進(jìn)一步發(fā)展,人們對(duì)于數(shù)字音頻技術(shù)的研究進(jìn)一步深入,又出現(xiàn)了多種有損壓縮的編碼格式,這些編碼格式,以極小的聲音失真換取了較高的壓縮比,比如在因特網(wǎng)上廣泛流傳的.MP3格式就是其中的代表。
正是由于不同的音頻記錄格式,并且在每一種格式下又各自有著一系列不同的格式,如何使不同的格式能夠統(tǒng)一為一種能夠?yàn)橛?jì)算機(jī)檢索所識(shí)別的代碼就成為了音樂信息檢索面臨的主要問題。
3.音樂信息檢索
鑒于音樂信息的多種多樣,目前針對(duì)音樂信息的提取也提出的了多種方法。其中大致可以分為基于旋律和基于內(nèi)容兩種方法。
由于MIDI音樂的編碼方式較為簡(jiǎn)單,記錄的文件相對(duì)較小,目前音樂信息檢索的一個(gè)方向就是把復(fù)雜的波形文件進(jìn)行一定的處理,使之成為一段類似于MIDI音樂文件的旋律編碼。目前有一些音樂信息檢索的研究方向就是以MIDI文件為核心,把一系類不同格式的音樂文件通過系統(tǒng)自動(dòng)分析和處理,轉(zhuǎn)化成為以記錄音樂文件旋律為主的MIDI文件,再通過與其他MIDI文件之間的相互匹配,最終達(dá)到查找出相似旋律文件的目的。
而基于內(nèi)容的音頻信息檢索技術(shù)則直接對(duì)音頻進(jìn)行分析,從中抽取內(nèi)容特征,然后利用這些內(nèi)容特征建立索引并進(jìn)行檢索,避免了用MIDI文件作為音頻信息的`轉(zhuǎn)化過程。因而基于內(nèi)容的音頻數(shù)據(jù)信息檢索是目前發(fā)展比較迅速,研究較為深入的一個(gè)方向,它可以成為其他許多應(yīng)用研究的基礎(chǔ)。
4.基于內(nèi)容的音樂信息檢索
4.1音頻的抽。
對(duì)數(shù)字音樂進(jìn)行搜索的前提條件,就需要明確那一段音樂是我們要進(jìn)行搜索的目標(biāo),有的搜索是針對(duì)整個(gè)一個(gè)音樂文件而言,需要做到所有整個(gè)音樂文件的匹配,這樣的搜索相對(duì)費(fèi)時(shí),而有些搜索只要求搜索內(nèi)容相近,或者部分相似的內(nèi)容,這樣我們就不需要對(duì)整個(gè)音樂文件都去進(jìn)行信息的抽取。在明確信息搜索的目標(biāo)后,我們就需要對(duì)信息進(jìn)行提取,目前提取特征有兩種方法:一是提取感性特征,如音高、響度、節(jié)奏;二是計(jì)算非感性屬性或稱物理特性,如Mel頻率倒頻譜系數(shù)、平均過零率、線性預(yù)測(cè)系數(shù)等
4.2音頻的分類:
由于目前的數(shù)字音樂文件數(shù)量龐大,要將所有的文件都遍歷之后進(jìn)行查詢顯然不可能。因此目前常用的方法主要是實(shí)現(xiàn)按一定的方法將音樂文件進(jìn)行分類,如分為然后根據(jù)特征文件的分類按圖索驥去進(jìn)行有針對(duì)的查找。
目前常用的音頻分類方法主要有:
。1)基于決策樹的分類方法
所謂決策樹是一個(gè)類似流程圖的樹型結(jié)構(gòu),樹的每個(gè)結(jié)點(diǎn)代表一個(gè)屬性(取值) 的測(cè)試,其分支代表測(cè)試結(jié)果,樹的每個(gè)葉結(jié)點(diǎn)代表-個(gè)類別。樹的最高層結(jié)點(diǎn)是根結(jié)點(diǎn)。
。2)神經(jīng)網(wǎng)絡(luò)分類算法
神經(jīng)網(wǎng)絡(luò)是一組相互連接的輸入輸出單元,這些單元之間的每個(gè)連接都關(guān)聯(lián)一個(gè)權(quán)重。 在網(wǎng)絡(luò)學(xué)習(xí)階段,網(wǎng)絡(luò)通過調(diào)整權(quán)重來實(shí)現(xiàn)輸入樣本與其相應(yīng)(正確) 類別的對(duì)應(yīng)。 由于網(wǎng)絡(luò)學(xué)習(xí)主要是針對(duì)其中的連接權(quán)重進(jìn)行,因此神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)有時(shí)也稱為連接學(xué)習(xí)。
。3)貝葉斯分類方法
貝葉斯分類算法是統(tǒng)計(jì)學(xué)分類方法,它是一類利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法。在許多場(chǎng)合,樸素貝葉斯分類算法可以與決策樹和神經(jīng)網(wǎng)絡(luò)分類算法相媲美,該算法能運(yùn)用到大型數(shù)據(jù)庫(kù)中,且方法簡(jiǎn)單、分類準(zhǔn)確率高、速度快。[5]
。4)近鄰算法
用該方法進(jìn)行預(yù)測(cè)的基本概念就是相互之間"接近"的對(duì)象具有相似的預(yù)測(cè)值。如果知道其中一個(gè)對(duì)象的預(yù)測(cè)值后,可以預(yù)測(cè)其最近的鄰居對(duì)象。
5.基于內(nèi)容的音樂信息檢索系統(tǒng)
由于目前音樂信息檢索還不能做到完全自動(dòng)化,因此目前的音樂信息檢索系統(tǒng)應(yīng)該包含以下一些步驟:
第一步,建立數(shù)據(jù)庫(kù)。對(duì)數(shù)字音樂進(jìn)行分析,并提取特征,再通過音頻分割,識(shí)別分類以后將音樂數(shù)據(jù)裝入數(shù)據(jù)庫(kù)的原始音頻庫(kù),將特征裝入音頻特征庫(kù)。數(shù)據(jù)庫(kù)建立以后就可以進(jìn)行音樂信息檢索。
第二步,確定查詢特征矢量。即用戶通過查詢界面確定樣本并設(shè)定屬性值,可以是一段哼唱的聲音,可以是具體的數(shù)字音樂文件,然后提交查詢,系統(tǒng)對(duì)樣本提取特征,結(jié)合屬性值確定查詢特征矢量。
第三步,查詢特征匹配。檢索引擎對(duì)特征矢量與聚類參數(shù)集匹配,按相關(guān)性從大到小的順序在特征庫(kù)和原始音樂庫(kù)中檢索一定數(shù)量的相應(yīng)數(shù)據(jù),并通過查詢接口返回給用戶。其中,原始音樂庫(kù)存放的是音樂數(shù)據(jù);特征庫(kù)存放音樂數(shù)據(jù)的特征,按一定順序存放;聚類參數(shù)庫(kù)是對(duì)音頻特征進(jìn)行聚類所得的參數(shù)集,包括特征矢量空間的碼本、閾值等信息。
第四步,查詢結(jié)果求精。用戶通過人機(jī)交互, 對(duì)檢索的結(jié)果逐步求精, 不斷縮小匹配集合的范圍, 從而定位到符合用戶需求的音樂文件。
【基于內(nèi)容的音樂信息檢索研究論文】相關(guān)文章: