網(wǎng)頁(yè)模糊歸類算法的應(yīng)用與實(shí)現(xiàn)

時(shí)間：2024-08-30 14:08:25 計(jì)算機(jī)畢業(yè)論文我要投稿

相關(guān)推薦

摘要：本文運(yùn)用以模糊綜合評(píng)判為核心的理論實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的模糊自動(dòng)歸類，詳細(xì)闡述了網(wǎng)頁(yè)模糊歸類算法(FWCA)，并且通過(guò)一個(gè)實(shí)例闡明了實(shí)現(xiàn)過(guò)程。作者利用此算法親自設(shè)計(jì)實(shí)現(xiàn)了一個(gè)“網(wǎng)頁(yè)模糊歸類測(cè)試系統(tǒng)”，通過(guò)分析大量實(shí)驗(yàn)數(shù)據(jù)證明了利用此算法得歸類效果非常穩(wěn)定和準(zhǔn)確。

關(guān)鍵詞：FWCA 模糊綜合評(píng)判網(wǎng)頁(yè)歸類分類瀏覽搜索引擎

自有文字和書籍以來(lái)，人類就開(kāi)始注意文章的分門別類和編撰目錄。那些目錄事實(shí)上就將文章按照內(nèi)容的類別進(jìn)行了分類。九十年代以來(lái)，Internet 以驚人的速度發(fā)展起來(lái)，Web的容量增長(zhǎng)迅速，平均每天增加100萬(wàn)個(gè)頁(yè)面。計(jì)算技術(shù)發(fā)展到今天，靠人來(lái)閱讀互聯(lián)網(wǎng)上信息和對(duì)網(wǎng)上信息做分門別類和總結(jié)已經(jīng)不可能。
搜索引擎的分類瀏覽模式由此應(yīng)運(yùn)而生。它的目錄分類的質(zhì)量較高，檢索效果好；但是需要人工維護(hù)，因此存在成本高、信息更新慢、維護(hù)的工作量大的缺點(diǎn)。而基于模糊技術(shù)的網(wǎng)頁(yè)自動(dòng)歸類能依據(jù)網(wǎng)頁(yè)中所包含的文本的語(yǔ)義將大量的網(wǎng)頁(yè)自動(dòng)分門別類，從而更好地幫助人們把握網(wǎng)絡(luò)信息。

網(wǎng)頁(yè)模糊歸類步驟與算法
簡(jiǎn)單地說(shuō)，網(wǎng)頁(yè)自動(dòng)歸類所要完成的任務(wù)就是在給定的分類體系下，根據(jù)網(wǎng)頁(yè)的內(nèi)容自動(dòng)地確定網(wǎng)頁(yè)關(guān)聯(lián)的類別。如果從純數(shù)學(xué)角度來(lái)看，網(wǎng)頁(yè)分類的過(guò)程實(shí)際上就是一個(gè)多對(duì)多的映射過(guò)程。依據(jù)“貝葉斯假設(shè)”的內(nèi)容，可以假定組成網(wǎng)頁(yè)的元素在確定網(wǎng)頁(yè)類別的作用上相互獨(dú)立。這樣，可以使用網(wǎng)頁(yè)中出現(xiàn)的字或詞的集合來(lái)代替網(wǎng)頁(yè)，即用一個(gè)向量來(lái)表示文本：D（W1,W2,W3……Wn），其中 Wi 為第 i 個(gè)元素（以下均稱為“特征項(xiàng)”）的數(shù)值。當(dāng)然，這將丟失大量關(guān)于網(wǎng)頁(yè)內(nèi)容的信息，但是這種假設(shè)可以使網(wǎng)頁(yè)的表示和處理形式化，從而讓計(jì)算機(jī)可以處理網(wǎng)頁(yè)。
構(gòu)成網(wǎng)頁(yè)中的文本的詞匯，數(shù)量是相當(dāng)大的，因此，表示網(wǎng)頁(yè)的向量空間的維數(shù)也相當(dāng)大，可以達(dá)到幾萬(wàn)維，所有幾萬(wàn)個(gè)詞匯對(duì)網(wǎng)頁(yè)分類的意義是不同的。首先，需要考慮詞語(yǔ)的性質(zhì)。一些通用的、各個(gè)類別都普遍存在的詞匯對(duì)分類的貢獻(xiàn)是很小的，因此特征提取過(guò)程需要去掉對(duì)表達(dá)網(wǎng)頁(yè)類別不太重要的詞匯。例如“的”、“地”、“得”、“著”、“了”等等。其次，在某特定類中出現(xiàn)比重大而在其他類中出現(xiàn)比重小的詞匯對(duì)文本分類的貢獻(xiàn)大，為了提高分類精度，可以利用詞語(yǔ)的互信息量篩選出針對(duì)該類的特征項(xiàng)集合。具體操作方法是算出每個(gè)詞語(yǔ)的互信息量并排序，然后抽取前ｎ個(gè)詞語(yǔ)作為該類別的特征項(xiàng)，抽取的原則是反復(fù)試驗(yàn)使得網(wǎng)頁(yè)歸類效果最優(yōu)�；バ畔⒘�(I)計(jì)算公式由下式給出：

為了讓計(jì)算機(jī)為我們進(jìn)行網(wǎng)頁(yè)的自動(dòng)歸類，必須先對(duì)計(jì)算機(jī)進(jìn)行訓(xùn)練。只要訓(xùn)練網(wǎng)頁(yè)足夠多，那么由計(jì)算機(jī)進(jìn)行的歸類活動(dòng)也將是準(zhǔn)確的。所有的訓(xùn)練樣本都需表示為向量。并使用每個(gè)詞的相對(duì)詞頻（TF-IDF 公式）對(duì)網(wǎng)頁(yè)樣本的特征項(xiàng)進(jìn)行量化。然后，將每個(gè)類別中的所有訓(xùn)練樣本數(shù)據(jù)合成為一個(gè)平均參照樣本，計(jì)算方法就是將每個(gè)特征項(xiàng)的值求算術(shù)平均。相對(duì)詞頻計(jì)算公式由下式給出：

在歸類過(guò)程中，采用三級(jí)模糊綜合評(píng)判。一級(jí)指標(biāo)因素集（網(wǎng)頁(yè)中出現(xiàn)位置）包括：網(wǎng)頁(yè)題名、文章標(biāo)題、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML標(biāo)記。二級(jí)指標(biāo)因素集（詞性）包括：名詞, 動(dòng)詞, 形容詞, 副詞, 介詞, 連詞, 助詞, 數(shù)字, 符號(hào)。三級(jí)指標(biāo)因素集：待分類網(wǎng)頁(yè)中所包含的全部詞語(yǔ)的頻數(shù)。評(píng)價(jià)集確定為V={V1(不屬于0), V2(不太可能屬于0.25), V3(可能屬于0.5), V4(很可能屬于0.75), V5(屬于1)}。
專家隨機(jī)抽取了300篇網(wǎng)頁(yè)，對(duì)這些網(wǎng)頁(yè)進(jìn)行人工自由標(biāo)引、人工打分、詞頻統(tǒng)計(jì)，并進(jìn)行統(tǒng)計(jì)數(shù)據(jù)的分析、研究，將一級(jí)指標(biāo)因素權(quán)重集確定為A={0.128, 0.128, 0.128, 0.104, 0.104, 0.104, 0.06, 0.06, 0.06, 0.06, 0.05, 0.05}；根據(jù)語(yǔ)言學(xué)專家對(duì)各類別中不同詞性的詞語(yǔ)對(duì)標(biāo)志一個(gè)類別（以中圖分類法為標(biāo)準(zhǔn)）重要性程度統(tǒng)計(jì)和評(píng)分，將二級(jí)指標(biāo)因素權(quán)重集確定為An={0.28, 0.18, 0.24, 0.06, 0.05, 0.04, 0.04, 0.06, 0.05}；根據(jù)詞語(yǔ)的互信息量確定出三級(jí)指標(biāo)因素權(quán)重為Anm={Anm1, Anm2 … Anmx} 其中，Anmx即為對(duì)應(yīng)詞語(yǔ)的互信息量
隸屬函數(shù)采用卡夫曼教授提出的隸屬函數(shù)確定方法（正態(tài)分布模型）確定如下：
① 詞頻針對(duì)“不屬于”的隸屬函數(shù)

② 詞頻針對(duì)“不太可能屬于”的隸屬函數(shù)

③ 詞頻針對(duì)“不可能屬于”的隸屬函數(shù)

④ 詞頻針對(duì)“很可能屬于”的隸屬函數(shù)

⑤ 頻針對(duì)“屬于”的隸屬函數(shù)

其中，axyz是訓(xùn)練樣本中詞語(yǔ)的相對(duì)詞頻；x為樣本網(wǎng)頁(yè)中對(duì)應(yīng)詞的統(tǒng)計(jì)詞頻；系數(shù)是通過(guò)人工評(píng)判得到一些特殊點(diǎn)，由待定系數(shù)法求出的。
下面就要根據(jù)多級(jí)模糊綜合評(píng)判的計(jì)算方法與步驟將待歸類網(wǎng)頁(yè)與所有類別的平均參照樣本進(jìn)行一遍計(jì)算，得出一組表示該網(wǎng)頁(yè)與各個(gè)類別貼近度的數(shù)值。然后按照“最大隸屬原則”，將網(wǎng)頁(yè)劃到Vn值最大的對(duì)應(yīng)的類別中；或者用“域值法”，事先確定一個(gè)不大于1的域值λ，若Vn

【網(wǎng)頁(yè)模糊歸類算法的應(yīng)用與實(shí)現(xiàn)】相關(guān)文章：

圖像處理中的模糊算法及實(shí)現(xiàn)03-13

圖像拼接算法及實(shí)現(xiàn)03-03

FFT算法的研究與DSP實(shí)現(xiàn)03-07

多傳感器模糊信息融合算法在煤礦瓦斯監(jiān)測(cè)中的應(yīng)用03-07

鐵路行包配裝算法研究與實(shí)現(xiàn)03-02

3-DES算法的FPGA高速實(shí)現(xiàn)03-20

高級(jí)加密標(biāo)準(zhǔn)Rijndael算法的分析及實(shí)現(xiàn)11-23

指紋預(yù)處理算法與實(shí)現(xiàn)的研究03-07

基于SOPC的LMS自適應(yīng)濾波算法實(shí)現(xiàn)03-07

亚洲国产日韩欧美在线a乱码,国产精品路线1路线2路线,亚洲视频一区,精品国产自,www狠狠,国产情侣激情在线视频免费看,亚洲成年网站在线观看

網(wǎng)頁(yè)模糊歸類算法的應(yīng)用與實(shí)現(xiàn)