亚洲国产日韩欧美在线a乱码,国产精品路线1路线2路线,亚洲视频一区,精品国产自,www狠狠,国产情侣激情在线视频免费看,亚洲成年网站在线观看

目錄式搜索引擎的體系架構(gòu)研究

目錄式搜索引擎的體系架構(gòu)研究

  爬蟲(chóng)子系統(tǒng)是搜索引擎獲取資源的主要方式,下面是小編搜集整理的一篇關(guān)于目錄式搜索引擎的體系架構(gòu)研究的論文范文,歡迎閱讀借鑒。

目錄式搜索引擎的體系架構(gòu)研究

  引言

  信息檢索系統(tǒng)主要為互聯(lián)網(wǎng)用戶(hù)提供對(duì)資源的檢索服務(wù),用戶(hù)通過(guò)輸入自己想要尋找的資源信息(諸如資源的部分名稱(chēng),資源內(nèi)容中相關(guān)關(guān)鍵詞等),信息檢索系統(tǒng)根據(jù)用戶(hù)提供的檢索需求進(jìn)行資源匹配和資源定位,并按照一定的順序?qū)⑵ヅ涞馁Y源反饋給用戶(hù)。搜索引擎是在信息檢索系統(tǒng)的基礎(chǔ)上發(fā)展而來(lái),目前的搜索引擎可以大致分為:目錄式搜索引擎,元搜索引擎,語(yǔ)義搜索引擎等。目錄式搜索引擎以當(dāng)前主流的百度搜索引擎(基于中文的搜索)和谷歌搜索引擎(基于多種語(yǔ)言的搜索)為代表,本文也主要以目錄式搜索引擎為例,展開(kāi)對(duì)搜索引擎體系架構(gòu)的研究。

  搜索引擎體系架構(gòu)

  相比于信息檢索系統(tǒng),搜索引擎在檢索詞輸入時(shí)更加靈活,對(duì)資源的預(yù)處理方面,搜索引擎系統(tǒng)優(yōu)化了更多的細(xì)節(jié),在對(duì)資源的相似度匹配方面,搜索引擎需要考慮更多的因素在綜合定量用戶(hù)檢索詞和資源之間的相似度,最后的排序輸出更是衍生出很多優(yōu)秀的排序算法?傮w來(lái)說(shuō),搜索引擎主要分為:索引子系統(tǒng),內(nèi)容管理子系統(tǒng),鏈接分析子系統(tǒng)和結(jié)果排序子系統(tǒng),搜索引擎的體系架構(gòu)如圖1所示。

  1、爬蟲(chóng)子系統(tǒng)

  爬蟲(chóng)子系統(tǒng)是搜索引擎獲取資源的主要方式,爬蟲(chóng)子系統(tǒng)通過(guò)在互聯(lián)網(wǎng)環(huán)境下運(yùn)行爬蟲(chóng)子程序,定期的對(duì)互聯(lián)網(wǎng)資源進(jìn)行檢查,判斷指定URL鏈接的內(nèi)容是否發(fā)生變更并適時(shí)的對(duì)數(shù)據(jù)進(jìn)行更新,并將更新后的數(shù)據(jù)反饋給數(shù)據(jù)庫(kù)系統(tǒng)。爬蟲(chóng)子系統(tǒng)目前主要采用兩種方式進(jìn)行資源爬。涸隽渴脚廊『屠鄯e式爬取。增量式爬取表示爬蟲(chóng)子系統(tǒng)根據(jù)當(dāng)前URL鏈接遞增的去遍歷下一條網(wǎng)頁(yè);累積式爬取表示根據(jù)當(dāng)前URL鏈接遍歷所有與之相連的網(wǎng)頁(yè),并將新得到的URL鏈接加入到隊(duì)列,完成遍歷后從隊(duì)列中取新的URL繼續(xù)遍歷。爬蟲(chóng)子系統(tǒng)性能的優(yōu)良直接決定了最終搜索引擎結(jié)果的`輸出質(zhì)量,因?yàn)樵跀?shù)據(jù)的篩選階段主要也是依賴(lài)爬蟲(chóng)子系統(tǒng)進(jìn)行數(shù)據(jù)過(guò)濾,篩選出有價(jià)值的資源信息。

  2、索引子系統(tǒng)

  索引子系統(tǒng)則是承接了爬蟲(chóng)子系統(tǒng)的數(shù)據(jù)資源,互聯(lián)網(wǎng)數(shù)據(jù)呈現(xiàn)的是一種無(wú)規(guī)則或者半結(jié)構(gòu)的數(shù)據(jù),面對(duì)如此不規(guī)整的數(shù)據(jù)格式,搜索引擎難以完成對(duì)資源的篩選和排序工作,因此索引子系統(tǒng)主要針對(duì)這種情況,通過(guò)對(duì)網(wǎng)絡(luò)爬蟲(chóng)爬取的數(shù)據(jù)資源進(jìn)行梳理,按照規(guī)則對(duì)數(shù)據(jù)進(jìn)行規(guī)則化。倒排索引堪稱(chēng)是在信息檢索領(lǐng)域?qū)?shù)據(jù)規(guī)則化最為有效的方式,我們通常對(duì)數(shù)據(jù)的認(rèn)知是從正排索引開(kāi)始,即根據(jù)資源名稱(chēng),聯(lián)想到資源的內(nèi)容相關(guān)信息;倒排索引則與此相反,倒排索引根據(jù)關(guān)鍵詞和概念特征去反推具體的資源名稱(chēng)。諸如我們?cè)谟懻撐鋫b時(shí),會(huì)先想到“孤獨(dú)求敗”、“喬峰”等,根據(jù)這些關(guān)鍵詞和概念特征,我們會(huì)繼續(xù)反推得到對(duì)應(yīng)的金庸先生相關(guān)武俠著作的書(shū)名:“神雕俠侶”和“天龍八部”等。這種推理的方式和我們的搜索引擎系統(tǒng)是何其相似,用戶(hù)通過(guò)輸入相關(guān)關(guān)鍵詞和概念來(lái)獲得對(duì)應(yīng)的資源信息。

  基于倒排索引的理論基礎(chǔ),我們對(duì)搜索引擎的數(shù)據(jù)資源進(jìn)行結(jié)構(gòu)重組。首先需要對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)分詞和關(guān)鍵詞提取,對(duì)中文的分詞是一項(xiàng)非常復(fù)雜的工作,中文不像英文那樣,天然的以空格進(jìn)行分割,中文分詞需要將中文字符序列按照詞義進(jìn)行分割,分割后的每個(gè)單元都是一個(gè)關(guān)鍵詞,進(jìn)行對(duì)中文進(jìn)行分詞需要符合中文的語(yǔ)言規(guī)范和特點(diǎn),需要保證分詞之后,每個(gè)單元都是一個(gè)完整的語(yǔ)義部分,同時(shí)還需要考慮分割之后語(yǔ)義的最大完整性,另一方面,在分詞過(guò)程中要考慮對(duì)停用詞(對(duì)整個(gè)語(yǔ)義表達(dá)沒(méi)有實(shí)際含義的詞,如“的”)的去重工作。分詞和停用詞操作相當(dāng)于對(duì)數(shù)據(jù)的初始化處理,經(jīng)過(guò)初始化之后,則完成了數(shù)據(jù)的初始化工作,索引子系統(tǒng)的構(gòu)建是建立在數(shù)據(jù)初始化之后,文檔經(jīng)過(guò)分詞之后,文檔都由一系列關(guān)鍵詞組成,此時(shí)可以建立文檔和關(guān)鍵詞之間的二維矩陣,二維矩陣中對(duì)應(yīng)的權(quán)值信息表示關(guān)鍵詞在文檔中的權(quán)值信息,關(guān)鍵詞在文檔中的權(quán)值可以通過(guò)多種方式加以計(jì)算,目前主要由:TF方法,DF方法,TF-IDF方法,CHI方法,IG方法和MI方法。

  3、鏈接分析子系統(tǒng)

  鏈接分析子系統(tǒng)曾是谷歌的發(fā)家算法,并且在數(shù)據(jù)挖掘和搜索引擎享有極高的評(píng)價(jià),鏈接分析子系統(tǒng)通過(guò)對(duì)互聯(lián)網(wǎng)中數(shù)據(jù)進(jìn)行建模分析,發(fā)現(xiàn)互聯(lián)網(wǎng)網(wǎng)頁(yè)之間通過(guò)URL鏈接建立彼此之間的聯(lián)系,網(wǎng)頁(yè)之間通過(guò)超鏈接關(guān)系進(jìn)行頁(yè)面跳轉(zhuǎn)。通過(guò)對(duì)互聯(lián)網(wǎng)鏈接關(guān)系的深度分析,網(wǎng)頁(yè)質(zhì)量越高的網(wǎng)頁(yè),其被其它網(wǎng)頁(yè)所鏈向的可能性越大,反之亦然,通過(guò)對(duì)這一規(guī)律進(jìn)行深度分析并構(gòu)建模型,得出互聯(lián)網(wǎng)網(wǎng)頁(yè)的質(zhì)量評(píng)價(jià)模型:即網(wǎng)頁(yè)的質(zhì)量由鏈向其網(wǎng)頁(yè)的數(shù)量所決定。網(wǎng)頁(yè)的質(zhì)量用PageRank值(PR值)表示,如公式1所示。

  PageRank(PR)值=重新訪問(wèn)概率+迭代訪問(wèn)概率(公式1)。

  假設(shè)互聯(lián)網(wǎng)用戶(hù)采用兩種方式進(jìn)行網(wǎng)頁(yè):其一、通過(guò)一個(gè)網(wǎng)頁(yè)目錄,隨機(jī)的選擇其中一個(gè)網(wǎng)頁(yè)進(jìn)行瀏覽,瀏覽結(jié)束之后,重新回到網(wǎng)頁(yè)目錄,再次選取新的URL進(jìn)行訪問(wèn);其二、隨機(jī)選擇一個(gè)網(wǎng)頁(yè)URL進(jìn)行訪問(wèn),從該網(wǎng)頁(yè)中提取URL鏈接列表,從URL鏈接列表中隨機(jī)選擇一個(gè)網(wǎng)頁(yè)URL繼續(xù)訪問(wèn)。我們定義為該訪問(wèn)模式和隨機(jī)游走模型,并得出網(wǎng)頁(yè)質(zhì)量的量化評(píng)價(jià)公式,如公式2所示。

  在公式2中,p表示采用重新訪問(wèn)的方式進(jìn)行頁(yè)面瀏覽的概率,相應(yīng)地采用迭代訪問(wèn)的概率為(1-p),迭代訪問(wèn)時(shí)用戶(hù)選擇下一個(gè)頁(yè)面進(jìn)行訪問(wèn)的概率取決于下一個(gè)頁(yè)面的PR值,從某個(gè)頁(yè)面鏈出的網(wǎng)頁(yè)可能有多個(gè),表示的是對(duì)每一個(gè)鏈出網(wǎng)頁(yè)都采取平均分配權(quán)值的方式。

  4、結(jié)果排序子系統(tǒng)

  結(jié)果排序子系統(tǒng)是用戶(hù)直接與搜索引擎進(jìn)行交互的部分,結(jié)果排序子系統(tǒng)通過(guò)對(duì)符合用戶(hù)篩選條件的數(shù)據(jù)庫(kù)中資源進(jìn)行排序并輸出。排序子系統(tǒng)需要綜合考慮多種因素,諸如網(wǎng)頁(yè)自身的PR值,用戶(hù)檢索詞和數(shù)據(jù)資源之間的相似度值等多個(gè)方面。同時(shí),排序子系統(tǒng)需要考慮如何保證用戶(hù)需要的資源排在靠前的位置。相關(guān)研究發(fā)現(xiàn),用戶(hù)通常只會(huì)對(duì)前幾頁(yè)的搜索引擎結(jié)果進(jìn)行點(diǎn)擊,因此排序子系統(tǒng)不僅要保證結(jié)構(gòu)輸出的準(zhǔn)確性,即既要保證準(zhǔn)確率和召回率,同時(shí)非常重要的因素是首頁(yè)命中率。

  總結(jié)

  本文通過(guò)對(duì)當(dāng)前主流的目錄式搜索引擎的體系架構(gòu)進(jìn)行研究,主要就爬蟲(chóng)子系統(tǒng)、索引子系統(tǒng)、鏈接分析子系統(tǒng)和結(jié)果排序子系統(tǒng)四部分進(jìn)行論述,并就每種子系統(tǒng)中關(guān)鍵詞技術(shù)進(jìn)行了介紹。

  參考文獻(xiàn):

  [1]羊晶璟,鞠時(shí)光,王秀紅。基于Web的個(gè)性化搜索引擎的研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,20:5206-5208.

  [2]李廣麗,劉覺(jué)夫。垂直搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)[J].情報(bào)雜志,2009,10:144-147+169.

  [3]文必龍,張璇,趙晶浩,趙滿(mǎn)。企業(yè)搜索引擎?zhèn)性化排序方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2013,04:199-203.

  [4]佟曉筠,王翥。一種特定領(lǐng)域智能搜索引擎技術(shù)的研究[J].計(jì)算機(jī)應(yīng)用研究,2004,05:49-51.

【目錄式搜索引擎的體系架構(gòu)研究】相關(guān)文章:

圖書(shū)檢索系統(tǒng)體系架構(gòu)研究11-04

紅帽認(rèn)證體系架構(gòu)介紹11-10

流媒體系統(tǒng)架構(gòu)的應(yīng)用11-11

j2ee技術(shù)體系架構(gòu)10-27

分布式系統(tǒng)架構(gòu)實(shí)踐05-31

關(guān)于分布式系統(tǒng)架構(gòu)07-12

SOA體系架構(gòu)下的企業(yè)系統(tǒng)集成11-04

軟件工程體系的架構(gòu)和發(fā)展分析07-20

醫(yī)院成本會(huì)計(jì)體系架構(gòu)論文08-11