- 相關(guān)推薦
搜索引擎技術(shù)及趨勢(shì)
搜索引擎技術(shù)及趨勢(shì)隨著因特網(wǎng)的迅猛發(fā)展、WEB信息的增加,用戶要在信息海洋里查找信息,就象大海撈針一樣, 搜索引擎技術(shù)恰好解決了這一難題(它可以為用戶提供信息檢索服務(wù))。目前,搜索引擎技術(shù)正成為計(jì)算機(jī)工業(yè)界和學(xué)術(shù)界爭(zhēng)相研究、開發(fā)的對(duì)象。
李曉明:1982年畢業(yè)于哈爾濱工業(yè)大學(xué),1986年畢業(yè)于美國史蒂文斯理工學(xué)院計(jì)算機(jī)系,獲博士學(xué)位。現(xiàn)任北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系教授,博士生導(dǎo)師,系主任. 研究方向?yàn)橛?jì)算機(jī)并行與分布處理。
劉建國:北京大學(xué)計(jì)算機(jī)系副教授。
搜索引擎(Search Engine)是隨著WEB信息的迅速增加,從1995年開始逐漸發(fā)展起來的技術(shù)。據(jù)發(fā)表在《科學(xué)》雜志1999年7月的文章《WEB信息的可訪問性》估計(jì),全球目前的網(wǎng)頁超過8億,有效數(shù)據(jù)超過9T,并且仍以每4個(gè)月翻一番的速度增長。用戶要在如此浩瀚的信息海洋里尋找信息,必然會(huì)"大海撈針"無功而返。搜索引擎正是為了解決這個(gè)"迷航"問題而出現(xiàn)的技術(shù)。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的。搜索引擎提供的導(dǎo)航服務(wù)已經(jīng)成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡(luò)服務(wù),搜索引擎站點(diǎn)也被美譽(yù)為"網(wǎng)絡(luò)門戶"。搜索引擎技術(shù)因而成為計(jì)算機(jī)工業(yè)界和學(xué)術(shù)界爭(zhēng)相研究、開發(fā)的對(duì)象。本文旨在對(duì)搜索引擎的關(guān)鍵技術(shù)進(jìn)行簡(jiǎn)單的介紹,以起到拋磚引玉的作用。
分 類
按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類:
1.目錄式搜索引擎:以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄,所以信息?zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類搜索引擎的代表是: YAHOO、Open Directory、Go Guide等。
2.機(jī)器人搜索引擎:由一個(gè)稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫,并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁的全文檢索服務(wù)。該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù),缺點(diǎn)是返回信息過多,有很多無關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是: 、Northern Light、Excite、Infoseek、FAST、 Lycos、GOOGLE;國內(nèi)代表為:"天網(wǎng)"、悠游、OpenFind等。
3.元搜索引擎:這類搜索引擎沒有自己的數(shù)據(jù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶。服務(wù)方式為面向網(wǎng)頁的全文檢索。這類搜索引擎的優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全,缺點(diǎn)是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類搜索引擎的代表是WebCrawler、InfoMarket等。
性 能 指 標(biāo)
我們可以將WEB信息的搜索看作一個(gè)信息檢索問題,即在由WEB網(wǎng)頁組成的文檔庫中檢索出與用戶查詢相關(guān)的文檔。所以我們可以用衡量傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)-召回率(Recall)和精度(Pricision)衡量一個(gè)搜索引擎的性能。
召回率是檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎)的查全率;精度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎)的查準(zhǔn)率。對(duì)于一個(gè)檢索系統(tǒng)來講,召回率和精度不可能兩全其美:召回率高時(shí),精度低,精度高時(shí),召回率低。所以常常用11種召回率下11種精度的平均值(即11點(diǎn)平均精度)來衡量一個(gè)檢索系統(tǒng)的精度。對(duì)于搜索引擎系統(tǒng)來講,因?yàn)闆]有一個(gè)搜索引擎系統(tǒng)能夠搜集到所有的WEB網(wǎng)頁,所以召回率很難計(jì)算。目前的搜索引擎系統(tǒng)都非常關(guān)心精度。
影響一個(gè)搜索引擎系統(tǒng)的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢的表示方法、評(píng)價(jià)文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相關(guān)度反饋的機(jī)制。
主 要 技 術(shù)
一個(gè)搜索引擎由搜索器、索引器、檢索器和用戶接口等四個(gè)部分組成。
1.搜索器
搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個(gè)計(jì)算機(jī)程序,日夜不停地運(yùn)行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時(shí)因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過的舊信息,以避免死連接和無效連接。目前有兩種搜集信息的策略:
● 從一個(gè)起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(diǎn)(如Yahoo!)。
● 將Web空間按照域名、IP地址或國家域名劃分,每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡搜索。
搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、字處理文檔、多媒體信息。
搜索器的實(shí)現(xiàn)常常用分布式、并行計(jì)算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬網(wǎng)頁。
2.索引器
索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫的索引表。
索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種:客觀項(xiàng)與文檔的語意內(nèi)容無關(guān),如作者名、URL、更新時(shí)間、編碼、長度、鏈接流行度(Link Popularity)等等;內(nèi)容索引項(xiàng)是用來反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語、單字等等。內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和多索引項(xiàng)(或稱短語索引項(xiàng))兩種。單索引項(xiàng)對(duì)于英文來講是英語單詞,比較容易提取,因?yàn)閱卧~之間有天然的分隔符(空格);對(duì)于中文等連續(xù)書寫的語言,必須進(jìn)行詞語的切分。
在搜索引擎中,一般要給單索引項(xiàng)賦與一個(gè)權(quán)值,以表示該索引項(xiàng)對(duì)文檔的區(qū)分度,同時(shí)用來計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短語索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語言學(xué)法。
索引表一般使用某種形式的倒排表(Inversion List),即由索引項(xiàng)查找相應(yīng)的文檔。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系(proximity)。
索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí),必須實(shí)現(xiàn)即時(shí)索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引算法對(duì)索引器的性能(如大規(guī)模峰值查詢時(shí)的響應(yīng)速度)有很大的影響。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。
3.檢索器
檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓熘锌焖贆z出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。
檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。
4.用戶接口
用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。用戶接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。 用戶輸入接口可以分為簡(jiǎn)單接口和復(fù)雜接口兩種。
簡(jiǎn)單接口只提供用戶輸入查詢串的文本框;復(fù)雜接口可以讓用戶對(duì)查詢進(jìn)行限制,如邏輯運(yùn)算(與、或、非;+、-)、相近關(guān)系(相鄰、NEAR)、域名范圍(如.edu、.com)、出現(xiàn)位置(如標(biāo)題、內(nèi)容)、信息時(shí)間、長度等等。目前一些公司和機(jī)構(gòu)正在考慮制定查詢選項(xiàng)的標(biāo)準(zhǔn)。
未 來 動(dòng) 向
搜索引擎已成為一個(gè)新的研究、開發(fā)領(lǐng)域。因?yàn)樗玫叫畔z索、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領(lǐng)域的理論和技術(shù),所以具有綜合性和挑戰(zhàn)性。又由于搜索引擎有大量的用戶,有很好的經(jīng)濟(jì)價(jià)值,所以引起了世界各國計(jì)算機(jī)科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注,目前的研究、開發(fā)十分活躍,并出現(xiàn)了很多值得注意的動(dòng)向。
1.十分注意提高信息查詢結(jié)果的精度,提高檢索的有效性
用戶在搜索引擎上進(jìn)行信息查詢時(shí),并不十分關(guān)注返回結(jié)果的多少,而是看結(jié)果是否和自己的需求吻合。對(duì)于一個(gè)查詢,傳統(tǒng)的搜索引擎動(dòng)輒返回幾十萬、幾百萬篇文檔,用戶不得不在結(jié)果中篩選。解決查詢結(jié)果過多的現(xiàn)象目前出現(xiàn)了幾種方法:一是通過各種方法獲得用戶沒有在查詢語句中表達(dá)出來的真正用途,包括使用智能代理跟蹤用戶檢索行為,分析用戶模型;使用相關(guān)度反饋機(jī)制,使用戶告訴搜索引擎哪些文檔和自己的需求相關(guān)(及其相關(guān)的程度),哪些不相關(guān),通過多次交互逐步求精。二是用正文分類(Text Categorization)技術(shù)將結(jié)果分類,使用可視化技術(shù)顯示分類結(jié)構(gòu),用戶可以只瀏覽自己感興趣的類別。三是進(jìn)行站點(diǎn)類聚或內(nèi)容類聚,減少信息的總量。
2.基于智能代理的信息過濾和個(gè)性化服務(wù)
信息智能代理是另外一種利用互聯(lián)網(wǎng)信息的機(jī)制。它使用自動(dòng)獲得的領(lǐng)域模型(如Web知識(shí)、信息處理、與用戶興趣相關(guān)的信息資源、領(lǐng)域組織結(jié)構(gòu))、用戶模型(如用戶背景、興趣、行為、風(fēng)格)知識(shí)進(jìn)行信息搜集、索引、過濾(包括興趣過濾和不良信息過濾),并自動(dòng)地將用戶感興趣的、對(duì)用戶有用的信息提交給用戶。智能代理具有不斷學(xué)習(xí)、適應(yīng)信息和用戶興趣動(dòng)態(tài)變化的能力,從而提供個(gè)性化的服務(wù)。智能代理可以在用戶端進(jìn)行,也可以在服務(wù)器端運(yùn)行。
3.采用分布式體系結(jié)構(gòu)提高系統(tǒng)規(guī)模和性能
搜索引擎的實(shí)現(xiàn)可以采用集中式體系結(jié)構(gòu)和分布式體系結(jié)構(gòu),兩種方法各有千秋。但當(dāng)系統(tǒng)規(guī)模到達(dá)一定程度(如網(wǎng)頁數(shù)達(dá)到億級(jí))時(shí),必然要采用某種分布式方法,以提高系統(tǒng)性能。搜索引擎的各個(gè)組成部分,除了用戶接口之外,都可以進(jìn)行分布:搜索器可以在多臺(tái)機(jī)器上相互合作、相互分工進(jìn)行信息發(fā)現(xiàn),以提高信息發(fā)現(xiàn)和更新速度;索引器可以將索引分布在不同的機(jī)器上,以減小索引對(duì)機(jī)器的要求;檢索器可以在不同的機(jī)器上進(jìn)行文檔的并行檢索,以提高檢索的速度和性能。
4.重視交叉語言檢索的研究和開發(fā)
交叉語言信息檢索是指用戶用母語提交查詢,搜索引擎在多種語言的數(shù)據(jù)庫中進(jìn)行信息檢索,返回能夠回答用戶問題的所有語言的文檔。如果再加上機(jī)器翻譯,返回結(jié)果可以用母語顯示。該技術(shù)目前還處于初步研究階段,主要的困難在于語言之間在表達(dá)方式和語義對(duì)應(yīng)上的不確定性。但對(duì)于經(jīng)濟(jì)全球化、互聯(lián)網(wǎng)跨越國界的今天,無疑具有很重要的意義。
學(xué) 術(shù) 研 究
目前搜索引擎領(lǐng)域的商業(yè)開發(fā)非;钴S,各大搜索引擎公司都在投巨資研制搜索引擎系統(tǒng),同時(shí)也不斷地涌現(xiàn)出新的具有鮮明特色的搜索引擎產(chǎn)品,搜索引擎已經(jīng)成為信息領(lǐng)域的產(chǎn)業(yè)之一。在這種情況下,對(duì)搜索引擎技術(shù)相關(guān)領(lǐng)域的學(xué)術(shù)研究得到了大學(xué)和科研機(jī)構(gòu)的重視。如Stanford大學(xué)在其數(shù)字圖書館項(xiàng)目中開發(fā)了Google搜索引擎,在Web信息的高效搜索、文檔的相關(guān)度評(píng)價(jià)、大規(guī)模索引等方面作了深入的研究,取得了很好的成果。NEC美國研究所的Steve Lawrence和C. Lee Giles 1998年和1999年連續(xù)兩年在《自然》和《科學(xué)》雜志上撰文對(duì)搜索引擎技術(shù)的研究進(jìn)行評(píng)述。著名的信息檢索會(huì)議TREC也從1998年開始增加了Web Track課題,以考察Web文檔與其它類型文檔在檢索性質(zhì)上的不同之處,并將測(cè)試在大規(guī)模的Web庫(如100G字節(jié))上進(jìn)行信息檢索的算法性能。由美國Infornotics公司主辦的搜索引擎國際會(huì)議從1996年開始,每年舉行一次,對(duì)搜索引擎技術(shù)進(jìn)行總結(jié)、討論和展望,參加者有著名的搜索引擎公司、大學(xué)和研究機(jī)構(gòu)的學(xué)者,對(duì)搜索引擎技術(shù)起到了很好的推動(dòng)作用。另外象IEEE主辦的國際萬維網(wǎng)會(huì)議、人機(jī)交互會(huì)議已有越來越多關(guān)于搜索引擎技術(shù)研究的文章發(fā)表。
國內(nèi)先后有北京大學(xué)、清華大學(xué)、國家智能研究中心等高校和研究單位對(duì)搜索引擎技術(shù)開展研究,并開發(fā)出了幾個(gè)較好的系統(tǒng)。如由北京大學(xué)計(jì)算機(jī)系網(wǎng)絡(luò)研究室開發(fā)的"天網(wǎng)"中英文搜索引擎http://pccms.pku.edu.cn:8000/gbindex.htm),在系統(tǒng)規(guī)模及系統(tǒng)性能方面達(dá)到了國外中型搜索引擎系統(tǒng)的技術(shù)水平,為國內(nèi)用戶提供了很好的互聯(lián)網(wǎng)搜索服務(wù),受到了用戶的好評(píng)。
【搜索引擎技術(shù)及趨勢(shì)】相關(guān)文章:
汽車電子技術(shù)發(fā)展趨勢(shì)論文04-19
電子信息技術(shù)發(fā)展問題及發(fā)展趨勢(shì)09-19
光纖通信技術(shù)的現(xiàn)狀及發(fā)展趨勢(shì)論文(通用6篇)07-26
淺探網(wǎng)絡(luò)環(huán)境下搜索引擎的使用05-13
現(xiàn)代模具行業(yè)現(xiàn)狀與發(fā)展趨勢(shì)綜述05-30
談小學(xué)英語教育的發(fā)展趨勢(shì)08-18
土木工程發(fā)展趨勢(shì)論文04-29