- 相關(guān)推薦
圖書檢索系統(tǒng)體系架構(gòu)研究
圖書檢索系統(tǒng)可以歸納為索引子系統(tǒng)、檢索子系統(tǒng)、資源匹配子系統(tǒng)和資源子系統(tǒng)四大部分,每一個(gè)子系統(tǒng)在整個(gè)系統(tǒng)中都有著不可忽視的作用,各個(gè)子系統(tǒng)之間統(tǒng)籌合作完成圖書信息的檢索工作。 下面小編為大家準(zhǔn)備了圖書檢索系統(tǒng)體系架構(gòu)的文章,歡迎閱讀。
1 圖書信息檢索系統(tǒng)評(píng)價(jià)指標(biāo)
信息檢索評(píng)價(jià)是對(duì)信息檢索系統(tǒng)性能(主要滿足用戶信息需求的能力)進(jìn)行評(píng)估的活動(dòng)。通過評(píng)估可以評(píng)價(jià)不同技術(shù)的優(yōu)劣,不同因素對(duì)系統(tǒng)的影響,從而促進(jìn)本領(lǐng)域研究水平的不斷提高。信息檢索系統(tǒng)的目標(biāo)是在較少消耗的情況下盡快、全面返回準(zhǔn)確的結(jié)果。根據(jù)F.W.Lancaster的闡述,判定一個(gè)檢索系統(tǒng)的優(yōu)劣,主要從質(zhì)量、費(fèi)用和時(shí)間三方面來衡量。因此,對(duì)計(jì)算機(jī)信息檢索的效果評(píng)價(jià)也應(yīng)該從這三個(gè)方面進(jìn)行。本文主要研究信息檢索系統(tǒng)的質(zhì)量標(biāo)準(zhǔn),質(zhì)量標(biāo)準(zhǔn)主要通過查全率與查準(zhǔn)率進(jìn)行評(píng)價(jià)。
查全率和查準(zhǔn)率是判定檢索效果的主要標(biāo)準(zhǔn),而后兩者相對(duì)來說要次要些。
查全率是指系統(tǒng)在進(jìn)行某一檢索時(shí),檢出的相關(guān)文獻(xiàn)量與系統(tǒng)文獻(xiàn)庫中相關(guān)文獻(xiàn)總量的比率,它反映該系統(tǒng)文獻(xiàn)庫中實(shí)有的相關(guān)文獻(xiàn)量在多大程度上被檢索出來。
查全率=[檢出相關(guān)文獻(xiàn)量/文獻(xiàn)庫內(nèi)相關(guān)文獻(xiàn)總量]×100% (1)
查準(zhǔn)率是指系統(tǒng)在進(jìn)行某一檢索時(shí),檢出的相關(guān)文獻(xiàn)量與檢出文獻(xiàn)總量的比率,它反映每次從該系統(tǒng)文獻(xiàn)庫中實(shí)際檢出的全部文獻(xiàn)中有多少是相關(guān)的。
查準(zhǔn)率=[檢出相關(guān)文獻(xiàn)量/檢出文獻(xiàn)總量]×100% (2)
查全率與查準(zhǔn)率是評(píng)價(jià)檢索效果的兩項(xiàng)重要指標(biāo)。查全率和查準(zhǔn)率與文獻(xiàn)的存儲(chǔ)與信息檢索兩個(gè)方面是直接相關(guān)的,也就是說,與系統(tǒng)的收錄范圍、索引語言、標(biāo)引工作和檢索工作等有著非常密切的關(guān)系。
影響查全率的因素:從文獻(xiàn)存儲(chǔ)來看,主要有:文獻(xiàn)庫收錄文獻(xiàn)不全;索引詞匯缺乏控制和專指性;詞表結(jié)構(gòu)不完整;詞間關(guān)系模糊或不正確;標(biāo)引不詳;標(biāo)引前后不一致;標(biāo)引人員遺漏了原文的重要概念或用詞不當(dāng)?shù)。此外,從情?bào)檢索來看,主要有:檢索策略過于簡(jiǎn)單;選詞和進(jìn)行邏輯組配不當(dāng);檢索途徑和方法太少;檢索人員業(yè)務(wù)不熟練和缺乏耐心;檢索系統(tǒng)不具備截詞功能和反饋功能,檢索時(shí)不能全面地描述檢索要求等。
影響查準(zhǔn)率的因素:主要有:索引詞不能準(zhǔn)確描述文獻(xiàn)主題和檢索要求;組配規(guī)則不嚴(yán)密;選詞及詞間關(guān)系不正確;標(biāo)引過于詳盡;組配錯(cuò)誤;檢索時(shí)所用檢索詞(或檢索式)專指度不夠,檢索面寬于檢索要求;檢索系統(tǒng)不具備邏輯“非”功能和反饋功能;檢索式中允許容納的詞數(shù)量有限;截詞部位不當(dāng),檢索式中使用邏輯“或”不當(dāng)?shù)鹊取?/p>
2 信息檢索系統(tǒng)體系架構(gòu)
一個(gè)完整的圖書信息檢索系統(tǒng)應(yīng)當(dāng)包括圖書信息的預(yù)處理,圖書信息的入庫、用戶檢索接口、資源匹配、資源排序等部分,本文主要就以下幾個(gè)部分進(jìn)行闡述。
2.1 索引子系統(tǒng)
索引子系統(tǒng)主要完成的工作是對(duì)圖書信息的入庫工作,圖書館中信息資源具有完整的資源名,然而用戶在搜索時(shí)是通過輸入關(guān)鍵字來發(fā)現(xiàn)類似的資源,因此需要對(duì)信息資源進(jìn)行預(yù)處理。主要通過對(duì)信息資源名構(gòu)建倒排索引,通過建立關(guān)鍵詞和信息資源名之間的鄰接矩陣,如此則完成信息資源和關(guān)鍵詞之間的關(guān)聯(lián)性,用戶可以通過關(guān)鍵詞發(fā)現(xiàn)自身需要的相關(guān)聯(lián)文檔。
2.2 查詢子系統(tǒng)
查詢子系統(tǒng)主要提供給用戶查詢接口,用戶通過輸入檢索關(guān)鍵詞,查詢子系統(tǒng)需要對(duì)用戶的檢索關(guān)鍵詞進(jìn)行分析,可能用戶輸入的關(guān)鍵詞并非規(guī)范的形式,可能還存在著錯(cuò)誤信息,或者是以字母形式輸入,或者是以英文或者其它方式輸入,查詢子系統(tǒng)需要對(duì)輸入的檢索關(guān)鍵詞進(jìn)行消歧工作。
2.3 資源匹配子系統(tǒng)
資源匹配子系統(tǒng)主要根據(jù)用戶的檢索關(guān)鍵詞在圖書館數(shù)據(jù)庫資源中進(jìn)行資源匹配,尋找和用戶相關(guān)聯(lián)的資源,資源匹配的方式有很多種,諸如采用完全匹配方式(即用戶輸入的關(guān)鍵詞和數(shù)據(jù)庫中資源完成匹配)、部分匹配方式(用戶輸入的關(guān)鍵詞中部分信息和數(shù)據(jù)庫中信息匹配成功)、語義匹配方式(用戶輸入的關(guān)鍵詞與數(shù)據(jù)庫中資源存在語義上的關(guān)聯(lián)性)。
2.4 資源排序子系統(tǒng)
資源排序子系統(tǒng)主要根據(jù)用戶的檢索關(guān)鍵詞對(duì)匹配完成的資源信息進(jìn)行排序,按照資源的重要性和用戶檢索的相關(guān)聯(lián)程度進(jìn)行梯度排序,排序的原則有多種方式,諸如余弦相似度,向量相似度,Jaccard相似度,Dice相似度等多種方式,有些排序子系統(tǒng)根據(jù)現(xiàn)今流行的搜索引擎頁面排序算法進(jìn)行改進(jìn),并將改進(jìn)的排序算法移植于圖書信息檢索系統(tǒng)中。
拓展:基于圖書館管理系統(tǒng)的藏書剔除實(shí)踐
一、常用方法的藏書剔除
常用的藏書剔除辦法主要有主觀判斷法、書齡判斷法、使用年限法等,其中主觀判斷法是藏書剔除最常用的方法之一,是館員按照事先擬訂的一系列相關(guān)的剔除標(biāo)準(zhǔn)(或準(zhǔn)則),憑借自己的經(jīng)驗(yàn),直接在書架上剔除文獻(xiàn)資料。面對(duì)的是知識(shí)內(nèi)容千差萬別、質(zhì)量水平參差不齊的藏書,運(yùn)用主觀判斷法進(jìn)行藏書剔除的尺度很難把握。
書齡判斷法是根據(jù)圖書年代進(jìn)行藏書剔除的一種方法?墒窍嗤瑫g圖書的利用率會(huì)相差甚遠(yuǎn),單純以年代決定藏書的去留,就有可能把一些有價(jià)值的、使用率高的舊書剔除出去,或者留下許多書齡較短、不符合讀者需求的圖書。
文獻(xiàn)壽命“半衰期”體現(xiàn)的是知識(shí)情報(bào)的老化與更新的基本規(guī)律,可以作為一線書庫藏書剔除的一個(gè)參考依據(jù)。然而在實(shí)際工作中,量化某一館藏是否超出其有效使用年限,或著超出了多少,都是很困難的。
調(diào)查研究法是開展特定范圍(讀者、專家)的調(diào)查,并根據(jù)調(diào)查結(jié)果進(jìn)行藏書剔除的一種方法。它過分注重代表范圍內(nèi)的即時(shí)需求,忽視館藏體系整體的、長遠(yuǎn)的建設(shè)和發(fā)展。
滯架時(shí)間是反映圖書使用情況的一個(gè)客觀標(biāo)準(zhǔn),如果大量利用率很低的館藏文獻(xiàn)繼續(xù)留在一線書庫,會(huì)增加館藏的承載負(fù)擔(dān)和經(jīng)濟(jì)支出,增加讀者查找和獲取的時(shí)間。但如果圖書沒有放到規(guī)定位置,或者讀者沒有發(fā)現(xiàn)它,那么它自然沒有被利用的記錄,很可能就被選為剔除對(duì)象。
目標(biāo)比對(duì)法是根據(jù)資源建設(shè)目標(biāo)進(jìn)行藏書剔除的一種方法。然而,藏書體系也需要不斷完善,這種方法有時(shí)會(huì)加大滯后的周期。
上述方法從不同角度為藏書剔除提供依據(jù),總體上說是各有千秋。有些時(shí)候,單獨(dú)使用上述方法在時(shí)間、人力、質(zhì)量等方面難以滿足藏書剔除的需要,需要結(jié)合目標(biāo)、摸索更先進(jìn)、更科學(xué)、更合適的藏書剔除方法。
二、圖書館管理系統(tǒng)發(fā)展概況
圖書館管理系統(tǒng),又稱圖書館自動(dòng)化管理系統(tǒng),自國內(nèi)圖書館開始運(yùn)用圖書館自動(dòng)化管理系統(tǒng),到目前已經(jīng)將傳統(tǒng)的圖書館業(yè)務(wù)手工操作轉(zhuǎn)變?yōu)橛?jì)算機(jī)管理,從簡(jiǎn)單的單個(gè)模塊管理提升到功能齊全和強(qiáng)大的集成系統(tǒng),使圖書館的主要業(yè)務(wù),包括采訪、編目、流通、連續(xù)出版物管理、公共檢索等,在一個(gè)書目數(shù)據(jù)庫中得以實(shí)現(xiàn)。隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)在我國的快速發(fā)展,圖書館管理系統(tǒng)全面普及,傳統(tǒng)的人工工作逐項(xiàng)逐項(xiàng)地被計(jì)算機(jī)代替。圖書館管理系統(tǒng)本身從圖書館內(nèi)部提供信息資源朝著館際之間資源共享和信息資源的多媒體化[2—3]方向發(fā)展。圖書館管理系統(tǒng)實(shí)時(shí)顯示圖書的庫存數(shù)量、種類,以及圖書的借閱情況,有助于動(dòng)態(tài)的分析和決策,提高了圖書館的管理水平,提高了工作效率。
三、基于圖書館管理系統(tǒng)的藏書剔除
在圖書館集成管理系統(tǒng)得到普遍應(yīng)用的當(dāng)前,依托各集成管理系統(tǒng)的功能,跟蹤特定讀者群,核實(shí)電子文獻(xiàn)、各種數(shù)據(jù)庫、虛擬館藏的覆蓋面、特色和利用情況。與對(duì)口院系、各專業(yè)尤其重點(diǎn)學(xué)科、基地建立長期的聯(lián)系,掌握對(duì)口院系學(xué)科的專業(yè)設(shè)置、課程設(shè)置及學(xué)生和教師用書需求。根據(jù)入藏、流通、閱覽統(tǒng)計(jì),確定反映本館利用狀況的藏書周轉(zhuǎn)基點(diǎn),研究剔除一部分非本館特色學(xué)科的文獻(xiàn)、剔除一部分少人問津的文獻(xiàn),對(duì)藏書結(jié)構(gòu)、滿足率、利用率造成的影響。傳統(tǒng)的藏書剔除工作也可以根據(jù)計(jì)劃進(jìn)度、一個(gè)庫一個(gè)庫、一類一類、持續(xù)不斷地開展,形成一個(gè)經(jīng)常性、制度化、規(guī)范化、以3~5年為周期的、按主題(或按類別)的藏書剔除制度。
利用計(jì)算機(jī)很容易列出長期滯架文獻(xiàn)的清單,但是要從這幾十萬條數(shù)據(jù)中判斷出哪些圖書應(yīng)該在這一批剔除的確有困難。況且,判斷館藏圖書是否有使用價(jià)值,使用頻率的高低只是其中的一個(gè)方面,使用頻率的高低并不一定與使用價(jià)值的大小同步,滯架書刊中不乏一些內(nèi)容質(zhì)量、及其時(shí)效性都是好的或比較好的書刊,不應(yīng)屬于剔除之列。因此必須啟用專用的系統(tǒng),把具體的量化指標(biāo)限定條件輸入計(jì)算機(jī),如歷年利用率要求、出版時(shí)間要求、復(fù)本數(shù)量要求、外觀狀態(tài)要求、修補(bǔ)次數(shù)要求等,其中連續(xù)利用率、出版時(shí)間、復(fù)本數(shù)量可以從數(shù)據(jù)庫獲得,外觀狀態(tài)和修補(bǔ)次數(shù)如果有記錄以記錄為準(zhǔn),沒有記錄則認(rèn)定外觀狀態(tài)正常、修補(bǔ)次數(shù)為零。在計(jì)算機(jī)分類分類平臺(tái)完成檢索之后,記錄符合條件的分類結(jié)果,生成一個(gè)符合量化指標(biāo)的表單。面對(duì)學(xué)科知識(shí)千差萬別、書品質(zhì)量參差不齊的具體藏書,不是用幾條原則標(biāo)準(zhǔn)就能決定取舍的,隨時(shí)都可出現(xiàn)的一些實(shí)際問題。所以還需具體問題具體分析,還須對(duì)藏書進(jìn)行逐類審查、逐種鑒別的,任何僵化的、一刀切的做法是不可取的,因此需要對(duì)擬剔除文獻(xiàn)進(jìn)行必要的復(fù)審。
對(duì)于通過復(fù)核的擬剔文獻(xiàn),才可以分門別類交付工作人員把對(duì)應(yīng)的文獻(xiàn)逐一從架位上按順序抽取出來,按順序集中存放。下架后應(yīng)設(shè)一道復(fù)核工序,即由復(fù)核人員對(duì)下架的剔除文獻(xiàn)進(jìn)行認(rèn)真核對(duì),以防止誤剔、漏剔。同時(shí),對(duì)獲批下架文獻(xiàn)進(jìn)行相應(yīng)的數(shù)據(jù)處理,把剔除文獻(xiàn)的去向反映到相應(yīng)的數(shù)據(jù)庫,調(diào)整庫位,生成新的排架號(hào)。
藏書剔除的主要目的是為了提高藏書質(zhì)量,讓使用率高的藏書留在一線書庫的開架書位上,方便讀者取用,提高流通書位的利用率,控制開館成本。斯坦利J斯洛特的相關(guān)研究表明:“當(dāng)一個(gè)圖書館的核心藏書占該館現(xiàn)有圖書的72~84%時(shí),可以保證滿足99%的讀者使用需求”,換句話說,如果一個(gè)圖書館將其現(xiàn)有藏書的16~28%圖書予以剔除,會(huì)對(duì)1%的讀者需求產(chǎn)生影響。所以儲(chǔ)藏剔除不能將剔除文獻(xiàn)輕率地拋棄,對(duì)尚有一定參考、利用價(jià)值的書刊,優(yōu)先移至貯藏書庫,密集排架,以為讀者可能產(chǎn)生的特殊文獻(xiàn)需求提供保障。通過對(duì)藏書剔除相關(guān)問題的研究、分析和解決,可從藏書是否符合讀者群的需求、藏書分類是否恰當(dāng)、藏書著錄是否準(zhǔn)確、藏書排架是否符合讀者習(xí)慣等一個(gè)個(gè)側(cè)面為館員改進(jìn)工作提供了非常重要的反饋信息,進(jìn)而有利于修正和調(diào)整資源建設(shè)的方針和政策,有利于管理水平的提高。
四、結(jié)束語
藏書剔除是藏書建設(shè)的重要環(huán)節(jié),在當(dāng)前圖書館集成管理系統(tǒng)得到普遍應(yīng)用的前提下,依托圖書館集成管理系統(tǒng)的功能,可為藏書剔除工作提供更客觀、更準(zhǔn)確的依據(jù),并有效地保障藏書剔除的進(jìn)度和質(zhì)量。
【圖書檢索系統(tǒng)體系架構(gòu)研究】相關(guān)文章:
Adobe認(rèn)證考試體系10-28
戲劇的體系形式與流派12-21
IBM的人才發(fā)展體系03-20
海爾物流與美的物流體系12-19
新西蘭留學(xué)高中課程體系08-12