- 相關推薦
淺論我國年鑒全文數據庫的現狀和改進策略
論文關鍵詞:年鑒全文數據庫;數字化年鑒;中國年鑒資源全文數據庫;中國年鑒全文數據庫
論文摘要:年鑒全文數據庫是新興的數字資源,是教學、科研、生產、乃至決策中不可或缺的工具。本文了目前我國兩個大規(guī)模年鑒全文數據庫的收錄情況、銷售策略、檢索性能、結果處理能力等現狀,認為年鑒全文庫尚存在的信息時滯較長、檢索性能不能很好體現年鑒特點、檢索結果后處理能力不強、個性化服務欠缺、信息整合層次單一等問題,并提出了改進策略。
1 序言
年鑒作為覆蓋面廣、信息密集、事實性強、連續(xù)更新的資料性工具書,有著其他工具書無法比擬的優(yōu)勢,是重要的信息源之一。在我國,大規(guī)模的年鑒全文數據庫的開發(fā)走在了世界的前列,它多角度地揭示了年鑒內容,大幅提升了信息的序化程度和檢索性能,實現了跨年鑒、跨年卷的整合檢索,為用戶查考年鑒信息帶來了很大的便利。
但是,從用戶的需求出發(fā),年鑒全文庫在更新頻率、檢索性能、結果優(yōu)化等方面都有待進一步提高。尤其在當前數據庫、報紙全文庫產品已占有,“搜數”后來居上,第三代搜索引擎新功能疊出的形勢下,年鑒全文庫如果不做出自己的特色,將被湮沒在重圍之中。
2 我國年鑒全文數據庫的概況
2004年5月,北大方正(Apabi)公司與中國年鑒研究會合作,開發(fā)出我國首個大規(guī)模的年鑒全文數據庫產品——“中國年鑒資源全文數據庫”。隨后,金報興圖的《年鑒全文數據庫》和中國知網(CNKI)的《中國年鑒全文數據庫》都相繼推向市場。2007年金報興圖的年鑒全文數據庫被方正合并,因此,當前我國的大規(guī)模年鑒全文數據庫僅Apabi和CNKI兩個。
Apabi的年鑒全文庫共收錄年鑒近600種,5300多卷(截至2007.10)m;CNKI的年鑒全文庫目前提供檢索的年鑒共1301種,約8000卷(截至2007.11.21)t副。它們收錄年鑒的類型分布如表1所示:
兩大數據庫的銷售方案也有所不同,Apabi可以按需選購年鑒品種,而CNKI則把所有年鑒打包銷售。
3 年鑒全文數據庫現有功能分析
目前兩大年鑒全文庫都打破了印刷本年鑒的固有結構,突破了電子書傳統(tǒng)的瀏覽模式,實現了跨年鑒、跨年卷、以條目為單位的整合檢索,一定程度體現了年鑒資源的特點,檢索系統(tǒng)也更符合用戶利用年鑒的特征。
3.1年鑒整刊導航
年鑒整刊導航應當完整、有序地揭示數據庫收錄的年鑒品種,并提供收錄年鑒品種檢索、選定年鑒中條目檢索的功能。目前兩大數據庫的年鑒整刊導航功能如表2所示。Apabi特別列出了長三角、黃河流域等專題年鑒品種導航,并專列了“發(fā)展報告”類。在整刊全文瀏覽功能中,Apabi除提供網頁文本格式的原文外,還提供原書版式文件全文,以便讀者核對重要信息,避免文本誤錄人造成的影響。
3.2檢索性能
兩大年鑒庫都提供初級檢索與高級檢索途徑,CNKI還設置了專業(yè)檢索。它們具體提供的檢索字段、條目類型限定及可用檢索技術如表3至表5所示。
3.3結果處理功能
結果處理功能是系統(tǒng)檢索功能的延伸和補充,強大的結果處理功能可以使用戶快速篩選信息,便捷地擴展相關信息,有事半功倍之效。目前這兩大數據庫的結果處理功能如表6所示。
3.4全文顯示格式
CNKI的年鑒文本、表格和圖片均為PDF格式,不便于用戶下載利用表格和圖片。Apabi的年鑒文本都為純文本格式,表格目前部分年鑒的表格為Excel格式,其他表格均為JPG格式,圖片是具原圖色彩的JPG格式。
4 年鑒全文數據庫存在的問題與改進策略
針對年鑒信息的特點,結合信息襝索技術,當前的年鑒全文庫還有不少問題有待改進。
4.1信息及時性有待加強
信息的及時性是年鑒全文庫在內容上保持吸引力的要素之一,包括年鑒新品種的及時收錄和年鑒信息的及時更新兩方面。但遺憾的是,目前年鑒全文庫通常信息時差總要在印刷版出版后半年以上。
增強信息的及時性,一方面要把新出版的、質量較好的年鑒新品種及時增加到數據庫中,如《中國企業(yè)年鑒》等;另一方面,對已收錄的年鑒應及時更新信息,縮短信息時滯。數據庫應與年鑒社充分溝通,最好在年鑒編纂完成、付印之前,就直接把數字化的新信息倒人數據庫中。尤其是對一些數據、圖表、事件、動態(tài)等時效性較強的內容,年鑒社可能每隔半年或一季度就會收集新的數據,數據庫應隨時將這些新收集齊但未正式出版的信息轉人年鑒庫,并通過設置“最新更新”欄目、RSS訂閱等功能,及時告知用戶更新信息。這樣就可以在第一時間實現信息的動態(tài)更新,把年鑒信息的年度性提升到動態(tài)性。
4.2檢索性能應更契合年鑒的特點
目前年鑒全文庫的檢索系統(tǒng)基本上是仿照期刊全文檢索系統(tǒng)開發(fā)的,只是增加了一些針對年鑒的字段和信息類型限制,這還不足以體現年鑒信息的特點,與讀者的檢索需求尚有一定的距離。近年來,包括自動摘要、自動分類、相似性檢索乃至視頻與圖像內容檢索的內容挖掘技術成為新的發(fā)展熱點,年鑒數據庫急待引人這些技術,而這些技術的基礎則是對數據特征的詳盡標引。
因此,數據庫首當其沖的是應針對不同類型的信息作更為詳盡的標引,設定不同的可檢索字段,以便為進一步的內容挖掘打下基礎。例如,對機構名錄信息應根據其屬性要素,對機構名、法人、電話、傳真、地址、郵編、e—mail、所屬地域、機構性質、單位簡介等進行標引;對人名錄則主要包含人名、性別、生卒日、籍貫、工作單位、部門、職務、職稱、、人物類型(先進、領導、專業(yè)獎項獲得者等)、從業(yè)類別等屬性的標引;對大事記部分,現有的年鑒全文庫都是不加分割地作為完整的文獻單元處理,連最簡單的檢索某日各地發(fā)生的重大事件都不可能,因此應以獨立的事件為單位,用數據庫的結構提取時間、地點、所屬地域、事件內容等相關信息提供檢索,并按單獨的事件為單位輸出檢索結果,而不是輸出整篇大事記的全文;對法規(guī)類信息應提取其特有的法律法規(guī)的級別、頒布部門、頒布年、實施年、發(fā)文號等屬性供用戶檢索;對圖像應建立基于圖像內容的索引庫,提供圖片內容特征的搜索;對表應進行統(tǒng)計指標、表頭的標引,甚至有能力的話,還可以加強對統(tǒng)計表的標準化處理,提供具體的數值檢索,充分體現數字信息檢索的優(yōu)勢,發(fā)揮年鑒統(tǒng)計數據的價值。同時,系統(tǒng)應在詳盡標引的基礎上,對以上信息類型設置專類信息檢索功能,提供針對各類信息的檢索字段,提高信息檢索的精準度。
4.3檢索結果后處理能力不強
(1)年鑒全文庫現有的二次檢索沒有提供算符的選擇,只能進行邏輯“與”的二次檢索,這不便于用戶進一步調整檢索策略。
(2)對于年鑒全文庫而言,由于條目數量巨大,檢出記錄數往往較多,因此特別需要對檢索結果作進一步的分面和聚類。但目前的年鑒全文庫都沒有提供檢索結果分面功能。所以,年鑒全文庫應當按結果的信息類型、所涉地域、條目年份、所屬年鑒、行業(yè)、學科等維度進行分面,供用戶選擇合適類別的結果瀏覽,這樣既使大量檢索結果序化,又可減少讀者篩選結果的時問。
(3)現有年鑒全文庫的統(tǒng)計表基本都是格式或PDF格式,數據導出靈活性不夠,用戶對統(tǒng)計表數據的再處理非常不便。數據庫應對所有統(tǒng)計表格以Excel形式錄入并提供導出接口,并可以進一步利用ASP、JsP等動態(tài)網頁生成技術,根據用戶需求,以交互互動的方式輸出數據,實現統(tǒng)計表與統(tǒng)計圖動態(tài)轉換的數據可視化,為用戶提供深加工的統(tǒng)計數據,簡化用戶后續(xù)處理的過程(這些功能在國外的Knovel工具書數據庫中已經實現)。此外,在Excel表格顯示地同時應提供原表格的圖片格式或PDF格式的鏈接,以供讀者核對數據,保證準確性。
(4)檢索結果中條目所屬欄目標注不夠完整,僅標注了欄目,沒有標注其上級類目,用戶很難找到該條目在年鑒目錄體系中的準確位置。因此必須完整標注出該條目在年鑒原有框架結構中所屬的篇目>類目>分目>欄目(如:上海年鑒>>教育>高等藝術教育),并分別對年鑒名稱、篇目、類目、分目、欄目制作超鏈接,指向與紙本年鑒框架結構一致的年鑒目錄導引下的全文瀏覽,便于用戶利用年鑒目錄體系調出相關內容瀏覽。
4.4個性化服務功能欠缺
在個性化功能上年鑒全文庫還很薄弱,CNK1只提供了檢索的瀏覽,Apabi則只提供條目的收藏,尚缺乏其他服務。由于年鑒資料連續(xù)性的特點,用戶往往需要對密切關注領域的特定資料作跟蹤收集。這就需要數據庫開發(fā)針對用戶個體需求的個性化服務,這些服務包括特定年鑒品種、年鑒的欄目、檢索策略的RSS訂閱,定題跟蹤,我的檢索集設定等功能,這樣用戶就可以在第一時間獲得由系統(tǒng)自動推送來的最新信息,而不必再每隔一段時間去查找相同主題的信息。
4.5信息整合層次單一
當前的文獻數據庫領域正在發(fā)生著重要的轉型,許多數據庫正從單一的信息檢索工具,向廣泛整合外部資源的、綜合的信息資源與服務體系轉變,它是數字信息源發(fā)展到一定階段的必然選擇,封閉的“信息孤島”是難以充分滿足用戶需求的。然而,目前年鑒全文庫對信息的整合尚停留于以條目為單位的跨年鑒文獻層面,CNKI也僅與自己的各類全文庫做了相似文獻的整合。年鑒全文庫與其他全文數據庫、工具書乃至互聯(lián)網信息等外部資源的整合有待加強。
在年鑒各類信息中,一些文章類信息的參考文獻、二次文獻信息等,可以與電子期刊、電子圖書等其他全文數據庫建立原文鏈接;有關法律法規(guī)、標準的信息,如果沒有全文的,則可鏈向法律法規(guī)和標準全文庫;一些機構名錄、重點單位介紹類信息,則可與該機構、團體在互聯(lián)網上的網站主頁建立鏈接;對于年鑒的統(tǒng)計指標、劃分標準、計量單位等涉及的專業(yè)術語,可以引入百科全書、詞典類工具書,供讀者查詢參考。通過這些方式,可以發(fā)揮互聯(lián)網的優(yōu)勢,多層次地整合各種資源,為用戶提供全方位的信息保障。
【淺論我國年鑒全文數據庫的現狀和改進策略】相關文章:
淺論鐵路客車整備庫排煙系統(tǒng)的現狀和改進03-01
淺論我國內部控制的研究現狀03-18
論我國目前交通工程的現狀與改進措施03-06
我國網絡銀行的現狀及其競爭策略03-23
中學班干部管理現狀分析及改進策略03-21
建筑工程管理現狀和改進03-10
我國緩刑制度現狀存在的問題和現狀之我見03-25