淺析基于數(shù)據(jù)挖掘的數(shù)字檔案信息管理研究

時(shí)間：2024-09-26 05:24:14 論文范文我要投稿

　　論文關(guān)鍵詞：數(shù)字化　圖書(shū)管理　檔案化

　　論文摘要：隨著社會(huì)主義現(xiàn)代化的發(fā)展，計(jì)算機(jī)技術(shù)的進(jìn)步，信息技術(shù)在社會(huì)發(fā)展的各個(gè)領(lǐng)域都扮演著極其重要的角色。信息化建設(shè)更是被我國(guó)列為經(jīng)濟(jì)社會(huì)發(fā)展的首要內(nèi)容。網(wǎng)頁(yè)檔案化管理包括文檔、文字翻譯轉(zhuǎn)換、圖片資料、聲像資料、多媒體遠(yuǎn)程會(huì)議等。尤其是大學(xué)檔案館更側(cè)重教學(xué)與科研，網(wǎng)頁(yè)檔案化管理是必然的趨勢(shì)。

　　在信息化發(fā)展的今天，圖書(shū)館，特別是大學(xué)圖書(shū)館不僅要對(duì)信息進(jìn)行簡(jiǎn)單的數(shù)字轉(zhuǎn)換和管理，更要對(duì)新興事物網(wǎng)絡(luò)進(jìn)行檔案化管理和歸檔，包括文檔、文字翻譯轉(zhuǎn)換、圖片資料、聲像資料、多媒體遠(yuǎn)程會(huì)議等。所以網(wǎng)絡(luò)檔案化管理，成為當(dāng)今圖書(shū)管理的必然趨勢(shì)，這就必須對(duì)檔案化管理的技術(shù)和法律相關(guān)問(wèn)題進(jìn)行深入闡述和探討。
　　所謂數(shù)據(jù)挖掘(Data Mining)，就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識(shí)的過(guò)程。這些數(shù)據(jù)可以是結(jié)構(gòu)化的，如關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)，也可以是半結(jié)構(gòu)化的，如文本，圖形，圖像數(shù)據(jù)，甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的，也可以是非數(shù)學(xué)的；可以是演繹的，也可以是歸納的。發(fā)現(xiàn)了的知識(shí)可以被用于信息管理、查詢優(yōu)化、決策支持、過(guò)程控制等，還可以進(jìn)行數(shù)據(jù)自身的維護(hù)。數(shù)據(jù)挖掘借助了多年來(lái)數(shù)理統(tǒng)計(jì)技術(shù)和人工智能以及知識(shí)工程等領(lǐng)域的研究成果構(gòu)建自己的理論體系，是涉及數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、機(jī)械學(xué)、人工神經(jīng)網(wǎng)絡(luò)、可視化、并行計(jì)算等的交叉學(xué)科，是目前國(guó)際上數(shù)據(jù)庫(kù)和決策支持領(lǐng)域的最前沿的研究方向之一。
　　一、數(shù)據(jù)挖掘的功能
　　數(shù)據(jù)挖掘通過(guò)預(yù)測(cè)未來(lái)趨勢(shì)及行為，做出預(yù)測(cè)性的、基于知識(shí)的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱含的、有意義的知識(shí)，按其功能可分為以下幾類。
　　1、關(guān)聯(lián)分析
　　關(guān)聯(lián)分析能尋找到數(shù)據(jù)庫(kù)中大量數(shù)據(jù)的相關(guān)聯(lián)系，常用的一種技術(shù)為關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)一個(gè)事物與其他事物間的相互關(guān)聯(lián)性或相互依賴性。
　　2、聚類
　　輸入的數(shù)據(jù)并無(wú)任何類型標(biāo)記，聚類就是按一定的規(guī)則將數(shù)據(jù)劃分為合理的集合，即將對(duì)象分組為多個(gè)類或簇，使得在同一個(gè)簇中的對(duì)象之間具有較高的相似度，而在不同簇中的對(duì)象差別很大。聚類增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí)，是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識(shí)別方法和數(shù)學(xué)分類學(xué)。
　　3、自動(dòng)預(yù)測(cè)趨勢(shì)和行為
　　數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫(kù)中進(jìn)行分類和預(yù)測(cè)，尋找預(yù)測(cè)性信息，自動(dòng)地提出描述重要數(shù)據(jù)類的模型或預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)，這樣以往需要進(jìn)行大量手工分析的問(wèn)題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。
　　4、概念描述
　　對(duì)于數(shù)據(jù)庫(kù)中龐雜的數(shù)據(jù)，人們期望以簡(jiǎn)潔的描述形式來(lái)描述匯集的數(shù)據(jù)集。概念描述就是對(duì)某類對(duì)象的內(nèi)涵進(jìn)行描述并概括出這類對(duì)象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述，前者描述某類對(duì)象的共同特征，后者描述不同類對(duì)象之間的區(qū)別。生成一個(gè)類的特征性只涉及該類對(duì)象中所有對(duì)象的共性。生成區(qū)別性描述的方法很多，如決策樹(shù)方法、遺傳算法等。
　　5、偏差檢測(cè)
　　數(shù)據(jù)庫(kù)中的數(shù)據(jù)常有一些異常記錄，從數(shù)據(jù)庫(kù)中檢測(cè)這些偏差很有意義。偏差包括很多潛在的知識(shí)，如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測(cè)結(jié)果與模型預(yù)測(cè)值的偏差、量值隨時(shí)間的變化等。偏差檢測(cè)的基本方法是尋找觀測(cè)結(jié)果與參照值之間有意義的差別。這常用于金融銀行業(yè)中檢測(cè)欺詐行為，或市場(chǎng)分析中分析特殊消費(fèi)者的消費(fèi)習(xí)慣。
　　二、數(shù)據(jù)挖掘在建設(shè)現(xiàn)代化高校檔案館中的應(yīng)用
　　1、資源類數(shù)據(jù)包括館藏檔案經(jīng)過(guò)數(shù)字化加工而產(chǎn)生的各類電子檔案、電子文件中心中存儲(chǔ)的各類電子檔案、檔案軟件收集的信息、檔案信息網(wǎng)建設(shè)和維護(hù)信息。我們從研究大學(xué)檔案用戶的信息需求出發(fā)，數(shù)據(jù)挖掘?yàn)榇髮W(xué)檔案館全面掌握和準(zhǔn)確理解檔案用戶的信息需求提供了方法。
　　(1) 利用Web訪問(wèn)信息挖掘技術(shù)發(fā)現(xiàn)其中的關(guān)聯(lián)模式、序列模式和Web訪問(wèn)趨勢(shì)等，構(gòu)建多維視圖的用戶興趣模型。從而可以確定檔案信息或服務(wù)受歡迎的程度，發(fā)現(xiàn)用戶訪問(wèn)模式和用戶需求的趨勢(shì)，從不同側(cè)面來(lái)研究用戶的信息需求，為優(yōu)化檔案館的檔案信息資源建設(shè)提供了科學(xué)依據(jù)。
　　(2) 收集大學(xué)檔案網(wǎng)web服務(wù)器保留的用戶注冊(cè)信息、訪問(wèn)記錄，以及有關(guān)用戶與系統(tǒng)交互的信息等原始數(shù)據(jù)，經(jīng)過(guò)清洗、濃縮和轉(zhuǎn)換形成便于統(tǒng)計(jì)分析的用戶查閱數(shù)據(jù)庫(kù)、日志數(shù)據(jù)庫(kù)、用戶定制信息庫(kù)、用戶反饋信息等各種數(shù)據(jù)集合。

淺析基于數(shù)據(jù)挖掘的數(shù)字檔案信息管理研究

　　2、從建設(shè)大學(xué)檔案館館藏信息資源出發(fā)，數(shù)據(jù)挖掘?yàn)榇髮W(xué)檔案館提供了選擇一條科學(xué)發(fā)展道路的重要依據(jù)。
　　(1) 利用檔案網(wǎng)和檔案管理軟件訪問(wèn)信息的挖掘分析出檔案資源的利用率，將利用率高、需求量大的傳統(tǒng)載體檔案優(yōu)先數(shù)字化。例如：通過(guò)對(duì)檔案信息的訪問(wèn)記錄、檢索請(qǐng)求中用戶請(qǐng)求失敗的數(shù)據(jù)進(jìn)行分析，按類統(tǒng)計(jì)檔案拒用集和頻繁利用集，結(jié)合聚集算法發(fā)現(xiàn)館藏資源的缺漏，有針對(duì)性地補(bǔ)充和豐富檔案信息資源。
　　(2) 在大學(xué)檔案館藏管理過(guò)程中利用文本挖掘，運(yùn)用關(guān)聯(lián)、分類、聚類等方法，從海量檔案信息中按照相關(guān)專題進(jìn)行挖掘、分類、加工、整理和有序化重組，構(gòu)建特色檔案信息庫(kù)及各類專題檔案信息庫(kù)等。
　　3、從做好大學(xué)檔案館信息管理工作的角度出發(fā)，數(shù)據(jù)挖掘?yàn)閮?yōu)化館藏信息和對(duì)未來(lái)工作的預(yù)測(cè)發(fā)揮重要作用。
　　(1) 在提供利用環(huán)節(jié)中，對(duì)用戶每次借閱的信息進(jìn)行關(guān)聯(lián)分析，發(fā)現(xiàn)各類檔案信息之間的關(guān)聯(lián)規(guī)則或比例關(guān)系，這樣可以進(jìn)一步優(yōu)化館藏信息。
　　(2) 開(kāi)展大學(xué)檔案館館藏信息文本特征的建立、特征提取、特征匹配、特征集縮減和模型評(píng)價(jià)工作，實(shí)現(xiàn)對(duì)大量文檔集合的內(nèi)容進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析、分布分析，通過(guò)歸納與總結(jié)，發(fā)現(xiàn)的知識(shí)可以為未來(lái)檔案工作的趨勢(shì)進(jìn)行預(yù)測(cè)。
　　三、數(shù)據(jù)挖掘在管理類數(shù)據(jù)中的應(yīng)用
　　大學(xué)檔案館的管理類數(shù)據(jù)包括：智能監(jiān)控系統(tǒng)、消防系統(tǒng)、溫濕度控制系統(tǒng)、智能密集架、數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)利用系統(tǒng)等在日常工作產(chǎn)生大量的管理類數(shù)據(jù)。我們得用數(shù)據(jù)挖掘工具在這類看似無(wú)用的數(shù)據(jù)中提取有價(jià)值的知識(shí)并運(yùn)用到大學(xué)檔案館工作中，并在大學(xué)檔案館的現(xiàn)代化建設(shè)中發(fā)揮作用。

　　大學(xué)檔案館檔案工作的重點(diǎn)是為師生服務(wù)，以服務(wù)為中心開(kāi)展各項(xiàng)工作，如何使用先進(jìn)的工具，提高服務(wù)的質(zhì)量是一直困擾我們的難題。數(shù)據(jù)挖掘?yàn)榇髮W(xué)檔案館檔案工作的智能化、個(gè)性化、精品化提供了行之有效的方法。在智能檢索系統(tǒng)可調(diào)用用戶興趣模型，自動(dòng)修正檢索策略并可依用戶興趣將檢索結(jié)果迅速聚類和分類，并條理化地排序出來(lái)；對(duì)于設(shè)計(jì)院、社科院等科研型檔案用戶，可借助數(shù)據(jù)挖掘開(kāi)展針對(duì)性的檔案信息挖掘，并將研究成果以概述、成果報(bào)告等形式提供給用戶。這樣不光實(shí)現(xiàn)了大學(xué)檔案的二次開(kāi)發(fā)，也會(huì)給用戶帶來(lái)意外的驚喜。
　　網(wǎng)絡(luò)最初只是科學(xué)家與研究人員之間交換文件的軟件，把因特網(wǎng)用于教育和研究可以得到政府的補(bǔ)貼。在中國(guó)，大學(xué)有撥款，圖書(shū)館有大學(xué)支持，數(shù)字圖書(shū)館的網(wǎng)絡(luò)檔案館是不贏利的，產(chǎn)出是教學(xué)和科研的長(zhǎng)期社會(huì)效益。今天，因特網(wǎng)已經(jīng)越來(lái)越商業(yè)化了，網(wǎng)絡(luò)在數(shù)字經(jīng)濟(jì)中已成為極具潛力的技術(shù)投資對(duì)象。大學(xué)數(shù)字圖書(shū)館也可以考慮建立以贏利為目的的網(wǎng)絡(luò)檔案庫(kù)，采用網(wǎng)絡(luò)商務(wù)中的一些商務(wù)模式，例如網(wǎng)絡(luò)廣告、旗幟廣告、贊助廣告、訂閱、B2C等。收入可用于大學(xué)數(shù)字圖書(shū)館網(wǎng)絡(luò)檔案館建設(shè)的滾動(dòng)發(fā)展。目前人們對(duì)這些處于萌芽中的經(jīng)濟(jì)模式認(rèn)識(shí)甚少。管理網(wǎng)絡(luò)的公共政策制定主體是政府部門(mén)，推行電子政務(wù)，開(kāi)發(fā)網(wǎng)絡(luò)資源，促進(jìn)從文字印刷向網(wǎng)絡(luò)出版的轉(zhuǎn)移是當(dāng)前相關(guān)政府部門(mén)的重要任務(wù)。大學(xué)的政策、態(tài)度和措施對(duì)數(shù)字圖書(shū)館的發(fā)展至關(guān)重要。市場(chǎng)手段和政策平衡是網(wǎng)絡(luò)檔案館建設(shè)，網(wǎng)絡(luò)檔案庫(kù)運(yùn)行，網(wǎng)上內(nèi)容傳遞和保存應(yīng)該和必須考慮的。
　　參考文獻(xiàn)：
　　[1]Peer to peer Networking and Digital Right Management，by Michael A. Einhorn, Bill Rosenblatt, Policy Analysis No.534, CATO Institute. Fabruary 17,2005
　　[2]What Every Citizen Should Know About DRM, aka Digital Right Management, by Mike Godwin Seuitoo Technology Counsel At Public Knowledge, 30 January, 2008, Ebook-Computer & Internet, www.asiaing.com
　　[3]彼得·萊曼.把萬(wàn)維網(wǎng)檔案化.信息化參考，2004（13）
　　[4]周宏仁等.信息化助建和諧社會(huì)的14個(gè)著力點(diǎn).中國(guó)信息界，2008（3）
　　[5]ITU-T Technology Watch Reports. 2006-2008, Telecommunication Standardization Policy Division, ITU Telecommunication Standardization Sector

上一頁(yè) [1] [2]

【淺析基于數(shù)據(jù)挖掘的數(shù)字檔案信息管理研究】相關(guān)文章：

基于數(shù)據(jù)挖掘的統(tǒng)計(jì)過(guò)程控制項(xiàng)目研究11-23

試論基于數(shù)據(jù)挖掘技術(shù)的保護(hù)設(shè)備故障信息管理與分析系統(tǒng)12-05

淺析基于網(wǎng)絡(luò)的企業(yè)人力資源信息管理系統(tǒng)研究12-05

時(shí)間序列數(shù)據(jù)挖掘研究論文提綱03-27

數(shù)字化檔案參考咨詢研究提綱11-15

基于GML的土地利用數(shù)據(jù)共享研究12-05

試論基于MAPGIS下DWG格式數(shù)據(jù)轉(zhuǎn)換研究11-20

淺析數(shù)字化教學(xué)資源與高校課程整合研究01-15

數(shù)據(jù)挖掘技術(shù)在Web信息檢索中的應(yīng)用研究論文12-01

相關(guān)推薦

亚洲国产日韩欧美在线a乱码,国产精品路线1路线2路线,亚洲视频一区,精品国产自,www狠狠,国产情侣激情在线视频免费看,亚洲成年网站在线观看

淺析基于數(shù)據(jù)挖掘的數(shù)字檔案信息管理研究