亚洲国产日韩欧美在线a乱码,国产精品路线1路线2路线,亚洲视频一区,精品国产自,www狠狠,国产情侣激情在线视频免费看,亚洲成年网站在线观看

文件自動分類系統(tǒng)Delphi

  • 相關(guān)推薦

文件自動分類系統(tǒng)Delphi

畢業(yè)論文


            文件自動分類系統(tǒng)

 

摘要:隨著網(wǎng)絡(luò)信息的迅猛發(fā)展,信息分類已經(jīng)成為人們獲取有用信息不可缺少的工具,文件自動分類系統(tǒng)是信息分類的重要研究方向,它是指在給定的分類體系下,根據(jù)文件的內(nèi)容自動判別文件類別的過程。
目前,向量空間模型是進(jìn)行大規(guī)模文件處理的最佳模型,論文首先對向量空間模型進(jìn)行了研究和探討,包括:向量空間模型的基本概念、特征項(xiàng)的選擇、特征項(xiàng)的提取算法等等。
然后,本文介紹了幾種常用的基于向量空間模型的文件分類算法,同時描述了具體的算法步驟。
針對訓(xùn)練樣本收集整理工作困難的問題,本文重點(diǎn)探討了文件分類算法結(jié)合的可能性,并具體提出了1種實(shí)際可行的的文件分類系統(tǒng)的設(shè)計方法,該分類系統(tǒng)由訓(xùn)練過程、分類過程兩部分組成,系統(tǒng)采用細(xì)致的模塊化設(shè)計,具有很強(qiáng)的擴(kuò)展性和靈活性。在本文提出并實(shí)現(xiàn)的文件分類系統(tǒng)上,進(jìn)行了測試工作,并得到了嚴(yán)格的實(shí)驗(yàn)數(shù)據(jù)。
關(guān)鍵詞:文件分類;向量空間模型;特征項(xiàng)的提取;特征項(xiàng)的選擇


Automatic classification of documents system


ABSTRACT: In recent years , information categorization turns more and more important for us to get useful information . File Categorization, i.e. automated assigning files to predefined categories based on their contents, is a task of increasing importance.
Now, Vector Space Model (VSM) is the best model for large scale of file processing. Firstly, We discuss the key techniques of VSM, including: basic conception of VSM, Feature Selection and Feature Extraction.
 The second part is the introduction to several common File Categorization methods and the algorithms are presented in detail.
 In many important file classification problems, acquiring class labels for training documents is costly. This paper show that the accuracy of file classifiers trained with a small number of labeled documents can be improved by using VSM  methods. The proposed classification system is divided into two parts: training procedure and classifying procedure . The system has good scalability and flexibility. Based on the file classification system, we have done much work on testing and have got much precise data.
Keywords: File Classification;Vector Space Model; Feature Selection; Feature Extraction
 
目錄
1 前言 1
1.1 文件分類系統(tǒng)的問題描述 1
1.2 系統(tǒng)概述 1
1.3 文本分類系統(tǒng)的研究目的和意義 2
1.4 論文的主要內(nèi)容 3
1.4.1研究內(nèi)容 3
1.4.2本文的組織 3
2.發(fā)展現(xiàn)狀及相關(guān)技術(shù)、工具介紹 5
2.1 系統(tǒng)發(fā)展現(xiàn)狀 5
2.2 Delphi的概述 5
2.3 Delphi開發(fā)數(shù)據(jù)庫應(yīng)用程序 9
2.4 Delphi應(yīng)用程序框架和設(shè)計 9
2.5 Delphi多媒體應(yīng)用程序 10
3.系統(tǒng)的總體設(shè)計 11
3.1 系統(tǒng)需求分析 11
3.2 設(shè)計的基本思想 11
3.3 系統(tǒng)的結(jié)構(gòu)設(shè)計 11
3.4 文件分類關(guān)鍵技術(shù) 13
3.5 系統(tǒng)開發(fā)環(huán)境 18
3.6 運(yùn)行環(huán)境 19
4.系統(tǒng)的結(jié)構(gòu)與實(shí)現(xiàn) 20
4.1 功能模塊的實(shí)現(xiàn)和程序框圖 20
4.1.1 創(chuàng)建1個工程 20
4.1.2 語料庫維護(hù)模塊 20
4.1.4 特征提取 21
4.1.5 系統(tǒng)流程 22
4.1.6 文件分類模塊 23
4.1.7 文件分類流程 24
4.2 測試結(jié)果 25
4.3運(yùn)行結(jié)果 28
5.結(jié)論和展望 29
致  謝 30
參考文獻(xiàn) 31
附錄 32
 

1 前言
210世紀(jì)910年代以來,Internet 以驚人的速度發(fā)展起來,它容納了海量的各種類型的原始信息,包括文本信息、聲音信息、圖像信息等等。信息的高速增長迫切要求信息處理技術(shù)的不斷進(jìn)步,文本分類系統(tǒng)是近年來信息處理領(lǐng)域的1個很重要的方向[10]。它能夠依據(jù)文本的語義將大量的文件自動分門別類,從而更好地幫助人們把握文本信息。
本章將簡單地介紹文件分類課題,討論文件分類系統(tǒng)的研究意義及可能的應(yīng)用范圍,并觀察了文件分類系統(tǒng)當(dāng)前的研究現(xiàn)狀,最后羅列了本文的結(jié)構(gòu)和主要內(nèi)容。
1.1文件分類系統(tǒng)的問題描述 
 文件自動分類是數(shù)值分類學(xué)與信息處理技術(shù)相結(jié)合而產(chǎn)生的研究方向。在最初的分類學(xué)中,人們往往通過經(jīng)驗(yàn)和專業(yè)知識對事物進(jìn)行定性分析,很少使用數(shù)學(xué)工具。隨著信息的不斷增長,信息之間的關(guān)系也日益復(fù)雜,從而導(dǎo)致分類程度越來越細(xì),分類規(guī)模也越來越大,這時僅僅依靠定性分析將無法滿足要求,于是人們在分類過程中引入了數(shù)學(xué)工具,使用統(tǒng)計、人工智能等各種方法處理信息,從而形成了數(shù)值分類學(xué)(Numerical Taxology),也大大推動了信息處理技術(shù)前進(jìn)的步伐[3]。
1.2 系統(tǒng)概述
   系統(tǒng)可對文件集進(jìn)行有序的組織,即把相似的、相關(guān)主題的文件組織在1起,從而為用戶提供更高效的搜索與更準(zhǔn)確的查詢結(jié)果。除了作為文件集的組織工具,文件分類系統(tǒng)還有更廣泛的應(yīng)用:
① 電子會議:通過對與會者意見、建議進(jìn)行分類以確定進(jìn)1步討論的主題。
② 郵件分類:對用戶收到的電子郵件按主題進(jìn)行分類。
③ 信息過濾:根據(jù)用戶的要求,將相關(guān)文件分配給可能感興趣的用戶。
文件分類系統(tǒng)的實(shí)現(xiàn)通常有統(tǒng)計方法與知識工程方法兩種技術(shù)。知識工程方法必須編制大量的推理規(guī)則,費(fèi)時費(fèi)力,代價很高,因而不大適用于復(fù)雜的系統(tǒng)。而統(tǒng)計方法的實(shí)現(xiàn)較為簡單,且在實(shí)際應(yīng)用中表現(xiàn)出良好的性能,因此得到了廣泛的應(yīng)用。系統(tǒng)采用了基于概率統(tǒng)計的方法。

【文件自動分類系統(tǒng)Delphi】相關(guān)文章:

delphi源代碼+可執(zhí)行文件+考試系統(tǒng)(一)03-07

delphi題庫系統(tǒng)(一)03-07

基于Delphi的試卷智能生成系統(tǒng)設(shè)計Delphi+SQL11-23

文本文件壓縮算法研究Delphi03-08

排課系統(tǒng)的實(shí)現(xiàn)Delphi+SQL11-23

家庭理財系統(tǒng)Delphi+SQL11-23

世界杯投注系統(tǒng)Delphi+SQL03-08

delphi+sql辦公自動化系統(tǒng)(+開題報告源程序+論文正文+外文03-07

C語言上機(jī)考試系統(tǒng)Delphi7+Access11-23