- 相關(guān)推薦
CPM搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
畢業(yè)論文
目錄
摘要 2
前 言 4
1 概述 5
1.1 搜索引擎的概念 5
1.2 1些著名的搜索引擎 6
1.2.1 Google 6
1.2.2 百度 7
1.2.3 天網(wǎng) 7
1.3 典型WEB搜索引擎工作原理 7
1.4 CPM搜索引擎工作原理 9
2 CPM搜索總體設(shè)計(jì) 10
2.1基本要求 10
2.2 體系結(jié)構(gòu)規(guī)劃分析 11
2.3 各模塊設(shè)計(jì)策略分析 11
2.3.1 網(wǎng)頁(yè)搜集 11
2.3.2 預(yù)處理 13
2.3.3 查詢服務(wù) 14
2.4 體系結(jié)構(gòu) 16
3 網(wǎng)頁(yè)搜集模塊的設(shè)計(jì)與實(shí)現(xiàn) 18
3.1 超文本傳輸協(xié)議 18
3.2 網(wǎng)絡(luò)蜘蛛原理 19
3.3 網(wǎng)絡(luò)蜘蛛的類結(jié)構(gòu) 20
3.4 CSPIDERTHREAD類 21
3.5 網(wǎng)絡(luò)蜘蛛爬取策略 26
3.6 控制對(duì)1個(gè)站點(diǎn)并發(fā)搜索線程的數(shù)目 26
3.7 數(shù)據(jù)庫(kù)設(shè)計(jì) 26
4 預(yù)處理模塊的設(shè)計(jì)與實(shí)現(xiàn) 28
4.1 分析網(wǎng)頁(yè) 28
4.1.1 分析網(wǎng)頁(yè)內(nèi)容 28
4.1.2 獲取網(wǎng)頁(yè)所有鏈接URL 29
4.3 網(wǎng)頁(yè)重復(fù)搜集的避免 30
4.4 網(wǎng)頁(yè)重要程度確定 31
4.5 中文分詞 31
4.5.1 算法介紹 31
4.5.2 正向減字最大匹配法 33
4.5.3 分詞系統(tǒng)實(shí)現(xiàn) 35
5 查詢服務(wù)模塊設(shè)計(jì)與實(shí)現(xiàn) 40
5.1 查詢服務(wù)系統(tǒng)結(jié)構(gòu) 40
5.2 查詢結(jié)果顯示 41
5.3 用戶界面 41
5.4 針對(duì)查詢服務(wù)對(duì)分詞系統(tǒng)的改進(jìn) 43
6 結(jié)束語(yǔ) 44
致謝 46
參 考 文 獻(xiàn) 47
附錄 48
1 網(wǎng)絡(luò)蜘蛛程序與數(shù)據(jù)庫(kù)接口實(shí)現(xiàn) 48
2 分詞系統(tǒng)對(duì)文章處理的函數(shù)實(shí)現(xiàn) 49
CPM搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
摘要:本文論述了1個(gè)小型搜索引擎(CPM搜索)系統(tǒng)的設(shè)計(jì)原理、設(shè)計(jì)思想及具體的實(shí)現(xiàn)過(guò)程,對(duì)在設(shè)計(jì)過(guò)程中涉及到的關(guān)鍵算法作了具體分析和介紹,并對(duì)各個(gè)模塊的架構(gòu)以及設(shè)計(jì)思想和設(shè)計(jì)過(guò)程作了詳細(xì)闡述。該系統(tǒng)主要包括3個(gè)模塊:網(wǎng)頁(yè)搜集、預(yù)處理和查詢服務(wù)。網(wǎng)頁(yè)搜集和預(yù)處理模塊采用VC++開發(fā) ,實(shí)現(xiàn)了搶先式多線程網(wǎng)絡(luò)蜘蛛程序和中文分詞系統(tǒng)。查詢服務(wù)模塊實(shí)現(xiàn)了基于ASP的Web服務(wù)系統(tǒng)。
CPM搜索是個(gè)人畢業(yè)設(shè)計(jì)做的1個(gè)小型搜索引擎系統(tǒng),設(shè)計(jì)的目的就是讓它足夠小,但是又讓它具備完整的搜索服務(wù)功能。便于任何1個(gè)對(duì)搜索引擎感興趣的人可以利用自己有限的硬件資源(如自己的臺(tái)式機(jī))搭建,實(shí)現(xiàn)小型搜索服務(wù),如校園搜索。
關(guān)鍵字:網(wǎng)絡(luò)蜘蛛;中文分詞;網(wǎng)頁(yè)重要程度;網(wǎng)頁(yè)索引詞;動(dòng)態(tài)庫(kù)
The Design And Realization of CPM Search Engine
Abstract: There is a small search engine (CPM search) system design principles, design concepts and concrete realization process in the discourse. in the design process involves a specific analysis of the key algorithms and introduction, and the structure and design of the various modules of ideas and made a detailed design process. The system consists of three main modules : web collection, pretreatment and query services. Collection and pretreatment module used VC++ development, achieving pre-empt a number of systems network spider procedures and Chinese participle system. Query service module based on the ASP achievement of the Web system.
CPM is a small search engine search which i designed in my graduate-design time. The aim of design it is enough small, but it has also integrated search service functions. A search engine for any interested person may make use of its limited hardware resources (such as their desktop) structures, and achieve small search services, such as campus search.
KeyWords:Network spiders;the Chinese participle;the degree of importance of the website;dynamic link libraries
包括:畢業(yè)論文 任務(wù)書 沒有源代碼
【CPM搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)】相關(guān)文章:
都市頻道制作網(wǎng)的設(shè)計(jì)與實(shí)現(xiàn)05-29
提高網(wǎng)站在Google中的排名-面向搜索引擎的網(wǎng)站設(shè)計(jì)05-28
城市旅游網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn)論文(精選6篇)05-07
淺探網(wǎng)絡(luò)環(huán)境下搜索引擎的使用05-13
基于minigui的網(wǎng)真機(jī)界面的實(shí)現(xiàn)08-05
構(gòu)筑企業(yè)數(shù)據(jù)中心 實(shí)現(xiàn)理性分析決策06-04
用Verilog HDL實(shí)現(xiàn)I2C總線功能06-01