- 相關(guān)推薦
基于Web數(shù)據(jù)挖掘的用戶上網(wǎng)興趣收集VB+CSW
畢業(yè)論文
基于Web數(shù)據(jù)挖掘的用戶上網(wǎng)興趣收集
摘 要 在電子商務(wù)活動(dòng)中,為了研究用戶的上網(wǎng)、購(gòu)買習(xí)慣或者提供個(gè)性化的服務(wù),往往需要用戶注冊(cè),這種對(duì)個(gè)人信息的需求,在1定程度上影響了電子商務(wù)的發(fā)展。因?yàn)榛ヂ?lián)網(wǎng)用戶對(duì)個(gè)人隱私非常關(guān)心,在很多情況下用戶不愿提供詳細(xì)的個(gè)人信息。
獲取個(gè)人信息1方面應(yīng)在用戶可以接受的范圍內(nèi)獲取盡可能多的用戶信息;另1方面應(yīng)當(dāng)以盡可能少的、最有價(jià)值的用戶信息來(lái)保證電子商務(wù)活動(dòng)的需要。本文通過(guò)對(duì)用戶上網(wǎng)興趣進(jìn)行收集,得到用戶的興趣模型,即用戶興趣數(shù)據(jù)庫(kù)。通過(guò)VB 6.0和CSW 5.0分詞軟件實(shí)現(xiàn)了用戶在個(gè)人電腦上的上網(wǎng)興趣收集。通過(guò)不斷地收集活動(dòng),更新興趣數(shù)據(jù)庫(kù)。電子商務(wù)或其它服務(wù)提供商,通過(guò)獲取該用戶的興趣模型,就可以為用戶提供個(gè)性化服務(wù),提高了客戶或用戶與服務(wù)提供商交流的效率。
關(guān)鍵詞: Web數(shù)據(jù)挖掘; 用戶興趣收集;用戶興趣模型; 中文分詞;網(wǎng)志分析
User’s Web-Pages Interests Collection Based On
Web Data Mining
Abstract In order to offer better personal services, E-Business servers often acquire users’ private information registered by the users. This information needs affect the development of E-Business for everyone is concerned with his own information and afraid of being revealed, consequently. he won’t offer detailed information in many conditions.
So, it is essential to get users’ information as much as possible while extract the most useful information as little as possible to guarantee the E-Business services. In this paper, we build users’ interest model by acquiring users’ interests continuously. We use VB 6.0 and CSW 5.0 to acquire and analyse users interests, at the same time, update the User Interest Database by tracing the users’ behaviours which reflect their interests. As a result, E-Business or other servers can provide personality and improve the communion fluency between users and providers servers with this model.
Keywords:Web data mining; users’ interests collection; users’ interests modeling; word segmente; web log mining
目錄
前言 2
1 開(kāi)發(fā)環(huán)境 3
1.1 MICROSOFT ACCESS 2003 3
1.2 MICROSOFT VB 6.0 3
1.2.1 Visual Basic 6.0 開(kāi)發(fā)平臺(tái) 3
1.2.2 Visual Basic 6.0 訪問(wèn)數(shù)據(jù)庫(kù) 4
2 WEB數(shù)據(jù)挖掘及相關(guān)技術(shù)探討 6
2.1 WEB數(shù)據(jù)挖掘的概述 6
2.2 WEB文本挖掘及日志挖掘概述 7
2.3 WEB數(shù)據(jù)挖掘的相關(guān)技術(shù) 8
2.3.1 Cookies分析 9
2.3.2 收藏夾分析 15
2.3.3 中文分詞介紹 20
2.3.4 鉤子 23
2.4 興趣建模 29
2.4.1 用戶興趣模型的表示 29
2.4.2 建模技術(shù) 29
2.4.3 用戶興趣收集數(shù)據(jù)庫(kù) 30
3 系統(tǒng)分析與實(shí)現(xiàn) 32
3.1 系統(tǒng)分析及可行性研究 32
3.2 總體設(shè)計(jì) 32
3.3 數(shù)據(jù)庫(kù)設(shè)計(jì) 34
3.4 詳細(xì)設(shè)計(jì) 34
3.5 系統(tǒng)關(guān)鍵代碼 38
3.6 部分模塊測(cè)試后的顯示結(jié)果 40
4 總結(jié) 42
參考文獻(xiàn) 43
致謝 44
附錄1 CSW簡(jiǎn)介 45
附錄2 部分代碼 47
前言
近年來(lái),Internet技術(shù)得到了廣泛的應(yīng)用,并日趨普及,成為全球范圍內(nèi)傳播信息的重要手段。目前,Internet用戶可以利用搜索引擎工具,通過(guò)輸入關(guān)鍵字,獲得自己所需的信息。Internet上包含了大量的Web站點(diǎn),每個(gè)Web站點(diǎn)就是1個(gè)數(shù)據(jù)源。Web挖掘的數(shù)據(jù)通常包括3類:(1) 用戶的背景信息:此類信息主要來(lái)自用戶的注冊(cè)信息。(2) 瀏覽信息:瀏覽信息主要來(lái)自于瀏覽者的單擊流(Click-stream),這部分?jǐn)?shù)據(jù)主要用于考察用戶的行為表現(xiàn)。Web上有海量的的數(shù)據(jù)信息,人們?cè)跒g覽網(wǎng)站時(shí),包含了大量的潛在信息,如個(gè)人姓名和住址,單擊了哪1個(gè)連接,在哪里瀏覽時(shí)間最多等。 (3) Internet自身信息:這類信息來(lái)自Web自身,如網(wǎng)頁(yè)內(nèi)容、Web結(jié)構(gòu)等。
在網(wǎng)頁(yè)迅速增長(zhǎng)的同時(shí),Web用戶也迅猛地增長(zhǎng)。海量的網(wǎng)頁(yè)在為人們提供包羅萬(wàn)象、豐富無(wú)比的信息資源,同時(shí),也向人們提出了如何快速、有效地從信息海洋中獲取其所需信息的挑戰(zhàn)。由于信息站點(diǎn)的建立,信息發(fā)布是大量的、自由且無(wú)序的,如果沒(méi)有有效的搜索工具,在網(wǎng)絡(luò)中查找信息如同大海撈針。搜索引擎在網(wǎng)絡(luò)信息資源查找中起到了相當(dāng)重要的作用,是最普遍的輔助人們檢索信息的工具,比如傳統(tǒng)的搜索引擎Yahoo和新1代的搜索引擎Google等。
如今,在許多商務(wù)活動(dòng)中,為了研究用戶的上網(wǎng)、購(gòu)買習(xí)慣或者提供個(gè)性化的服務(wù),往往需要用戶注冊(cè),這種對(duì)個(gè)人信息的需求,在1定程度上影響了電子商務(wù)的發(fā)展,因?yàn)榛ヂ?lián)網(wǎng)用戶對(duì)個(gè)人隱私非常關(guān)心,在很多情況下用戶不愿提供詳細(xì)的個(gè)人信息。因此,在這種情況下,服務(wù)提供商就不得不從用戶瀏覽信息中的1系列相關(guān)動(dòng)作(比如把感興趣的網(wǎng)頁(yè)信息存入收藏夾、在某個(gè)網(wǎng)頁(yè)上的停留時(shí)間等)來(lái)推測(cè)用戶的興趣,進(jìn)而為用戶提供個(gè)性化服務(wù)。
本文通過(guò)研究和驗(yàn)證用戶上網(wǎng)興趣收集的方法,得到提升電子商務(wù)價(jià)值的途徑。把基于內(nèi)容的Web挖掘和基于日志的Web挖掘兩種方法結(jié)合起來(lái),在前人的基礎(chǔ)上,研究用戶興趣的收集方法并將收集數(shù)據(jù)進(jìn)行組織和建模,得到的用戶興趣模型可以應(yīng)用于電子服務(wù)行業(yè),使之能為用戶提供更加方便及個(gè)性化的服務(wù)。為檢驗(yàn)?zāi)P偷膶?shí)用性,本文設(shè)計(jì)1種智能網(wǎng)頁(yè)推薦系統(tǒng),為網(wǎng)站的每1訪問(wèn)用戶迅速提供其真正感興趣的網(wǎng)頁(yè)。并給出系統(tǒng)的實(shí)現(xiàn)算法。
本論文的研究?jī)?nèi)容有:對(duì)用戶定制信息的保存和分類;對(duì)用戶收藏的網(wǎng)頁(yè)進(jìn)行分析和特征提取; 對(duì)cookies的讀取與分析;對(duì)用戶瀏覽某網(wǎng)頁(yè)的動(dòng)作進(jìn)行統(tǒng)計(jì)分析;綜合用戶興趣愛(ài)好,統(tǒng)計(jì)用戶興趣排行;建立用戶興趣模型。
本論結(jié)構(gòu)及每章的基本內(nèi)容如下:
前言給出了論文寫作的背景、工作、研究目標(biāo)以及研究?jī)?nèi)容;
第1章開(kāi)發(fā)環(huán)境的主要介紹;
第2章詳細(xì)介紹了Web數(shù)據(jù)挖掘及相關(guān)技術(shù),包括Web文本挖掘概述、Web日志挖掘概述、Cookies分析、收藏夾分析、中文分詞介紹和鉤子以及用戶興趣建模的相關(guān)情況;
第3章進(jìn)行系統(tǒng)分析與實(shí)現(xiàn);
第4章對(duì)本文作了全面性的總結(jié)。
【基于Web數(shù)據(jù)挖掘的用戶上網(wǎng)興趣收集VB+CSW】相關(guān)文章:
基于PHP的Web數(shù)據(jù)庫(kù)訪問(wèn)07-21
基于用戶的Web應(yīng)用站點(diǎn)集成ASP+SQL07-14
基于數(shù)據(jù)挖掘的成績(jī)分析系統(tǒng)10-10
基于數(shù)據(jù)挖掘技術(shù)的交叉銷售分析09-27
基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測(cè)技術(shù)05-16
基于Web的MCF5249數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)06-01