用戶訪問(wèn)模式挖掘及在電子商務(wù)中的應(yīng)用

時(shí)間：2024-08-29 08:46:12 電子商務(wù)畢業(yè)論文我要投稿

相關(guān)推薦

摘要：當(dāng)今電子商務(wù)網(wǎng)站日益增多，網(wǎng)站所提供的功能和服務(wù)也越來(lái)越豐富，然而也存在不足。比如，提供的服務(wù)或信息分布不公道，未能充分考慮到用戶的需求；信息的訪問(wèn)路徑未能考慮到信息的重要性和普遍關(guān)注性等等。本文研究將集中在基于圖結(jié)構(gòu)的用戶訪問(wèn)模式挖掘及其在電子商務(wù)中的應(yīng)用上，通過(guò)對(duì)基于Web拓?fù)浣Y(jié)構(gòu)(圖結(jié)構(gòu))挖掘用戶訪問(wèn)模式的數(shù)據(jù)挖掘，可對(duì)已存在的Web站點(diǎn)的結(jié)構(gòu)及站點(diǎn)內(nèi)的頁(yè)面進(jìn)行調(diào)整和改善，方便地向?yàn)g覽模式相似的用戶組推薦其感愛(ài)好的主題相似的頁(yè)面，使各類信息和服務(wù)以更有效的方式提供給用戶。
　　關(guān)鍵詞：數(shù)據(jù)挖掘 Web日志挖掘用戶訪問(wèn)模式 Web拓?fù)浣Y(jié)構(gòu)
　　
　　一、引言
　　
　　近幾年因特網(wǎng)已經(jīng)成為一個(gè)巨大的、分布廣泛的和全球性的信息服務(wù)中心，逐漸滲透到人們的日常工作、生活及其它領(lǐng)域，它為用戶提供了各種信息。然而，用戶面對(duì)一堆雜亂無(wú)章的信息往往花費(fèi)了大量的精力卻無(wú)法找到理想的結(jié)果。如何有效得分析用戶的需求，幫助用戶從因特網(wǎng)的信息海洋中發(fā)現(xiàn)他們感愛(ài)好的信息和資源，已經(jīng)成為一項(xiàng)迫切而重要的課題。解決這些題目的一個(gè)途徑，就是將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與Web結(jié)合起來(lái)，進(jìn)行Web數(shù)據(jù)挖掘。其中的Web日志挖掘可以把握用戶在瀏覽站點(diǎn)時(shí)的行為，并且將挖掘出的用戶訪問(wèn)模式應(yīng)用于網(wǎng)站上，在改善Web站點(diǎn)的結(jié)構(gòu)以及頁(yè)面間的超鏈接結(jié)構(gòu)，進(jìn)步站點(diǎn)的服務(wù)質(zhì)量等方面有重要的意義。
　　
　　二、Web數(shù)據(jù)挖掘概述
　　
　　(一)Web數(shù)據(jù)挖掘的定義及分類
　　Web數(shù)據(jù)挖掘我們這里采用一個(gè)更一般的定義：Web數(shù)據(jù)挖掘是指從與WWW相關(guān)的資源和行為中抽取感愛(ài)好的、有用的模式和隱含信息。
　　Web信息的多樣性決定了Web挖掘任務(wù)的多樣性，Web數(shù)據(jù)挖掘總的來(lái)說(shuō)分為內(nèi)容挖掘、結(jié)構(gòu)挖掘和日志挖掘三類，如圖l所示：
　　
　　(二)Web日志挖掘
　　Web日志挖掘也稱Web使用挖掘，是指從Web使用數(shù)據(jù)中抽取用戶訪問(wèn)模式的過(guò)程。
　　一般Web日志挖掘的過(guò)程分為以下三步：
　　1．?dāng)?shù)據(jù)預(yù)備：對(duì)Web日志內(nèi)容進(jìn)行預(yù)處理，刪除無(wú)用數(shù)據(jù)，識(shí)別用戶會(huì)話，完善訪問(wèn)路徑。
　　2．模式識(shí)別：采用相應(yīng)的數(shù)據(jù)挖掘算法，對(duì)預(yù)處理之后的數(shù)據(jù)進(jìn)行挖掘，天生模式。
　　3．模式分析：排除模式識(shí)別中沒(méi)有價(jià)值的規(guī)則或模式，將有價(jià)值的模式提取出來(lái)。
　　
　　三、基于圖結(jié)構(gòu)的Web日志挖掘
　　
　　(一)數(shù)據(jù)預(yù)備
　　1．?dāng)?shù)據(jù)源
　　目前的Web日志挖掘的數(shù)據(jù)源主要是Web服務(wù)器日志文件，它記錄了用戶訪問(wèn)站點(diǎn)的數(shù)據(jù)，每當(dāng)站點(diǎn)上的頁(yè)面被訪問(wèn)一次，Web服務(wù)器就在日志中增加一條相應(yīng)的記錄。服務(wù)器上的日志不僅具體記錄了站點(diǎn)訪問(wèn)者的瀏覽行為，而且匯集了訪問(wèn)同一站點(diǎn)的多個(gè)訪問(wèn)者的行為。
　　2．?dāng)?shù)據(jù)預(yù)處理
　　在Web日志挖掘中，主要分析的數(shù)據(jù)源是服務(wù)器日志，但是由于服務(wù)器日志記錄的數(shù)據(jù)并不完整，直接在其上進(jìn)行挖掘非常困難。因此要對(duì)日志數(shù)據(jù)進(jìn)行預(yù)處理主要包括以下步驟：
　　數(shù)據(jù)轉(zhuǎn)換：將原始日志文件導(dǎo)進(jìn)數(shù)據(jù)庫(kù)中。
　　數(shù)據(jù)清理：刪除與日志分析目的無(wú)關(guān)的記錄。
　　用戶識(shí)別：將用戶和請(qǐng)求的頁(yè)面相關(guān)聯(lián)。
　　會(huì)話識(shí)別：將用戶在一段時(shí)間內(nèi)的請(qǐng)求頁(yè)面分解成能反映實(shí)際瀏覽習(xí)慣的用戶會(huì)話。
　　路徑補(bǔ)充：將本地或者代理服務(wù)器中緩存而沒(méi)有被日志記錄的請(qǐng)求頁(yè)面增加到會(huì)話中。
　　
　　(二)基于圖結(jié)構(gòu)的用戶訪問(wèn)模式挖掘
　　本文中的算法在現(xiàn)有的挖掘關(guān)聯(lián)規(guī)則算法的基礎(chǔ)上上進(jìn)行延伸，并且在支持度計(jì)算，候選路徑的產(chǎn)生和剪除階段時(shí)考慮網(wǎng)站的圖結(jié)構(gòu)。這樣，在候選集的天生和剪除過(guò)程中減少了候選集的數(shù)目，可進(jìn)步發(fā)現(xiàn)模式的精確性和效率，并且避免了“交易變質(zhì)”的題目。首先，分析站點(diǎn)結(jié)構(gòu)，并給出“圖”的相關(guān)定義和定理。其次，對(duì)現(xiàn)有的Web日志挖掘方法進(jìn)行簡(jiǎn)單的先容和分析。接著，給出基于圖結(jié)構(gòu)的用戶訪問(wèn)模式挖掘算法。
　　1．站點(diǎn)結(jié)構(gòu)的分析
　　
　　每個(gè)Web網(wǎng)站并不是平面結(jié)構(gòu)，而是有自己的特定結(jié)構(gòu)。我們可將Web結(jié)構(gòu)看作是一個(gè)多層的模型，每個(gè)層面包含很多頁(yè)面，這些頁(yè)面上有很多文本、圖片、音樂(lè)等頁(yè)面元素組成，它們可以鏈接本層面或其他層面的頁(yè)面元素。
　　Web可以用一個(gè)有向圖來(lái)表示，G=(V，E)，V是頁(yè)面的集合，E是頁(yè)面之間的超鏈接集合。頁(yè)面抽象為圖中的頂點(diǎn)，而頁(yè)面之間的超鏈接抽象為圖中的有向邊。頂點(diǎn)v的進(jìn)邊表示對(duì)v的引用，出邊表示v引用了其它的頁(yè)面。所以Web頁(yè)面之間的超鏈接揭示了Web結(jié)構(gòu)。通過(guò)對(duì)Web結(jié)構(gòu)的分析可對(duì)Web數(shù)據(jù)挖掘有很大的幫助，如圖4，某站點(diǎn)拓?fù)浣Y(jié)構(gòu)示例圖。
　　2．基于圖結(jié)構(gòu)的用戶訪問(wèn)模式挖掘算法
　　Web用戶訪問(wèn)模式的挖掘過(guò)程可描述為：把用戶會(huì)話序列看成是對(duì)圖的遍歷，結(jié)合數(shù)據(jù)庫(kù)和Web圖結(jié)構(gòu)確定訪問(wèn)的最大向前路徑。從中找出支持度大于閾值的所有子路徑即頻繁遍歷路徑，最后確定最大頻繁遍歷路徑�；趫D結(jié)構(gòu)的用戶訪問(wèn)模式的挖掘和現(xiàn)有方法最大的不同是，訪問(wèn)模式也被以為是圖遍歷，而不是二叉樹訪問(wèn)順序，即用戶會(huì)話序列是圖中的路徑。
　　(1)天生最大向前路徑
　　Web用戶訪問(wèn)模式的挖掘過(guò)程的第一步是把用戶會(huì)話序列看成是對(duì)圖的遍歷，結(jié)合數(shù)據(jù)庫(kù)和Web圖結(jié)構(gòu)確定訪問(wèn)的最大向前路徑。所謂最大向前路徑(MFP)是指從起始頁(yè)開(kāi)始到回溯發(fā)生前，用戶連續(xù)訪問(wèn)的最大頁(yè)面序列。
　　假設(shè)代表一個(gè)用戶會(huì)話，代表一個(gè)含有潛伏MFP的字符串，初值為空，f1ag表明當(dāng)前的遍歷方向是前進(jìn)還是后退，數(shù)據(jù)庫(kù)D存儲(chǔ)MFP序列。算法依次對(duì)每一個(gè)用戶會(huì)話進(jìn)行如下操縱：
　�、僖来巫x取頁(yè)面xi(1≤i≤m)。
　�、谌鬤i不存在于{y1，…，y-1}中，即xi是沒(méi)有訪問(wèn)過(guò)的頁(yè)面，則將xi作為yj加進(jìn)當(dāng)前可能的MFP中，f1ag標(biāo)記為前進(jìn)，轉(zhuǎn)(1)。
　�、鄯駝t若xi=yk(1≤k　　假如f1ag標(biāo)明前進(jìn)遍歷，則將{y1，…，y-1}作為一個(gè)M F P輸出到最大前向路徑集合F中，然后從中刪除{yk 1，…，yj-1}，并設(shè)標(biāo)志f1ag為向后移動(dòng)，轉(zhuǎn)(1)。
　　假如flag標(biāo)明為回退，刪除{yk i，…，yj-1}后轉(zhuǎn)(1)。
　�、墚�(dāng)處理到用戶會(huì)話中的最后一頁(yè)時(shí)，假如f1ag標(biāo)志仍-標(biāo)明向前，則此時(shí)的{y1，…，yj 1}是該會(huì)話中的最后一個(gè)MFP。　　此算法的形式化描述如下：
　　for aU Sn∈S //依次處理繪畫文件中的每個(gè)會(huì)話Sn1
　　y1=x1；j=2；i=2 f1ag=YES； ////初始化頁(yè)面序列，將遍歷方向設(shè)置為前進(jìn)；
　　while(i≤m)//循環(huán)處理用戶會(huì)話Sn中每個(gè)頁(yè)面；
{
　　if(xi==yk)for some 1≤k　　(2)挖掘頻繁遍歷路徑
　　頻繁遍歷路徑是指MFP中滿足一定支持度的子路徑序列(不是連續(xù)頁(yè)面序列)。頻繁遍歷路徑的確定能用像Aprior算法中的逐層搜索算法實(shí)現(xiàn)。在算法的每步中，都要掃描數(shù)據(jù)庫(kù)，并計(jì)算所有的候選集的支持度。每步中的所有候選集都有相同的長(zhǎng)度。在每個(gè)過(guò)程的結(jié)束，天生候選集Ck，然后計(jì)算Ck中每個(gè)候選項(xiàng)的支持度并剪除小于支持度閾值的候選項(xiàng)，以減少下一循環(huán)的掃描時(shí)間，由此頻繁遍歷路徑集合Lk被確定，并用于在下個(gè)步中候選集的計(jì)算。算法的一般結(jié)構(gòu)如下。支持度的最小值記為minSupport，Ck表示所有長(zhǎng)度為k的候選集，Lk表示所有長(zhǎng)度為k的頻繁遍歷路徑的集合，D表示數(shù)據(jù)庫(kù)，G表示圖。
　　算法4－逐層搜索確定圖G中的頻繁遍歷路徑盡管逐層搜索算法的基本結(jié)構(gòu)相似于Apriori，但是它的組成部分(i)候選集支持度計(jì)算(ii)產(chǎn)生下一階段的候選集，明顯不同于Apriori，由于，該算法中的候選集必須是圖中的路徑。該算法基于定理4執(zhí)行Apriori剪除。對(duì)于支持度計(jì)算(第6，7步)，基于子路徑的數(shù)目。
　　在圖4的例子中，是一條頻繁遍歷路徑，也是用戶會(huì)話2和4的一條子路徑，盡管在用戶會(huì)話4中，它的頂點(diǎn)是不連續(xù)的，但在圖5中，它是一條路徑。還有，頻繁遍歷路徑不能再延伸，由于如圖4所示，它的終結(jié)點(diǎn)A只有到頂點(diǎn)B和C的兩條弧，并已經(jīng)包含在這條路徑中。頻繁遍歷路徑不能延伸，既不是由于已經(jīng)包含在路徑中的頂點(diǎn)C，也不是由于頂點(diǎn)B，由于不是頻繁遍歷路徑。
　　
　　四、Web日志挖掘的應(yīng)用
　　從Web使用數(shù)據(jù)中挖掘出的訪問(wèn)模式可以應(yīng)用到廣闊的領(lǐng)域，以下僅先容在電子商務(wù)中的應(yīng)用。
　　
　　(一)個(gè)性化服務(wù)
　　
　　根據(jù)網(wǎng)站用戶的訪問(wèn)情況，為用戶提供個(gè)性化信息服務(wù)，這是很多互聯(lián)網(wǎng)應(yīng)用，尤其是互聯(lián)網(wǎng)信息服務(wù)或電子商務(wù)(網(wǎng)站)所追求的目標(biāo)。根據(jù)用戶的訪問(wèn)行為和檔案向使用者進(jìn)行動(dòng)態(tài)的推薦，對(duì)很多應(yīng)用都有很大的吸引力。Web日志挖掘是一個(gè)能夠出色地完成這個(gè)目標(biāo)的方式。
　　例如141：SiteHelper可以通過(guò)分析每個(gè)用戶的網(wǎng)頁(yè)訪問(wèn)情況，了解用戶的愛(ài)好，并從用戶瀏覽時(shí)間較長(zhǎng)的網(wǎng)頁(yè)中抽取出相應(yīng)關(guān)鍵字，匯總后給用戶，獲得反饋后，再向用戶推薦網(wǎng)站中其他類似或相關(guān)網(wǎng)頁(yè)。又如：WebWatcher“跟蹤”用戶瀏覽網(wǎng)頁(yè)過(guò)程，識(shí)別用戶可能感愛(ài)好的鏈接，WebWatcher根據(jù)用戶本人和其他類似用戶的瀏覽情況，對(duì)每個(gè)新網(wǎng)頁(yè)進(jìn)行評(píng)估，以幫助用戶能夠及時(shí)地瀏覽自己感愛(ài)好的網(wǎng)頁(yè)。
　　
　　(二)貿(mào)易智能
　　有關(guān)用戶訪問(wèn)網(wǎng)站的行為模式，對(duì)于電子商務(wù)中的市場(chǎng)職員來(lái)說(shuō)是非常重要的，通過(guò)定義Web使用日志的超維數(shù)據(jù)立方，將Web使用數(shù)據(jù)與電子商務(wù)應(yīng)用數(shù)占有機(jī)地結(jié)合在一起。這樣就可以利用數(shù)據(jù)挖掘方法與技術(shù)來(lái)為客戶關(guān)系治理中的四個(gè)重要階段(吸引顧客，保存顧客，交叉銷售，顧客離開(kāi))提供決策支持。例如：WebLogMiner可以將Web日志數(shù)據(jù)轉(zhuǎn)換為超維數(shù)據(jù)立方的形式以便能夠進(jìn)行OLAP分析處理和數(shù)據(jù)挖掘工作。在WebLogMiner系統(tǒng)中還使用了關(guān)聯(lián)規(guī)則，分類和序列模式分析等數(shù)據(jù)挖掘方法，得到了電子商務(wù)交易行為序列、特征和交易預(yù)期的分析。
　　
　　五、小結(jié)
　　
　　本文運(yùn)用一種基于Web拓?fù)浣Y(jié)構(gòu)(圖結(jié)構(gòu))挖掘用戶訪問(wèn)模式的方法，區(qū)別于常用的基于樹形結(jié)構(gòu)的Web路徑分析技術(shù)，進(jìn)步了發(fā)現(xiàn)模式的精確性和效率。我們給出一個(gè)像Aprior那樣的逐層搜索算法，得到用戶的瀏覽模式。

【用戶訪問(wèn)模式挖掘及在電子商務(wù)中的應(yīng)用】相關(guān)文章：

Ｗｅｂ數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用.03-21

電子商務(wù)在圖書銷售模式中的應(yīng)用03-22

數(shù)據(jù)挖掘在旅游電子商務(wù)中應(yīng)用論文11-28

談聚類挖掘在電子商務(wù)中的應(yīng)用03-18

談數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用03-21

論網(wǎng)格技術(shù)在電子商務(wù)模式中的應(yīng)用03-22

數(shù)據(jù)挖掘技術(shù)在電子商務(wù)網(wǎng)站中的應(yīng)用03-28

Ｗｅｂ數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用研究03-07

電子商務(wù)網(wǎng)站的用戶治理模式研究03-21

亚洲国产日韩欧美在线a乱码,国产精品路线1路线2路线,亚洲视频一区,精品国产自,www狠狠,国产情侣激情在线视频免费看,亚洲成年网站在线观看

用戶訪問(wèn)模式挖掘及在電子商務(wù)中的應(yīng)用