- 相關推薦
基于愛好的電子商務數(shù)據挖掘技術的研究
[摘要] 本文對電子商務Web頁數(shù)據挖掘技術做了全面分析,對于個性化電子商務網站中難以發(fā)現(xiàn)用戶愛好行為特征題目,給出了Web頁面關聯(lián)算法。利用數(shù)據倉庫技術可有效挖掘用戶愛好特征,從而指導電子商務網站資源的組織和分配,為商務型網站的投資者和建立者提供正確的盈利導向。[關鍵詞] 電子商務數(shù)據挖掘愛好特征
數(shù)據挖掘技術是隨著數(shù)據庫技術和人工智能技術發(fā)展起來的一種新型的交叉信息技術。無論是B2B、B2C還是B2G電子商務模式,商品的采購者都需要通過Web方式與商品的供給商及其合作者之間建立信息流的交互,面向電子商務的數(shù)據挖掘的特點就是從Web數(shù)據庫中,運用關聯(lián)、分類、聚類等技術手段,從中提取出可以指導市場策略的有用數(shù)據。它基于“消費者過往的行為預示著其今后的消費傾向”的原理,通過收集、分析和處理從網上獲取的有關消費者消費行為的數(shù)據,從潛伏的、隱含的、事先不知的狀態(tài),經過提取、洗滌、加工變?yōu)闈摿薮蟮膬r值信息,從而實現(xiàn)網絡營銷的目的,確定特定消費群體或個體的消費習慣、愛好、傾向,進而預示出消費者下一步的消費行為,有針對性地提供服務。
一、電子商務Web數(shù)據挖掘技術
1.電子商務Web數(shù)據挖掘技術的分類
電子商務Web數(shù)據挖掘一般可分為三個部分:內容挖掘、結構挖掘、用法挖掘。Web內容挖掘有兩種策略:直接挖掘文檔內容和在其他檢索工具搜索的基礎上進行改進。Web結構挖掘是從WWW上的組織結構和鏈接關系中推導知識。Web用法挖掘的主要目標是從Web的訪問記錄中抽取感愛好的模式。大多數(shù)基于數(shù)據庫的數(shù)據挖掘方法均可作用于電子商務Web數(shù)據挖掘。
在研究以電子商務網上購物為應用背景的工作時發(fā)現(xiàn)。商家在Web上建立自己的在線商品目錄,顧客(即用戶)通過瀏覽器可以瀏覽商品目錄、實現(xiàn)網上訂購甚至網上支付等。用戶與商家的Web服務器間交互的過程信息(包括用戶的登錄信息、用戶的瀏覽記錄)以及用戶的個人扼要信息等,都能以日志文件或顧客數(shù)據庫的形式存在,從中找出規(guī)律性,對商家的市場銷售是至關重要的;從大量顧客數(shù)據及日志數(shù)據中,應用到計算機并行處理、神經元網絡、模型化算法和其他信息處理技術手段,挖掘出有意義的用戶訪問模式及相關的潛伏顧客群,從中可得到商家用于向特定消費群體或個體進行定向營銷的決策信息。同時有效地對這些Web日志進行定量分析,揭示其中的關聯(lián)關系、時序關系、頁面類屬關系、客戶類屬關系和頻繁訪問路徑、頻繁訪問頁面等,不但可為優(yōu)化Web站點拓撲結構提供參考,而且還可為企業(yè)更有效地確認目標市場、改進決策獲得更大的競爭上風提供幫助。
2.電子商務Web數(shù)據挖掘模型構建和基本流程
電子商務Web服務器自動收集客戶瀏覽信息并保存在訪問日志、引用日志和代理日志中。典型的電子商務Web服務器日志文件包括以下信息:IP地址,請求時間,方法(如get),被請求文件的URL,HTTP版本號,返回碼,傳輸字節(jié)數(shù),引用頁的URL和代理。
電子商務Web挖掘,首先對日志文件進行預處理,預處理主要由兩部分構成:數(shù)據清洗(data cleaning)和事務識別(transaction identification)。包括對Web日志進行清洗、過濾和轉換以及無關記錄的剔除,判定是否有重要的訪問沒有被記錄,并從中抽取感愛好的數(shù)據;并將URL、資源的類型、大小、請求的時間、在資源上停留的時間、請求者的Internet域名、用戶、服務器狀態(tài)作為數(shù)據cube的維數(shù)變量;再將對模塊、頁面和文件請求次數(shù),來自不同Internet域請求次數(shù)、事件、會話、帶寬、錯誤次數(shù)、不同瀏覽器種類、用戶所在組織作為度量變量建立data cube;而將文件、圖像腳本及多媒體等其他文件轉換成可用于Web使用挖掘的數(shù)據格式,從而可將數(shù)據挖掘技術用于Web流量分析、典型的事件序列分析和用戶行為模式分析及事務分析。
定義函數(shù)log={ip,uid,url,time}表示電子商務Web服務器日志。其中,ip,uid,url,time分別標識客戶ip、客戶id、客戶請求的url和瀏覽時間。
在經過數(shù)據預處理階段后,即可針對電子商務中不同的挖掘目標可以采用不同的數(shù)據挖掘方法,選擇數(shù)據挖掘模式,如統(tǒng)計分析、關聯(lián)規(guī)則、時序模式、路徑分析(path analysis)及聚類、分類技術。
進行實際的挖掘操縱的要點有:首先決定如何產生假設;選擇合適的工具;發(fā)掘知識的操縱;證實發(fā)現(xiàn)的知識。
【基于愛好的電子商務數(shù)據挖掘技術的研究】相關文章:
基于數(shù)據挖掘技術的交叉銷售分析12-08
基于數(shù)據挖掘的網絡入侵檢測技術11-23
基于數(shù)據挖掘技術的保險行業(yè)決策分析研究03-09
基于數(shù)據挖掘技術的現(xiàn)代物流管理03-25
基于聚類分析的數(shù)據挖掘方法03-08