- 相關(guān)推薦
個(gè)性化電子商務(wù)系統(tǒng)中的自適應(yīng)過濾算法探究
[摘要]電子商務(wù)的飛速發(fā)展在方便顧客的同時(shí)也帶來了一個(gè)題目:產(chǎn)品過多致使顧客不能有效選擇其所需產(chǎn)品。為滿足顧客的個(gè)性化電子商務(wù)需求,文章提出一個(gè)新的基于向量空間模型的自適應(yīng)過濾算法。該算法首先采用特征向量和偽反饋并借助練習(xí)算法來選取初始過濾輪廓和閩值,然后運(yùn)用用戶反饋通過過濾算法對(duì)輪廓和閾值進(jìn)行修正。該算法具備兩個(gè)優(yōu)點(diǎn):一是能夠進(jìn)行自我學(xué)習(xí)來進(jìn)步精確度;二是過濾過程無需大量的初始文本。將其用于電子商務(wù)并進(jìn)行測(cè)試,測(cè)試結(jié)果證實(shí)它是有效的。[關(guān)鍵詞]個(gè)性化電子商務(wù);自適應(yīng)過濾算法;閩值優(yōu)化算法;精確度;特征選擇
電子商務(wù)伴隨著互聯(lián)網(wǎng)飛速發(fā)展,同時(shí)也為企業(yè)和顧客帶來了一個(gè)新局面:企業(yè)發(fā)現(xiàn)競(jìng)爭(zhēng)日益激烈,生存日益艱難;顧客發(fā)現(xiàn)產(chǎn)品日益增多,但信息處理負(fù)擔(dān)日益加重,選擇自己所需的產(chǎn)品日益困難。因此,亟需新的市場(chǎng)戰(zhàn)略,如一對(duì)一的銷售、客戶關(guān)系治理等。學(xué)術(shù)界和實(shí)踐者已夸大了這一緊迫性。而個(gè)性化推薦,即為每個(gè)客戶推薦一個(gè)產(chǎn)品清單供其選擇,就是實(shí)施這些新戰(zhàn)略的方案之一。
目前已經(jīng)有很多推薦技術(shù),其中協(xié)同過濾技術(shù)是當(dāng)前最為成功和廣泛使用的個(gè)性化推薦技術(shù)。它被廣泛應(yīng)用于網(wǎng)頁、電影、文章和產(chǎn)品的推薦,作用原理是先識(shí)別出具有相似產(chǎn)品需求的顧客群,然后為這一顧客群推薦產(chǎn)品。然而,盡管這些推薦技術(shù)業(yè)已成功,但仍暴露出一些廣為人知的可能導(dǎo)致不良推薦的局限性,如算法的可擴(kuò)展性、評(píng)價(jià)數(shù)據(jù)的稀疏性和初始資源推薦題目。
鑒于此,筆者提出一個(gè)新的基于向量空間模型的自適應(yīng)過濾算法。該算法改進(jìn)了傳統(tǒng)算法,并將自適應(yīng)反饋研究機(jī)制引進(jìn)智能控制中,因此具備兩個(gè)優(yōu)點(diǎn):一是能夠進(jìn)行自我學(xué)習(xí)來進(jìn)步精確度;二是過濾過程無需大量的初始文本。
一、自適應(yīng)過濾算法結(jié)構(gòu)
基于向量空間模型的自適應(yīng)過濾算法分為兩步:練習(xí)階段和自適應(yīng)過濾階段。
練習(xí)階段的任務(wù)是獲取初始過濾輪廓并設(shè)置初始閾值。
自適應(yīng)過濾階段的主要任務(wù)是對(duì)輪廓和閾值進(jìn)行適應(yīng)性修改。因主題和文檔均由向量空間模型展示,所以每個(gè)主題和文檔都轉(zhuǎn)化為特征向量。
(一)練習(xí)階段的結(jié)構(gòu)
圖1顯示的是練習(xí)階段的結(jié)構(gòu)。首先從正文檔和偽正文檔中提取出特征向量。偽正文檔即練習(xí)集里的那些具有與正文檔非常相似的主題卻未能標(biāo)識(shí)成正文檔的文檔。它們可以由多種方式獲得,可以通過偽反饋獲得,或者通過種類分級(jí)結(jié)構(gòu)獲得:一個(gè)主題的偽正文檔之高級(jí)種類與練習(xí)集提供的高級(jí)種類相同。
為得到特征向量,首先剔除禁用詞,接著對(duì)剩余的詞進(jìn)行形態(tài)分析,然后根據(jù)公式(1)計(jì)算詞語與主題之間的對(duì)數(shù)交互信息:
logMI(wi,Tj)=log(p(wi/Tj/p(wi)) (1)
上述公式中,wi是第i個(gè)詞語,Tj是第j個(gè)主題。對(duì)數(shù)交互信息越高,wi和Tj相關(guān)性越高。p(wi/Tj)和p(wi)由最大可能性方法估計(jì)出。
對(duì)于每個(gè)主題,選取那些對(duì)數(shù)交互信息高于3.0而且在有關(guān)文檔中出現(xiàn)不止一次的詞語。對(duì)數(shù)交互信息不僅被用作選擇標(biāo)準(zhǔn),而且被用作特征詞的權(quán)重。 得到正文檔和偽正文檔的特征向量之后,將其合并到初始輪廓中。初始輪廓是正文檔和偽正文檔的特征向量之加權(quán)和。然后根據(jù)練習(xí)集里每個(gè)文檔的相似性為每個(gè)主題設(shè)置初始閾值。輪廓與練習(xí)文檔之間的相似性由如下余弦公式(2)計(jì)算出:
pj是第j個(gè)主題的輪廓向量,di是第i個(gè)文檔的向量,dik是di中第k個(gè)詞語的權(quán)重,由下列公式(3)計(jì)算得出:
dik=1 log(tfikavdlIdl) (3)
此公式中,如是第i個(gè)文檔中第k個(gè)詞語的條件頻率,dl是形態(tài)處理和禁用詞剔除之后通過文檔標(biāo)志計(jì)數(shù)得到的文檔長(zhǎng)度,avdl是從練習(xí)集得到的均勻文檔長(zhǎng)度。根據(jù)練習(xí)文檔的相似性設(shè)置每一個(gè)初始閾值以達(dá)到最高過濾性能。
(二)自適應(yīng)性算法的結(jié)構(gòu)
自適應(yīng)過濾是自適應(yīng)過濾算法的一個(gè)非常重要的階段。我們從練習(xí)階段得到了初始輪廓和閾值。當(dāng)過濾輸進(jìn)文檔時(shí),主題輪廓和閾值則依據(jù)各種不同信息,如:用戶反饋、輸進(jìn)文檔的向量等進(jìn)行自適應(yīng)更新。
圖2顯示了適應(yīng)性過濾的結(jié)構(gòu)。當(dāng)一個(gè)文檔到達(dá)時(shí),其與主題的相似性即被計(jì)算出。假如該相似性高于當(dāng)前閾值,則這個(gè)文檔被找回,用戶的相關(guān)性判定也由此得出。假如該文檔真正與主題相關(guān),則其被以為是正實(shí)例,反之則是負(fù)實(shí)例。正實(shí)例和負(fù)實(shí)例的向量根據(jù)公式(4)被用于主題輪廓的修改。
p'j=pi αpj(pos) βpj(neg) (4)
p'j是修改后的主題輪廓,pj修改前的主題輪廓,pj(cos)是更新階段得到的正實(shí)例的向量,pj(neg)是更新階段得到的負(fù)實(shí)例的向量;α和β分別是正向量和負(fù)向量的權(quán)重。
(三)閾值優(yōu)化算法
筆者提出一個(gè)新的閾值優(yōu)化算法。定義該算法使用下列符號(hào):
t:文檔編號(hào),可以看作是時(shí)問,由于文檔是按照時(shí)間順序處理的;
n(f):被處理的文檔的數(shù)目;
nR(f):找回的相關(guān)文檔;
nN(f):找回的不相關(guān)文檔;
T(t):在t時(shí)刻的閾值;
S(tk,tk 1t):在(tk,tk 1)時(shí)間段中被拒盡的文檔的均勻相似性;
P(tk tk 1):在(tk,tk 1)時(shí)間段中過濾的精確度,并且p(tk,tk 1)=nR(tk 1-nR(tk/n(tk ))-n(tk) (5)
假如我們憑直覺處理,精確度太低就應(yīng)該進(jìn)步閾值,很少文檔被找回則降低閾值。我們使用S(tk,tk 1)和P(tk,tk 1)來決定是進(jìn)步閾值抑或降低閾值。
調(diào)整閾值的算法如下所示:
IF p(tk,tk 1)≤EP(ttk 1) THEN
T(tk 1)=T(tk) α(tk 1)(1-T(tk))
ELSEIF S(ttk,tk 1)<T(tk)r THEN
T(tk 1)=T(tk)Dt1 S(tk,tk 1)Dt2
ELSE
T(tk 1)=T(tk)Dt1 S(tk,tk 1)Dt2
α(tk 1)是閾值進(jìn)步系數(shù),β(tk 1)是閾值降低系數(shù),它們也可以被看作是關(guān)于nR(t)的函數(shù)。在試驗(yàn)中,我們采用nR(t)的線性函數(shù),該函數(shù)如公式(6)、公式(7)所示:
αo是初始進(jìn)步系數(shù),β是初始降低系數(shù),參數(shù)u代表應(yīng)該用于調(diào)整閾值、修改輪廓的正文檔的最大數(shù)目。我們?cè)O(shè)置αo=0.02,u=0.1,(應(yīng)該是βo吧)μ=300。從以上等式可以看出,隨著時(shí)間推移,nR(tk)將逐漸增大,α(tk)和β(tk)將逐漸減小。這也反映出過濾將越來越好,調(diào)整步階將越來越小這一趨勢(shì)。
參數(shù)r表示:假如s(tk 1,tk)低于T(tk 1)r,閾值應(yīng)該由系數(shù)D1和D2來降低。在試驗(yàn)中,我們?cè)O(shè)置r=0.1,=0.8,=0.2。
EP(t 1k)表示我們所期看的過濾應(yīng)該在tk時(shí)刻達(dá)到的精確度。我們首先將其作為常數(shù),嘗試不同的值來觀察過濾性能,但是結(jié)果不盡如人意。我們意識(shí)到在過濾初期就?催_(dá)到終極期看精確度是不正確的,因而采用了一個(gè)逐漸上升的函數(shù),該函數(shù)如公式(8)所示:
EP(tk 1)=P (Pfinal-P0)nR(tk 1)IU
(8)
P0和Ptfinal分別是過濾初期和過濾末期我們所?催^濾達(dá)到的精確度。
nR(tk 1)-nR(tk)的值決定著過濾對(duì)閾值的調(diào)整頻率,其越小表明過濾對(duì)閾值的調(diào)整越頻繁。在我們的適應(yīng)性過濾中,我們將其設(shè)為1,即意味著過濾只在找回一個(gè)正實(shí)例之后才調(diào)整閾值。
二、試驗(yàn)
根據(jù)研究,我們將個(gè)性化服務(wù)系統(tǒng)的合作項(xiàng)目與社區(qū)結(jié)合起來。筆者構(gòu)建了一個(gè)基于為特定社區(qū)服務(wù)的電子商務(wù)的個(gè)性化推薦系統(tǒng)網(wǎng)站。為得到對(duì)比試驗(yàn)結(jié)果,傳統(tǒng)的過濾批次算法和自適應(yīng)過濾算法被分別應(yīng)用于個(gè)性化社團(tuán)過濾模塊中。試驗(yàn)數(shù)據(jù)從上面提及的電子商務(wù)網(wǎng)站得到,并劃分成兩個(gè)集合:練習(xí)實(shí)例(5062個(gè)社區(qū))和測(cè)試實(shí)例(4028個(gè)社區(qū))。64個(gè)主題也被用于該試驗(yàn)。試驗(yàn)結(jié)果如圖3所示。x軸是64個(gè)主題按照精確度從高到低排列,Y軸是傳統(tǒng)批次過濾和自適應(yīng)過濾對(duì)于每個(gè)種類的精確度。傳統(tǒng)批次過濾為每個(gè)主題提供了12個(gè)相關(guān)社團(tuán),適應(yīng)性過濾則提供了3個(gè)。此外,每個(gè)種類只有3個(gè)相關(guān)社團(tuán)。
從圖3可以看出,批次過濾算法的性能下降不快,兩條曲線非常接近。事實(shí)上,兩個(gè)均勻值分別是30.9%和25.8%,范圍只降低了16.3%。但是,大多數(shù)種類的精確度在不使用適應(yīng)性過濾算法的情況下下降很多,均勻精確度是17.6%,下降45.2%。這就完整揭示了自適應(yīng)功能。
三、結(jié)論
綜上所述,筆者提出一個(gè)新的基于向量空間模型的用于電子商務(wù)的自適應(yīng)過濾算法。將該算法應(yīng)用于基于電子商務(wù)的個(gè)性化服務(wù)系統(tǒng)中進(jìn)行測(cè)試,測(cè)試結(jié)果證實(shí)它是有效可行的。?幢疚哪転槠渌芯空咛峁┮欢ǖ膮⒖純r(jià)值。
【個(gè)性化電子商務(wù)系統(tǒng)中的自適應(yīng)過濾算法探究】相關(guān)文章:
非理想信道條件下MIMO系統(tǒng)中的自適應(yīng)調(diào)制算法研究03-07
基于3GPP LTE 系統(tǒng)的HARQ 算法探究03-03
MCMC算法在MIMO系統(tǒng)檢測(cè)中的應(yīng)用03-07
EPON系統(tǒng)中的FEC譯碼算法實(shí)現(xiàn)比較03-07
網(wǎng)頁消重中多維布隆過濾器算法的運(yùn)用11-18