個(gè)性化電子商務(wù)系統(tǒng)中的自適應(yīng)過(guò)濾算法探究

時(shí)間：2024-08-02 15:30:22 電子商務(wù)畢業(yè)論文我要投稿

相關(guān)推薦

[摘要]電子商務(wù)的飛速發(fā)展在方便顧客的同時(shí)也帶來(lái)了一個(gè)題目：產(chǎn)品過(guò)多致使顧客不能有效選擇其所需產(chǎn)品。為滿足顧客的個(gè)性化電子商務(wù)需求，文章提出一個(gè)新的基于向量空間模型的自適應(yīng)過(guò)濾算法。該算法首先采用特征向量和偽反饋并借助練習(xí)算法來(lái)選取初始過(guò)濾輪廓和閩值，然后運(yùn)用用戶反饋通過(guò)過(guò)濾算法對(duì)輪廓和閾值進(jìn)行修正。該算法具備兩個(gè)優(yōu)點(diǎn)：一是能夠進(jìn)行自我學(xué)習(xí)來(lái)進(jìn)步精確度；二是過(guò)濾過(guò)程無(wú)需大量的初始文本。將其用于電子商務(wù)并進(jìn)行測(cè)試，測(cè)試結(jié)果證實(shí)它是有效的。
　　[關(guān)鍵詞]個(gè)性化電子商務(wù)；自適應(yīng)過(guò)濾算法；閩值優(yōu)化算法；精確度；特征選擇
　　
　　
　　電子商務(wù)伴隨著互聯(lián)網(wǎng)飛速發(fā)展，同時(shí)也為企業(yè)和顧客帶來(lái)了一個(gè)新局面：企業(yè)發(fā)現(xiàn)競(jìng)爭(zhēng)日益激烈，生存日益艱難；顧客發(fā)現(xiàn)產(chǎn)品日益增多，但信息處理負(fù)擔(dān)日益加重，選擇自己所需的產(chǎn)品日益困難。因此，亟需新的市場(chǎng)戰(zhàn)略，如一對(duì)一的銷(xiāo)售、客戶關(guān)系治理等。學(xué)術(shù)界和實(shí)踐者已夸大了這一緊迫性。而個(gè)性化推薦，即為每個(gè)客戶推薦一個(gè)產(chǎn)品清單供其選擇，就是實(shí)施這些新戰(zhàn)略的方案之一。
　　目前已經(jīng)有很多推薦技術(shù)，其中協(xié)同過(guò)濾技術(shù)是當(dāng)前最為成功和廣泛使用的個(gè)性化推薦技術(shù)。它被廣泛應(yīng)用于網(wǎng)頁(yè)、電影、文章和產(chǎn)品的推薦，作用原理是先識(shí)別出具有相似產(chǎn)品需求的顧客群，然后為這一顧客群推薦產(chǎn)品。然而，盡管這些推薦技術(shù)業(yè)已成功，但仍暴露出一些廣為人知的可能導(dǎo)致不良推薦的局限性，如算法的可擴(kuò)展性、評(píng)價(jià)數(shù)據(jù)的稀疏性和初始資源推薦題目。
　　鑒于此，筆者提出一個(gè)新的基于向量空間模型的自適應(yīng)過(guò)濾算法。該算法改進(jìn)了傳統(tǒng)算法，并將自適應(yīng)反饋研究機(jī)制引進(jìn)智能控制中，因此具備兩個(gè)優(yōu)點(diǎn)：一是能夠進(jìn)行自我學(xué)習(xí)來(lái)進(jìn)步精確度；二是過(guò)濾過(guò)程無(wú)需大量的初始文本。
　　
　　一、自適應(yīng)過(guò)濾算法結(jié)構(gòu)
　　
　　基于向量空間模型的自適應(yīng)過(guò)濾算法分為兩步：練習(xí)階段和自適應(yīng)過(guò)濾階段。
　　練習(xí)階段的任務(wù)是獲取初始過(guò)濾輪廓并設(shè)置初始閾值。
　　自適應(yīng)過(guò)濾階段的主要任務(wù)是對(duì)輪廓和閾值進(jìn)行適應(yīng)性修改。因主題和文檔均由向量空間模型展示，所以每個(gè)主題和文檔都轉(zhuǎn)化為特征向量。
　　
　　(一)練習(xí)階段的結(jié)構(gòu)
　　
　　圖1顯示的是練習(xí)階段的結(jié)構(gòu)。首先從正文檔和偽正文檔中提取出特征向量。偽正文檔即練習(xí)集里的那些具有與正文檔非常相似的主題卻未能標(biāo)識(shí)成正文檔的文檔。它們可以由多種方式獲得，可以通過(guò)偽反饋獲得，或者通過(guò)種類(lèi)分級(jí)結(jié)構(gòu)獲得：一個(gè)主題的偽正文檔之高級(jí)種類(lèi)與練習(xí)集提供的高級(jí)種類(lèi)相同。
　　為得到特征向量，首先剔除禁用詞，接著對(duì)剩余的詞進(jìn)行形態(tài)分析，然后根據(jù)公式(1)計(jì)算詞語(yǔ)與主題之間的對(duì)數(shù)交互信息：
　　logMI(w_i，T_j)=log(p(w_i/T_j/p(w_i)) 　　(1)
　　上述公式中，w_i是第i個(gè)詞語(yǔ)，T_j是第j個(gè)主題。對(duì)數(shù)交互信息越高，w_i和T_j相關(guān)性越高。p(w_i/T_j)和p(w_i)由最大可能性方法估計(jì)出。
　　對(duì)于每個(gè)主題，選取那些對(duì)數(shù)交互信息高于3.0而且在有關(guān)文檔中出現(xiàn)不止一次的詞語(yǔ)。對(duì)數(shù)交互信息不僅被用作選擇標(biāo)準(zhǔn)，而且被用作特征詞的權(quán)重。得到正文檔和偽正文檔的特征向量之后，將其合并到初始輪廓中。初始輪廓是正文檔和偽正文檔的特征向量之加權(quán)和。然后根據(jù)練習(xí)集里每個(gè)文檔的相似性為每個(gè)主題設(shè)置初始閾值。輪廓與練習(xí)文檔之間的相似性由如下余弦公式(2)計(jì)算出：
　　p_j是第j個(gè)主題的輪廓向量，d_i是第i個(gè)文檔的向量，d_ik是d_i中第k個(gè)詞語(yǔ)的權(quán)重，由下列公式(3)計(jì)算得出：
　　
　　d_ik=1 log(tf_ikavdlIdl)　　(3)
　　此公式中，如是第i個(gè)文檔中第k個(gè)詞語(yǔ)的條件頻率，dl是形態(tài)處理和禁用詞剔除之后通過(guò)文檔標(biāo)志計(jì)數(shù)得到的文檔長(zhǎng)度，avdl是從練習(xí)集得到的均勻文檔長(zhǎng)度。根據(jù)練習(xí)文檔的相似性設(shè)置每一個(gè)初始閾值以達(dá)到最高過(guò)濾性能。
　　
　　(二)自適應(yīng)性算法的結(jié)構(gòu)
　　自適應(yīng)過(guò)濾是自適應(yīng)過(guò)濾算法的一個(gè)非常重要的階段。我們從練習(xí)階段得到了初始輪廓和閾值。當(dāng)過(guò)濾輸進(jìn)文檔時(shí)，主題輪廓和閾值則依據(jù)各種不同信息，如：用戶反饋、輸進(jìn)文檔的向量等進(jìn)行自適應(yīng)更新。
　　
　　圖2顯示了適應(yīng)性過(guò)濾的結(jié)構(gòu)。當(dāng)一個(gè)文檔到達(dá)時(shí)，其與主題的相似性即被計(jì)算出。假如該相似性高于當(dāng)前閾值，則這個(gè)文檔被找回，用戶的相關(guān)性判定也由此得出。假如該文檔真正與主題相關(guān)，則其被以為是正實(shí)例，反之則是負(fù)實(shí)例。正實(shí)例和負(fù)實(shí)例的向量根據(jù)公式(4)被用于主題輪廓的修改。
　　p'_j=p_i αp_j(pos) βp_j(neg)　　(4)
　　p'_j是修改后的主題輪廓，p_j修改前的主題輪廓，p_j(cos)是更新階段得到的正實(shí)例的向量，p_j(neg)是更新階段得到的負(fù)實(shí)例的向量；α和β分別是正向量和負(fù)向量的權(quán)重。
　　
　　(三)閾值優(yōu)化算法
　　筆者提出一個(gè)新的閾值優(yōu)化算法。定義該算法使用下列符號(hào)：
　　t：文檔編號(hào)，可以看作是時(shí)問(wèn)，由于文檔是按照時(shí)間順序處理的；
　　n(f)：被處理的文檔的數(shù)目；
　　n_R(f)：找回的相關(guān)文檔；
　　n_N(f)：找回的不相關(guān)文檔；
　　T(t)：在t時(shí)刻的閾值；
　　S(t_k，t_{k 1}t)：在(t_k，t_{k 1})時(shí)間段中被拒盡的文檔的均勻相似性；
　　P(t_k t_{k 1})：在(t_k，t_{k 1})時(shí)間段中過(guò)濾的精確度，并且p(t_k，t_{k 1})=n_R(t_{k 1}-n_R(t_k/n(t_k))-n(t_k)　　(5)
　假如我們憑直覺(jué)處理，精確度太低就應(yīng)該進(jìn)步閾值，很少文檔被找回則降低閾值。我們使用S(t_k，t_{k 1})和P(t_k，t_{k 1})來(lái)決定是進(jìn)步閾值抑或降低閾值。
　　調(diào)整閾值的算法如下所示：
　　IF p(t_k，t_{k 1})≤EP(tt_{k 1})　THEN
　　T(t_{k 1})=T(t_k) α(t_{k 1})(1-T(t_k))
　　ELSEIF S(tt_k，t_{k 1})＜T(t_k)r　THEN
　　T(t_{k 1})=T(t_k)Dt₁ S(t_k，t_{k 1})Dt₂
　　ELSE
　　T(t_{k 1})=T(t_k)Dt₁ S(t_k，t_{k 1})Dt₂
　　α(t_{k 1})是閾值進(jìn)步系數(shù)，β(t_{k 1})是閾值降低系數(shù)，它們也可以被看作是關(guān)于n_R(t)的函數(shù)。在試驗(yàn)中，我們采用n_R(t)的線性函數(shù)，該函數(shù)如公式(6)、公式(7)所示：
　　
　　α_o是初始進(jìn)步系數(shù)，β是初始降低系數(shù)，參數(shù)u代表應(yīng)該用于調(diào)整閾值、修改輪廓的正文檔的最大數(shù)目。我們?cè)O(shè)置α_o=0.02，u=0.1，(應(yīng)該是β_o吧)μ=300。從以上等式可以看出，隨著時(shí)間推移，n_R(t_k)將逐漸增大，α(t_k)和β(t_k)將逐漸減小。這也反映出過(guò)濾將越來(lái)越好，調(diào)整步階將越來(lái)越小這一趨勢(shì)。
　　參數(shù)r表示：假如s(t_{k 1}，t_k)低于T(t_{k 1})r，閾值應(yīng)該由系數(shù)D1和D2來(lái)降低。在試驗(yàn)中，我們?cè)O(shè)置r=0.1，=0.8，=0.2。
　　EP(t_1k)表示我們所期看的過(guò)濾應(yīng)該在t_k時(shí)刻達(dá)到的精確度。我們首先將其作為常數(shù)，嘗試不同的值來(lái)觀察過(guò)濾性能，但是結(jié)果不盡如人意。我們意識(shí)到在過(guò)濾初期就希看達(dá)到終極期看精確度是不正確的，因而采用了一個(gè)逐漸上升的函數(shù)，該函數(shù)如公式(8)所示：
　　EP(t_{k 1})=P (P_final-P₀)n_R(t_{k 1})IU
　　(8)
　　P₀和Pt_final分別是過(guò)濾初期和過(guò)濾末期我們所�？催^(guò)濾達(dá)到的精確度。
　　n_R(t_{k 1})-n_R(t_k)的值決定著過(guò)濾對(duì)閾值的調(diào)整頻率，其越小表明過(guò)濾對(duì)閾值的調(diào)整越頻繁。在我們的適應(yīng)性過(guò)濾中，我們將其設(shè)為1，即意味著過(guò)濾只在找回一個(gè)正實(shí)例之后才調(diào)整閾值。
　　
　　二、試驗(yàn)
　　
　　根據(jù)研究，我們將個(gè)性化服務(wù)系統(tǒng)的合作項(xiàng)目與社區(qū)結(jié)合起來(lái)。筆者構(gòu)建了一個(gè)基于為特定社區(qū)服務(wù)的電子商務(wù)的個(gè)性化推薦系統(tǒng)網(wǎng)站。為得到對(duì)比試驗(yàn)結(jié)果，傳統(tǒng)的過(guò)濾批次算法和自適應(yīng)過(guò)濾算法被分別應(yīng)用于個(gè)性化社團(tuán)過(guò)濾模塊中。試驗(yàn)數(shù)據(jù)從上面提及的電子商務(wù)網(wǎng)站得到，并劃分成兩個(gè)集合：練習(xí)實(shí)例(5062個(gè)社區(qū))和測(cè)試實(shí)例(4028個(gè)社區(qū))。64個(gè)主題也被用于該試驗(yàn)。試驗(yàn)結(jié)果如圖3所示。x軸是64個(gè)主題按照精確度從高到低排列，Y軸是傳統(tǒng)批次過(guò)濾和自適應(yīng)過(guò)濾對(duì)于每個(gè)種類(lèi)的精確度。傳統(tǒng)批次過(guò)濾為每個(gè)主題提供了12個(gè)相關(guān)社團(tuán)，適應(yīng)性過(guò)濾則提供了3個(gè)。此外，每個(gè)種類(lèi)只有3個(gè)相關(guān)社團(tuán)。
　　從圖3可以看出，批次過(guò)濾算法的性能下降不快，兩條曲線非常接近。事實(shí)上，兩個(gè)均勻值分別是30.9％和25.8％，范圍只降低了16.3％。但是，大多數(shù)種類(lèi)的精確度在不使用適應(yīng)性過(guò)濾算法的情況下下降很多，均勻精確度是17.6％，下降45.2％。這就完整揭示了自適應(yīng)功能。
　　
　　
　　三、結(jié)論
　　
　　綜上所述，筆者提出一個(gè)新的基于向量空間模型的用于電子商務(wù)的自適應(yīng)過(guò)濾算法。將該算法應(yīng)用于基于電子商務(wù)的個(gè)性化服務(wù)系統(tǒng)中進(jìn)行測(cè)試，測(cè)試結(jié)果證實(shí)它是有效可行的。�？幢疚哪転槠渌芯空咛峁┮欢ǖ膮⒖純r(jià)值。

【個(gè)性化電子商務(wù)系統(tǒng)中的自適應(yīng)過(guò)濾算法探究】相關(guān)文章：

非理想信道條件下MIMO系統(tǒng)中的自適應(yīng)調(diào)制算法研究03-07

基于3GPP LTE 系統(tǒng)的HARQ 算法探究03-03

OFDMA系統(tǒng)中功率分配算法研究03-07

MCMC算法在MIMO系統(tǒng)檢測(cè)中的應(yīng)用03-07

Tunstall編碼與自適應(yīng)編碼算法03-07

EPON系統(tǒng)中的FEC譯碼算法實(shí)現(xiàn)比較03-07

網(wǎng)頁(yè)消重中多維布隆過(guò)濾器算法的運(yùn)用11-18

新型的OFDM自適應(yīng)調(diào)制算法研究03-07

MIMO系統(tǒng)中ZF及MMSE檢測(cè)算法的研究03-07

亚洲国产日韩欧美在线a乱码,国产精品路线1路线2路线,亚洲视频一区,精品国产自,www狠狠,国产情侣激情在线视频免费看,亚洲成年网站在线观看

個(gè)性化電子商務(wù)系統(tǒng)中的自適應(yīng)過(guò)濾算法探究