亚洲国产日韩欧美在线a乱码,国产精品路线1路线2路线,亚洲视频一区,精品国产自,www狠狠,国产情侣激情在线视频免费看,亚洲成年网站在线观看

科技論文發(fā)表基于Web數(shù)據(jù)挖掘技術(shù)的研究論文

時(shí)間:2020-08-07 08:48:13 論文發(fā)表 我要投稿

科技論文發(fā)表基于Web數(shù)據(jù)挖掘技術(shù)的研究論文

  互聯(lián)網(wǎng)的不斷得到發(fā)展,網(wǎng)頁中數(shù)據(jù)量迅速增加,如何從這么多的網(wǎng)頁信息中獲取有用的數(shù)據(jù)已經(jīng)成功數(shù)據(jù)挖掘領(lǐng)域的一個(gè)熱門的研究方向,數(shù)據(jù)挖掘是近幾年來迅速發(fā)展的進(jìn)行信息獲取的一個(gè)重要渠道, 尤其大量運(yùn)用與社會(huì)和科學(xué)的方方面面。一般來說數(shù)據(jù)挖掘主要利用計(jì)算機(jī)和相關(guān)的信息技術(shù),把有用的數(shù)據(jù)從海量的網(wǎng)頁數(shù)據(jù)中挖掘出來,為我們從事其他方面的運(yùn)用。基于網(wǎng)頁的數(shù)據(jù)挖掘是一門技術(shù)的綜合研究方向,它的思想是從Internet中提取網(wǎng)頁中的大量數(shù)據(jù),也就是從網(wǎng)頁的數(shù)據(jù)結(jié)構(gòu)中發(fā)現(xiàn)隱含的模式[1]。

科技論文發(fā)表基于Web數(shù)據(jù)挖掘技術(shù)的研究論文

  1 數(shù)據(jù)挖掘的特點(diǎn)

  1)數(shù)據(jù)挖掘的特點(diǎn)之一就是半結(jié)構(gòu)化,這個(gè)特別算是網(wǎng)頁數(shù)據(jù)挖掘的最大特點(diǎn)[2],因?yàn)榫W(wǎng)頁上的數(shù)據(jù)分布沒有規(guī)律,非常復(fù)雜,沒有任何固定的模式能夠很好的描述它的特點(diǎn)。因此稱它為半結(jié)構(gòu)化。

  2)數(shù)據(jù)挖掘的特點(diǎn)之二是網(wǎng)頁中的數(shù)據(jù)比較分散,這些網(wǎng)頁數(shù)據(jù)存在世界各地的很多服務(wù)器上,因此是一種數(shù)據(jù)源分散的結(jié)構(gòu)。

  3) 數(shù)據(jù)挖掘的特點(diǎn)之三是數(shù)據(jù)庫的'結(jié)構(gòu)存在不同,因?yàn)榛ヂ?lián)網(wǎng)上的一個(gè)網(wǎng)站可以存為一個(gè)數(shù)據(jù)源,它們的結(jié)構(gòu)互不相關(guān),異構(gòu)性特點(diǎn)比較強(qiáng),由它們構(gòu)成的數(shù)據(jù)庫自然而然也屬于一種異構(gòu)的形式。

  4) 數(shù)據(jù)挖掘的特點(diǎn)之四是動(dòng)態(tài)性強(qiáng),網(wǎng)站上的數(shù)據(jù)資源是不斷更新變化的,找不到固定的形式,網(wǎng)站與網(wǎng)站的直接訪問的鏈接是形式變化的。

  2 數(shù)據(jù)挖掘過程

  基于Web的數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)倉庫相比,網(wǎng)頁上的信息是半結(jié)構(gòu)化的或非結(jié)構(gòu)化、不容易識(shí)別、變化的,正因?yàn)樗@些特點(diǎn),要想在網(wǎng)頁上開展直接數(shù)據(jù)挖掘,可謂很費(fèi)功夫,就要借助一些方法來預(yù)處理數(shù)據(jù),才能方便挖掘。通常進(jìn)行網(wǎng)頁數(shù)據(jù)挖掘可分為的如圖1所示的四個(gè)步奏。

  1)數(shù)據(jù)源的獲取,在網(wǎng)站的各個(gè)頁面中獲取數(shù)據(jù)信息,組成目標(biāo)數(shù)據(jù)信息源,再從這些信息源中找到相關(guān)有用的數(shù)據(jù)。這個(gè)過程的目的就是從像網(wǎng)頁文檔、email、網(wǎng)頁記錄、新聞信息、各種網(wǎng)站數(shù)據(jù)庫中挖掘出有用的數(shù)據(jù)。

  2)把獲取的數(shù)據(jù)進(jìn)行加工處理,網(wǎng)頁數(shù)據(jù)挖掘的好壞直接與數(shù)據(jù)源的好壞相關(guān),如果獲取的數(shù)據(jù)源有大量的垃圾數(shù)據(jù),對(duì)數(shù)據(jù)挖掘過程有很大的影響,因此挖掘之前需要對(duì)數(shù)據(jù)源進(jìn)行篩選,消除那些雜音數(shù)據(jù),保證數(shù)據(jù)源的純正,然后將這些已經(jīng)過濾的數(shù)據(jù)再次裝入數(shù)據(jù)庫中進(jìn)行下一步的分析。

  3)對(duì)數(shù)據(jù)經(jīng)過提純處理后,進(jìn)入模式尋找階段,這需要各種挖掘算法分析、挖掘大量的、隱藏的、潛在的、可被利用的數(shù)據(jù)模式。在挖掘的過程中,經(jīng)常會(huì)使用到一些相關(guān)的方法,例如聚類分析法、關(guān)聯(lián)規(guī)則發(fā)等挖掘方法。

  4)在對(duì)數(shù)據(jù)模式發(fā)現(xiàn)后,需要對(duì)這些模式進(jìn)行挖掘,也就是知識(shí)的轉(zhuǎn)換過程,把提取到的模式再進(jìn)行信息轉(zhuǎn)化,轉(zhuǎn)化為我們能夠理解,識(shí)別的知識(shí),為我們的決策需要提供有用的參考源。

  3 數(shù)據(jù)挖掘分類

  在進(jìn)行數(shù)據(jù)挖掘的時(shí)候,針對(duì)不同的數(shù)據(jù)結(jié)構(gòu),會(huì)采用不同的挖掘方法,這樣才能有效、合理挖掘到有用的數(shù)據(jù),不能籠統(tǒng)采用一種方法,這樣挖掘的數(shù)據(jù)相應(yīng)的雜音數(shù)據(jù)就比較多。大體上,我們把數(shù)據(jù)挖掘分為三種類型,即:網(wǎng)頁使用挖掘、網(wǎng)頁結(jié)構(gòu)挖掘、網(wǎng)頁內(nèi)容挖 [3],如圖2所示。

  4 數(shù)據(jù)挖掘相關(guān)技術(shù)

  互聯(lián)網(wǎng)的發(fā)展促進(jìn)網(wǎng)頁數(shù)據(jù)挖掘得到越來越多的應(yīng)用,于是針對(duì)網(wǎng)頁挖掘的各種方法和技術(shù)不斷出現(xiàn),就這些相關(guān)的技術(shù)[4],下面分別一一介紹。

  4.1 網(wǎng)頁內(nèi)容挖掘

  4.1.1 網(wǎng)頁文檔挖掘

  網(wǎng)頁文檔挖掘就是分析網(wǎng)站上存在的數(shù)量很多的網(wǎng)頁文檔采用聚類、分類、關(guān)聯(lián)處理等多種方法進(jìn)行分析,然后根據(jù)網(wǎng)頁文檔進(jìn)行預(yù)測(cè)。在Internet的文檔數(shù)據(jù)一般都是以html格式的網(wǎng)頁文檔出現(xiàn),要采集這些網(wǎng)頁文檔數(shù)據(jù),然后把這些文檔數(shù)據(jù)變成記錄的形式存貯進(jìn)數(shù)據(jù)庫,把這些記錄用來表示文檔內(nèi)容特征,為后續(xù)的分析提供保障。表示文檔的特征形式通常使用文檔特征向量形式, 由于文檔的特征表示中存在一些缺陷,文檔的特征向量的維數(shù)非常高,對(duì)數(shù)據(jù)分析不利,因此一個(gè)好特征表示主要集中在特征集的選取方面,特征集需求好,對(duì)數(shù)據(jù)進(jìn)行分析的時(shí)間就相對(duì)少,如果選取不好,將要花很長時(shí)間去等待。因此特征集選取好壞成為數(shù)據(jù)分析額關(guān)鍵。一旦特征集選擇好后,就可以采用聚類、分類、數(shù)據(jù)關(guān)聯(lián)等方法來進(jìn)行提取信息,然后對(duì)這些提取的信息進(jìn)行評(píng)價(jià)分析,找到有用的信息,為后續(xù)的決策工作提供指導(dǎo)。

  4.1.2 挖掘網(wǎng)頁多媒體

  在進(jìn)行網(wǎng)頁多媒體挖掘主要關(guān)注的是特征提取,這點(diǎn)網(wǎng)頁內(nèi)容挖掘不一樣。在網(wǎng)頁多媒體挖掘中提取的多媒體特征主要關(guān)注視頻或者圖片的顏色特征、鍵值、形式以及它們的URL,最后根據(jù)這些特征進(jìn)行數(shù)據(jù)挖掘。

  4.2挖掘網(wǎng)頁結(jié)構(gòu)

  挖掘網(wǎng)站空間中的知識(shí),不僅關(guān)注包含在各個(gè)網(wǎng)頁內(nèi)容中的信息數(shù)據(jù),同時(shí)也關(guān)注網(wǎng)站與網(wǎng)站之間的網(wǎng)頁結(jié)構(gòu)和超級(jí)鏈接結(jié)構(gòu),這也是非常重要的。進(jìn)行網(wǎng)頁結(jié)構(gòu)挖掘主要分析網(wǎng)頁結(jié)構(gòu)之間的特征,利用聚類和分類來分析頁面結(jié)構(gòu)特征,找到特征模式。

  4.3 網(wǎng)頁使用挖掘

  網(wǎng)頁使用挖掘也是挖掘網(wǎng)頁記錄,實(shí)際就是挖掘用戶在網(wǎng)頁上留下的相關(guān)的記錄信息,網(wǎng)頁使用挖掘就是分析用戶留言記錄的相關(guān)信息,通過這些信息時(shí)報(bào)未來需要發(fā)展的用戶; 網(wǎng)頁使用挖掘通常使用擴(kuò)展有向樹模型分析用戶的各種瀏覽行為習(xí)慣,挖掘出用戶的日志信息,以及用戶關(guān)心、關(guān)注的興趣領(lǐng)域,把這些信息存放在知識(shí)庫中,未下一步的分析工作提供數(shù)據(jù), 對(duì)網(wǎng)頁使用日志挖掘可分為三個(gè)步驟:日志預(yù)分析、分析方法處理、 模式分析階段。在網(wǎng)頁使用分析中,關(guān)注網(wǎng)頁服務(wù)器記錄的相關(guān)信息,這些信息主要包括用戶訪問的時(shí)間、URL、IP、使用方法、代理、返回結(jié)構(gòu)、傳輸數(shù)據(jù)等相關(guān)信息雖然信息比較多,但是還存在無用的數(shù)據(jù),需要進(jìn)行提純處理。一旦數(shù)據(jù)處理后,就能采用關(guān)聯(lián)分析、如路徑分析等模式發(fā)現(xiàn)技術(shù)來分析日志,獲取有用的信息。

  5 結(jié)束語

  本文介紹了網(wǎng)頁數(shù)據(jù)挖掘的相關(guān)概念、挖掘過程、分類方法以及相關(guān)技術(shù)。在Internet發(fā)展的今天, 網(wǎng)頁數(shù)據(jù)挖掘的研究方面更加寬,人們不斷關(guān)注如何對(duì)這些網(wǎng)頁數(shù)據(jù)的處理。網(wǎng)頁數(shù)據(jù)挖掘在各個(gè)方面,特別在結(jié)合語言問題、查詢半結(jié)構(gòu)化、數(shù)據(jù)庫方面會(huì)得到不斷發(fā)展。

【科技論文發(fā)表基于Web數(shù)據(jù)挖掘技術(shù)的研究論文】相關(guān)文章:

1.web數(shù)據(jù)挖掘技術(shù)分析與研究

2.Web數(shù)據(jù)挖掘技術(shù)探析

3.Web數(shù)據(jù)挖掘在電子商務(wù)的應(yīng)用論文

4.Web數(shù)據(jù)挖掘及其在電子商務(wù)中的應(yīng)用研究論文

5.淺析電子商務(wù)中的WEB數(shù)據(jù)的挖掘論文

6.計(jì)算機(jī)Web數(shù)據(jù)挖掘技術(shù)在現(xiàn)代商業(yè)中的應(yīng)用論文

7.數(shù)據(jù)挖掘技術(shù)應(yīng)用于經(jīng)濟(jì)統(tǒng)計(jì)中的研究論文

8.數(shù)據(jù)挖掘技術(shù)工程管理論文