亚洲国产日韩欧美在线a乱码,国产精品路线1路线2路线,亚洲视频一区,精品国产自,www狠狠,国产情侣激情在线视频免费看,亚洲成年网站在线观看

web數(shù)據(jù)挖掘技術(shù)分析與研究

時間:2020-11-12 10:39:29 Web Services 我要投稿

web數(shù)據(jù)挖掘技術(shù)分析與研究

  1Web數(shù)據(jù)挖掘面臨的問題

web數(shù)據(jù)挖掘技術(shù)分析與研究

  目前面向Web的數(shù)據(jù)挖掘面臨的問題,主要有兩個方面:

  1.1數(shù)據(jù)庫環(huán)境的異構(gòu)型

   Web上的每個站點就是一個數(shù)據(jù)源,數(shù)據(jù)源之間是異構(gòu)的,外加上各個站點的信息和組織的不同,Web網(wǎng)站就構(gòu)成了一個巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。要對這些數(shù)據(jù)進(jìn)行挖掘,首先,要解決各個站點之間的異構(gòu)數(shù)據(jù)集成,提供用戶統(tǒng)一界面,從復(fù)雜的數(shù)據(jù)源中取得所需的有用的信息知識。其次,有關(guān)Web上的數(shù)據(jù)查詢。

  1.2數(shù)據(jù)結(jié)構(gòu)的半結(jié)構(gòu)化

   Web上的數(shù)據(jù)比較復(fù)雜,各個站點的數(shù)據(jù)都獨立設(shè)計,具有動態(tài)可變性。雖然Web上的數(shù)據(jù)形成半結(jié)構(gòu)化數(shù)據(jù)。這些問題是進(jìn)行Web數(shù)據(jù)挖掘所面臨的最大困難。

  2XML技術(shù)在Web數(shù)據(jù)挖掘中的優(yōu)勢

  Web數(shù)據(jù)的異構(gòu)使Web數(shù)據(jù)挖掘變得十分困難,通過XML可以解決這個問題。因為XML文檔具有很好的自我描述性,他的元素、子元素、屬性結(jié)構(gòu)樹可以表達(dá)極為豐富的語義信息,能夠很好的描述半結(jié)構(gòu)化的數(shù)據(jù),因此在網(wǎng)絡(luò)數(shù)據(jù)集成、發(fā)送、處理和顯示的方面。開發(fā)人員能夠用XML的格式標(biāo)記和交換數(shù)據(jù)。XML在三層架構(gòu)上為數(shù)據(jù)的處理提供了有用的途徑。利用XML,Web設(shè)計人員能夠構(gòu)建文檔類型定義的多層次互相關(guān)聯(lián)的系統(tǒng)、元數(shù)據(jù)、數(shù)據(jù)樹、樣式表和超鏈接結(jié)構(gòu);赬ML的Web數(shù)據(jù)挖掘技術(shù),能夠使不同來源的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起,解決Web數(shù)據(jù)挖掘的難題。

  2.1XML技術(shù)在Web數(shù)據(jù)挖掘中具體作用利用XML技術(shù)我們在Web數(shù)據(jù)挖掘中可以完成以下幾點:

  2.1.1集成異構(gòu)數(shù)據(jù)源

   XML是一種半結(jié)構(gòu)化的數(shù)據(jù)模型,可以完成和關(guān)系數(shù)據(jù)庫中的屬性一一對應(yīng),從而實施精確地查詢與模型抽取。XML可以搜索多個不同數(shù)據(jù)庫的問題,以實現(xiàn)集成。

  2.1.2和異構(gòu)數(shù)據(jù)進(jìn)行交換

   在Web數(shù)據(jù)挖掘程中,用戶需要和異構(gòu)數(shù)據(jù)源進(jìn)行數(shù)據(jù)交換,XML通過自定義性及可擴展性來標(biāo)識各種數(shù)據(jù),從而描述從各站點搜集到的Web頁中的數(shù)據(jù)。XML的出現(xiàn)解決了數(shù)據(jù)查詢的統(tǒng)一接口。

  2.1.3過濾信息并顯示

   XML描述數(shù)據(jù)本身,可以使得定義的數(shù)據(jù)以不同的方式顯示,對獲取的信息進(jìn)行裁減和編輯以適應(yīng)不同用戶的需求。以不同的瀏覽形式提供給不同的用戶。

  3基于XML的Web數(shù)據(jù)挖掘模型

  我們通過對XML及Web數(shù)據(jù)挖掘的分析,設(shè)計了一個基于XML的Web數(shù)據(jù)挖掘模型通過提供一個Web數(shù)據(jù)挖掘的集成環(huán)境,提高數(shù)據(jù)挖掘系統(tǒng)的整體性能。工作流程如下:系統(tǒng)根據(jù)用戶要求搜集Web資源,經(jīng)數(shù)據(jù)轉(zhuǎn)換器處理成相應(yīng)的XML數(shù)據(jù)存儲,提供給挖掘器使用;挖掘器則根據(jù)要求從選取相應(yīng)的算法挖掘,輸出挖掘結(jié)果;用戶根據(jù)自己的滿意度,獲得需要的挖掘結(jié)果,調(diào)整挖掘要求進(jìn)入新一輪數(shù)據(jù)挖掘。通過系統(tǒng)的維護(hù)我們可以加入新的挖掘算法,實現(xiàn)升級。

  3.1各模塊具體功能

  3.1.1數(shù)據(jù)收集

   從Web站點上采集數(shù)據(jù)并存儲,獲得挖掘內(nèi)容。針對異構(gòu)數(shù)據(jù)源,可以多種方式提出相關(guān)需求,挖掘的重點是Web內(nèi)容和Web使用的數(shù)據(jù)。把用戶訪問網(wǎng)站留下原始日志數(shù)據(jù)進(jìn)行清洗、過濾和轉(zhuǎn)換處理,轉(zhuǎn)變成統(tǒng)一處理的數(shù)據(jù)結(jié)構(gòu),構(gòu)建日志數(shù)據(jù)庫。

  3.1.2轉(zhuǎn)換器

  對檢索得到的數(shù)據(jù)用XML技術(shù)進(jìn)行預(yù)處理,建立半結(jié)構(gòu)化數(shù)據(jù)模型,抽取其特征的元數(shù)據(jù),用結(jié)構(gòu)化的形式保存,為挖掘模塊提供所需的數(shù)據(jù)。

  3.1.3挖掘器

   不同的挖掘算法有不同適用情況,挖掘綜合器根據(jù)具體的需求和挖掘方法的不同選擇策略到挖掘算法庫中去選擇挖掘算法或種組合算法執(zhí)行挖掘任務(wù)。隨著應(yīng)用的深入,知識庫中的算法和規(guī)則不斷的豐富。挖掘算法庫是挖掘分析方法的綜合庫,以插拔的形式組織存放各種挖掘算法。314結(jié)果生成與評估以直觀的方式提交挖掘結(jié)果,便于用戶的評估。通過模式分析和興趣度度量,若結(jié)果使得用戶滿意,數(shù)據(jù)挖掘結(jié)束,輸出用戶感興趣的內(nèi)容;否則可以在此重新提出挖掘要求,重新挖掘。

  3.2系統(tǒng)各模塊實現(xiàn)方法

  3.2.1數(shù)據(jù)收集

   數(shù)據(jù)的收集也涉及數(shù)據(jù)挖掘的技術(shù),其過程是:通過人工輸入辦法,給出查詢主題,找到相關(guān)的'Web頁,然后,通過相應(yīng)的數(shù)據(jù)挖掘的算法對訓(xùn)練數(shù)據(jù)集提煉,利用提煉出的數(shù)據(jù)模式,進(jìn)行更大范圍的搜索,以獲取更多的數(shù)據(jù)源。最終形成較新和有效XML文檔。

  3.2.2數(shù)據(jù)的轉(zhuǎn)換處理

   數(shù)據(jù)抽取轉(zhuǎn)換是模型實現(xiàn)一個重要環(huán)節(jié),其主要方法是把現(xiàn)有的Web頁面轉(zhuǎn)換成XML格式,并使用相關(guān)工具處理XML結(jié)構(gòu)數(shù)據(jù)檢要把HTML中含有的與主題無關(guān)的標(biāo)記過濾掉,然后轉(zhuǎn)化到XML的格式存儲。目前Web頁面到XML文檔的轉(zhuǎn)換,有兩部分?jǐn)?shù)據(jù)構(gòu)成:一是XML數(shù)據(jù),二是非XML數(shù)據(jù)。XML數(shù)據(jù),可以直接將它們提交給下一個模塊。對于非XML數(shù)據(jù),本文的實現(xiàn)方法是用到Tidy以改正HTML文檔中的常見錯誤并生成格式編排良好的等價文檔,還可以使用Tidy生成XHTML(XML的子集)格式的文檔。通過構(gòu)造相應(yīng)的Java類完成將數(shù)據(jù)從HTML到XML的轉(zhuǎn)換。

  3.2.3挖掘方法

  (1)文本分類:文本分類是指按預(yù)先定義的主題類別,把集合中的每個文檔確定一個所屬類別。這樣,用戶能夠方便地瀏覽文檔,并限制搜索范圍來使查找更為容易。利用文本分類技術(shù)對大量文檔進(jìn)行快速、有效地自動分類。有關(guān)的算法通常采用TFIDF和NaiveBayes等方法。

 。2)文本聚類:文本聚類與分類的不同之處在于,聚類不需要預(yù)先定義好的主題類別,它是將把文檔集合分成若干個簇,要求同簇內(nèi)文檔內(nèi)容相似度最大,而不同簇間的相似度最小。Hearst等人研究表明聚類假設(shè),即與用戶查詢相關(guān)的文檔通常會聚類比較靠近,而遠(yuǎn)離與用戶查詢不相關(guān)文檔?梢岳梦谋揪垲惣夹g(shù)把搜索引擎檢索結(jié)果分成若干個簇,用戶只要考慮那些相關(guān)的簇,就能夠縮小所需要瀏覽的結(jié)果數(shù)量。目前,常用的文本聚類算法,分為兩種:以G-HAC等算法為代表的層次凝聚法,以k-means等算法為代表的平面劃分法。

  (3)關(guān)聯(lián)分析:關(guān)聯(lián)分析是指從文檔集合中發(fā)現(xiàn)不同詞語之間關(guān)系Brin提出一種從大量文檔中查找一對詞語出現(xiàn)模式算法,在Web上尋找作者和書名的模式,從而發(fā)現(xiàn)數(shù)千本在Amazon網(wǎng)站上查找不到的新書。

  (4)模式評價:Web數(shù)據(jù)挖掘中十分重要的過程就是模式評價。常用的方法有預(yù)留法和交叉實驗法,將數(shù)據(jù)分成訓(xùn)練集和測試集兩部分,學(xué)習(xí)和測試反復(fù)進(jìn)行,最后用一個平均質(zhì)量模型來確定模型質(zhì)量的好壞。

 。5)預(yù)留法:從數(shù)據(jù)集合隨機抽取預(yù)定大小一個子集作為測試集,其他數(shù)據(jù)則作為訓(xùn)練集。

 。6)交叉驗證法:把整個數(shù)據(jù)集合按照所要進(jìn)行的學(xué)習(xí)測試循環(huán)次數(shù)分成一定數(shù)目的子集,在每次循環(huán)中,選取其一個子集作為測試集,其它子集并集則作為訓(xùn)練集。

  4結(jié)束語

  XML技術(shù)不僅為Web上的數(shù)據(jù)交換提供了一個標(biāo)準(zhǔn),而且能夠更好的表示數(shù)據(jù)內(nèi)容,以及數(shù)據(jù)的含義。隨著XML的興起和完善,Web頁面會蘊涵更多的結(jié)構(gòu)化和語義的信息,因此,基于XML技術(shù)的數(shù)據(jù)挖掘已成為目前Web挖掘的研究熱點。當(dāng)然Web數(shù)據(jù)挖掘這一研究領(lǐng)域還有待于進(jìn)一步研究。

【web數(shù)據(jù)挖掘技術(shù)分析與研究】相關(guān)文章:

1.Web數(shù)據(jù)挖掘技術(shù)探析

2.關(guān)于Web日志的研究分析

3.客戶關(guān)系管理數(shù)據(jù)挖掘與應(yīng)用

4.基于web的綜合測評與分析

5.如何壓縮Web Service數(shù)據(jù)

6.論Web網(wǎng)站建設(shè)組織與結(jié)構(gòu)分析

7.淺析挖掘機維修與保養(yǎng)技術(shù)

8.挖掘機無回轉(zhuǎn)故障分析與處理