數(shù)據(jù)挖掘技術(shù)應(yīng)用于經(jīng)濟(jì)統(tǒng)計(jì)中的研究論文
摘要:數(shù)據(jù)管理中,由于很大數(shù)量的基數(shù)產(chǎn)生,而且數(shù)據(jù)的結(jié)構(gòu)相對(duì)復(fù)雜,很容易導(dǎo)致數(shù)據(jù)缺失的問(wèn)題。采用數(shù)據(jù)挖掘技術(shù),可以對(duì)數(shù)據(jù)管理中所產(chǎn)生的數(shù)據(jù)進(jìn)行更深層次加工,以提高數(shù)據(jù)質(zhì)量。本論文針對(duì)數(shù)據(jù)挖掘技術(shù)應(yīng)用于經(jīng)濟(jì)統(tǒng)計(jì)中的研究展開(kāi)研究。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù) 預(yù)處理 決策樹(shù) 經(jīng)濟(jì)統(tǒng)計(jì)
數(shù)據(jù)挖掘技術(shù)作為數(shù)據(jù)處理技術(shù),就是針對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的各種數(shù)據(jù)信息處理中選擇合適的分析工具,以通過(guò)篩選而獲得有用的信息。在經(jīng)濟(jì)統(tǒng)計(jì)中應(yīng)用數(shù)據(jù)挖掘技術(shù),可以對(duì)社會(huì)經(jīng)濟(jì)活動(dòng)的運(yùn)行情況進(jìn)行分析,以使得統(tǒng)計(jì)信息能夠滿(mǎn)足社會(huì)各個(gè)領(lǐng)域的需求。
一、數(shù)據(jù)挖掘技術(shù)
信息環(huán)境下所產(chǎn)生的數(shù)據(jù)量逐漸增大,給數(shù)據(jù)信息的使用者帶來(lái)了困難。在經(jīng)濟(jì)統(tǒng)計(jì)中,如果對(duì)這些信息進(jìn)行處理,并獲得有價(jià)值對(duì)信息成為亟待解決的問(wèn)題。面對(duì)龐大的屬于局信息,采用數(shù)據(jù)挖掘技術(shù),可以通過(guò)對(duì)所獲得的數(shù)據(jù)信息進(jìn)行分析和技術(shù)處理后獲得符合使用標(biāo)準(zhǔn)的數(shù)據(jù)信息,以滿(mǎn)足使用者的需求。在經(jīng)濟(jì)統(tǒng)計(jì)中采用數(shù)據(jù)挖掘技術(shù),可以提高數(shù)據(jù)信息質(zhì)量,以使得數(shù)據(jù)信息能夠更好地為中的社會(huì)經(jīng)濟(jì)發(fā)展服務(wù)。隨著數(shù)據(jù)信息質(zhì)量的提高,數(shù)據(jù)信息的使用效率也會(huì)提升,而且數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián)性也會(huì)被建立起來(lái)。
二、經(jīng)濟(jì)統(tǒng)計(jì)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
1.數(shù)據(jù)挖掘技術(shù)之預(yù)處理方法的應(yīng)用
對(duì)數(shù)據(jù)進(jìn)行預(yù)處理可以分為三個(gè)部分,即要做好數(shù)據(jù)清理工作,之后對(duì)有用的信息進(jìn)行篩選,對(duì)統(tǒng)計(jì)數(shù)據(jù)中所存在的不全面的現(xiàn)象,就要將具有噪聲的信息進(jìn)行去除。經(jīng)濟(jì)統(tǒng)計(jì)中所獲得的數(shù)據(jù)信息不同,所采用的數(shù)據(jù)挖掘技術(shù)也要有所不同。如果在經(jīng)濟(jì)統(tǒng)計(jì)的過(guò)程中所獲得的數(shù)據(jù)中,數(shù)據(jù)點(diǎn)和噪聲都是空值的時(shí)候,在進(jìn)行數(shù)據(jù)處理的時(shí)候就可以采用均值法或者平滑法。兩者之間的不同在于,均值法是將所獲得的有效數(shù)據(jù)進(jìn)行平均處理而獲得的數(shù)值,而平滑法所使用的是經(jīng)過(guò)加權(quán)處理后所獲得的平均數(shù)。這種方法對(duì)數(shù)據(jù)對(duì)其結(jié)果的權(quán)重都要予以充分考慮,因此結(jié)果與真實(shí)值更加接近。這兩種方法的運(yùn)用,要根據(jù)實(shí)際需要進(jìn)行選擇。還有一種方法是數(shù)據(jù)集成,就是集合不同的數(shù)據(jù)而形成集體,在集合數(shù)據(jù)的同時(shí),還能夠?qū)?shù)據(jù)的準(zhǔn)確性予以保證。數(shù)據(jù)集成在運(yùn)用的過(guò)程中會(huì)存在一些問(wèn)題,如果存在實(shí)體識(shí)別問(wèn)題,由于不同的數(shù)據(jù)會(huì)以不同的數(shù)據(jù)模式呈現(xiàn),就會(huì)出現(xiàn)模式集成問(wèn)題;如果數(shù)據(jù)較為繁瑣,存在多于的數(shù)據(jù)而使得數(shù)據(jù)質(zhì)量較低,就是冗余問(wèn)題的存在。在數(shù)據(jù)挖掘中,就要將經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)與其他數(shù)據(jù)之間的關(guān)系精簡(jiǎn),以使得數(shù)據(jù)庫(kù)中所存有的數(shù)據(jù)量得到優(yōu)化而提高數(shù)據(jù)的管理效率和應(yīng)用價(jià)值。比如,在對(duì)于國(guó)民生產(chǎn)總值進(jìn)行計(jì)算的時(shí)候,就要總體人口的屬性合理利用,還要將國(guó)內(nèi)生產(chǎn)總值計(jì)算出來(lái)。對(duì)冗余的屬性進(jìn)行判斷的時(shí)候,要將相關(guān)度的對(duì)比關(guān)系充分地利用起來(lái)。其中,元組的個(gè)數(shù)為n,屬性A的標(biāo)準(zhǔn)方差表示為“σA”,屬性B的標(biāo)準(zhǔn)方差表示為“σB”。如果σA>O,σB>0,就意味著屬性A與屬性B之間存在著正相關(guān)性,隨著屬性A的逐漸增大,屬性B也會(huì)有所增大。如果σA=0,σB=0,就意味著屬性A與屬性B之間并不存在相關(guān)性,相互之間并不存在必然的聯(lián)系,兩者是各自獨(dú)立存在的。如果σA<0,σB<0,就意味著屬性A與屬性B之間存在著負(fù)相關(guān)性,隨著屬性A的增大,屬性B就會(huì)相應(yīng)地減小。
2.數(shù)據(jù)挖掘技術(shù)之決策樹(shù)的應(yīng)用
對(duì)數(shù)據(jù)采用數(shù)據(jù)挖掘技術(shù)的時(shí)候,首先要系統(tǒng)性地分析數(shù)據(jù),將分析完成的數(shù)據(jù)輸出。在進(jìn)行數(shù)據(jù)分類(lèi)的時(shí)候采用決策樹(shù),就是要將決策樹(shù)的結(jié)構(gòu)構(gòu)建起來(lái)。首先,對(duì)數(shù)據(jù)的基本模型進(jìn)行分析,之后采用訓(xùn)練集將決策樹(shù)建立起來(lái),而且要對(duì)數(shù)據(jù)的決策樹(shù)進(jìn)行精簡(jiǎn)處理。其次,對(duì)決策樹(shù)進(jìn)行分類(lèi),從決策樹(shù)的根部開(kāi)始數(shù)據(jù)分類(lèi),之后是樹(shù)干的數(shù)據(jù)和樹(shù)丫的數(shù)據(jù)的分類(lèi),直到所輸入的數(shù)據(jù)能夠滿(mǎn)足條件。
比如,將某地區(qū)的企業(yè)在每年所上報(bào)的數(shù)據(jù)建立序列模式,得出企業(yè)當(dāng)年的預(yù)測(cè)值。將企業(yè)所上報(bào)的數(shù)據(jù)以及預(yù)測(cè)值經(jīng)過(guò)比較后得出差別率。如果差別率超過(guò)20%,則企業(yè)為A類(lèi);如果差別率介于10%至20%之間,則企業(yè)為B類(lèi);如果差別率低于10%,則企業(yè)為C類(lèi)。根據(jù)企業(yè)規(guī)模的變化率以及企業(yè)可能發(fā)生的經(jīng)營(yíng)事件將決策樹(shù)建立起來(lái)。差別率采用如下公式:
差別率=|上報(bào)數(shù)據(jù)預(yù)測(cè)值|/上報(bào)數(shù)據(jù)×100%
如果企業(yè)所上報(bào)的數(shù)據(jù)與預(yù)測(cè)值之間存在很大的差距,就要以這些企業(yè)作為主要的調(diào)查對(duì)象。
綜上所述,中國(guó)進(jìn)入到進(jìn)一步深化改革開(kāi)放的發(fā)展時(shí)期,要促進(jìn)經(jīng)濟(jì)的快速發(fā)展,就要對(duì)先進(jìn)的技術(shù)予以充分利用。在經(jīng)濟(jì)統(tǒng)計(jì)中應(yīng)用數(shù)據(jù)挖掘技術(shù),可以提高數(shù)據(jù)的有效利用率,以提高經(jīng)濟(jì)效益。
【數(shù)據(jù)挖掘技術(shù)應(yīng)用于經(jīng)濟(jì)統(tǒng)計(jì)中的研究論文】相關(guān)文章:
數(shù)據(jù)挖掘技術(shù)在Web信息檢索中的應(yīng)用研究論文12-01
時(shí)間序列數(shù)據(jù)挖掘研究論文提綱03-27
數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績(jī)分析中的應(yīng)用研究論文03-15
基于數(shù)據(jù)挖掘的統(tǒng)計(jì)過(guò)程控制項(xiàng)目研究11-23
數(shù)據(jù)挖掘在電力企業(yè)中的應(yīng)用論文12-13
數(shù)據(jù)挖掘技術(shù)的教學(xué)輔助系統(tǒng)應(yīng)用論文03-16
數(shù)據(jù)挖掘技術(shù)在就業(yè)指導(dǎo)的應(yīng)用論文02-27
大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)營(yíng)銷(xiāo)中的策略研究論文01-23
數(shù)據(jù)挖掘在現(xiàn)代遠(yuǎn)程教育中的應(yīng)用論文11-22
數(shù)據(jù)挖掘技術(shù)在中等職業(yè)學(xué)校管理實(shí)踐中的應(yīng)用研究11-19
- 相關(guān)推薦