基于RFID與基因表達(dá)式編程的經(jīng)濟(jì)統(tǒng)計(jì)時(shí)序挖掘
摘要:為解決基因表達(dá)式編程(GEP)在符號(hào)回歸、RFID分類及經(jīng)濟(jì)領(lǐng)域中對(duì)時(shí)序數(shù)據(jù)的挖掘速度和精度還不夠的問題,提出了統(tǒng)計(jì)基因、統(tǒng)計(jì)染色體和統(tǒng)計(jì)時(shí)序一適應(yīng)度的定義,并針對(duì)傳統(tǒng)GEP經(jīng)濟(jì)時(shí)序模型進(jìn)行了綜合改進(jìn);提出了新穎的單變量時(shí)序和多變量時(shí)序挖掘算法,提高了GEP統(tǒng)計(jì)時(shí)序挖掘的速度和精度;實(shí)驗(yàn)表明,與傳統(tǒng)GEP、單變量GEP時(shí)序算法相比,多變量GEP時(shí)序算法挖掘速度快,其預(yù)測(cè)精度比單變量時(shí)序算法高出5%以上。該算法同樣適用于RFID以及其他經(jīng)濟(jì)系統(tǒng)中的時(shí)序數(shù)據(jù)挖掘。
關(guān)鍵詞:經(jīng)濟(jì)統(tǒng)計(jì)時(shí)序預(yù)測(cè)模型;單變量時(shí)序;多變量時(shí)序;GEP函數(shù)挖掘
GEP經(jīng)濟(jì)統(tǒng)計(jì)時(shí)序挖掘算法涉及到時(shí)序基因、時(shí)序染色體和適應(yīng)度函數(shù)等概念,作者提出的GEP時(shí)序挖掘模型是針對(duì)歷年的經(jīng)濟(jì)統(tǒng)計(jì)時(shí)序數(shù)據(jù),例如對(duì)成都市國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展總量與速度等經(jīng)濟(jì)指標(biāo)時(shí)間序列進(jìn)行預(yù)測(cè)。針對(duì)經(jīng)濟(jì)統(tǒng)計(jì)時(shí)序數(shù)據(jù)特點(diǎn),在傳統(tǒng)GEP概念的基礎(chǔ)上¨。J,提出了Statisti.cal—C,ene、和Statistical—Fitness等新概念和技術(shù)。
1、問題描述
為了形式化描述GEP時(shí)間序列的統(tǒng)計(jì)指標(biāo)序列數(shù)據(jù)對(duì)象,引入下列定義:
定義l GEP時(shí)序中的統(tǒng)計(jì)基因是一個(gè)5元組。
定義2統(tǒng)計(jì)時(shí)序一適應(yīng)度。
2、統(tǒng)計(jì)數(shù)據(jù)的時(shí)序GEP算法
目前GEP與遺傳算法和遺傳編程一樣,還存在未成熟收斂和收斂精度差的難題m 8l。為解決其精度差問題,對(duì)GEP時(shí)間序列模型進(jìn)行了綜合改進(jìn)。
1)GEP浮點(diǎn)數(shù)系數(shù)編碼在GEP算法中,對(duì)于數(shù)值編碼采用了浮點(diǎn)數(shù)編碼的方法。經(jīng)過實(shí)際應(yīng)用,發(fā)現(xiàn)浮點(diǎn)數(shù)編碼能提高了GEP運(yùn)算效率,適合精度較高應(yīng)用。
2)改進(jìn)了適應(yīng)度函數(shù)設(shè)計(jì)在統(tǒng)計(jì)學(xué)中,R2是用于表示非線性模型的重要指標(biāo),用于評(píng)價(jià)兩組數(shù)據(jù)符合程度的方法更多的是采用相關(guān)系數(shù)。
3)GEP多變量經(jīng)濟(jì)時(shí)序挖掘預(yù)測(cè)算法在統(tǒng)計(jì)系統(tǒng)中,其多個(gè)統(tǒng)計(jì)變量存在相互影響,因此提出了多維指標(biāo)的時(shí)間序列預(yù)測(cè)式挖掘。
4)實(shí)驗(yàn)與性能分析1)數(shù)據(jù)來源原始數(shù)據(jù)來源于(2006成都統(tǒng)計(jì)年鑒》,選擇了影響GDP增長(zhǎng)的6個(gè)指標(biāo),建立合適的數(shù)學(xué)模型并預(yù)測(cè)2003,2004,2005年的GDP。計(jì)算得出平均擬合相對(duì)誤差是0.1579%,平均預(yù)測(cè)相對(duì)誤差是一0.09105%。得到模型的擬合/預(yù)測(cè)精度比單變量的GEP算法高于5%以上。
3、結(jié)論
根據(jù)經(jīng)濟(jì)領(lǐng)域中統(tǒng)計(jì)數(shù)據(jù)挖掘?qū)︻A(yù)測(cè)國(guó)民經(jīng)濟(jì)GDP數(shù)據(jù)的特點(diǎn),提出了新穎的經(jīng)濟(jì)統(tǒng)計(jì)時(shí)序GEP函數(shù)挖掘與預(yù)測(cè)方法和技術(shù)。主要貢獻(xiàn)如下:針對(duì)多變量時(shí)間序列中各因素之間存在著一定的相關(guān)性,所觀測(cè)到的時(shí)序在一定程度上反映的信息有所重疊,提出了基于GEP的.多變量時(shí)序預(yù)測(cè)模型。通過主成分分析方法對(duì)影響時(shí)間序列的諸多因素進(jìn)行成分約簡(jiǎn),提取影響因子大的幾個(gè)綜合指標(biāo)作為輸入變量,提高了GEP時(shí)序挖掘的效率和準(zhǔn)確率。通過實(shí)驗(yàn)證明,以同一批真實(shí)宏觀的國(guó)民經(jīng)濟(jì)統(tǒng)計(jì)年鑒GDP數(shù)據(jù)為研究對(duì)象,以后面年度GDP數(shù)據(jù)為預(yù)測(cè)目標(biāo),分別建立單變量預(yù)測(cè)模型和多變量預(yù)測(cè)模型,然后在不同的經(jīng)濟(jì)預(yù)測(cè)模型上進(jìn)行仿真挖掘預(yù)測(cè)。通過實(shí)驗(yàn)結(jié)果和相關(guān)性能指標(biāo)的對(duì)比分析,證明多變量GEP經(jīng)濟(jì)統(tǒng)計(jì)時(shí)序預(yù)測(cè)模型的擬合/預(yù)測(cè)要比單變量GEP算法的預(yù)測(cè)精度提高了5%以上。該方法同樣適用于RFID應(yīng)用系統(tǒng)的時(shí)序數(shù)據(jù)挖掘。
參考文獻(xiàn):
[1]賈曉斌,唐常杰,左劫,等.基于基因表達(dá)式編程的頻繁函數(shù)集挖掘[J].計(jì)算機(jī)學(xué)報(bào),2005,28(8):1247—1254
[2]元昌安,唐常杰,溫遠(yuǎn)光,等.基于基因表達(dá)式編程的智能模型庫(kù)系統(tǒng)的實(shí)現(xiàn)[J].四川大學(xué)學(xué)報(bào):工程科學(xué)版,2005,37(3):99—104.
[3]黃曉冬,唐常杰,普東航,等.基于基因表達(dá)式編程的函數(shù)關(guān)系發(fā)現(xiàn)方法[J].計(jì)算機(jī)科學(xué),2003,30(增刊):278—182.
[4]鐘義嘯,唐常杰,陳宇,等.提高基因表達(dá)式編程發(fā)現(xiàn)知識(shí)效率的回溯策略[J].四川大學(xué)學(xué)報(bào):自然科學(xué)版,2006,43(2):299—304.(1):128—133.
[5]胡建軍,唐常杰,彭京,等.快速跳出局部最優(yōu)的VPS.GEP算法[J].四川大學(xué)學(xué)報(bào):工程科學(xué)版,2007,39(1):128—133.
[6]彭京,唐常杰,李川,等.MGEP:基于多層染色體基因表達(dá)式編程的遺傳進(jìn)化算法[J].計(jì)算機(jī)學(xué)報(bào),2005,28(9):1459—1466.
[7]劉齊宏,唐常杰,胡建軍,等.多樣性制導(dǎo)分段進(jìn)化的基因表達(dá)式編程[J].四川大學(xué)學(xué)報(bào):工程科學(xué)版,2006,38(6):108—113.
【基于RFID與基因表達(dá)式編程的經(jīng)濟(jì)統(tǒng)計(jì)時(shí)序挖掘】相關(guān)文章:
1.淺談基于RFID 的會(huì)議簽到系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)論文
2.數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用論文
3.數(shù)據(jù)挖掘技術(shù)應(yīng)用于經(jīng)濟(jì)統(tǒng)計(jì)中的研究論文
4.基于數(shù)據(jù)挖掘的成績(jī)分析系統(tǒng)
5.淺談基于web日志挖掘的網(wǎng)絡(luò)教學(xué)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
6.JavaScript基于正則表達(dá)式數(shù)字判斷函數(shù)