- 相關(guān)推薦
統(tǒng)計(jì)數(shù)據(jù)專(zhuān)題庫(kù)的研究與設(shè)計(jì)分析
摘 要:著眼統(tǒng)計(jì)領(lǐng)域信息的發(fā)展趨勢(shì),從建設(shè)統(tǒng)計(jì)專(zhuān)題數(shù)據(jù)的必要性、基本思路出發(fā),對(duì)統(tǒng)計(jì)領(lǐng)域?qū)n}數(shù)據(jù)庫(kù)建設(shè)的步驟、方法、應(yīng)用等進(jìn)行闡述,并對(duì)統(tǒng)計(jì)數(shù)據(jù)專(zhuān)題庫(kù)的應(yīng)用等方面作了一些思考。
【關(guān)鍵詞】專(zhuān)題庫(kù) 統(tǒng)計(jì) 數(shù)據(jù)處理 數(shù)據(jù)應(yīng)用
Abstract: Focus on the development trend of information in the field of statistics, the need to build statistical thematic data from the basic idea of view, the thematic areas of statistics database construction steps, methods, applications and so forth, and the application of statistical data, etc. for thematic library some thinking.
Key words Thematic library statistical data processing data application
1 統(tǒng)計(jì)專(zhuān)題庫(kù)建設(shè)的必要性
統(tǒng)計(jì)部門(mén)應(yīng)用系統(tǒng)繁多,數(shù)據(jù)來(lái)源廣。在對(duì)數(shù)據(jù)進(jìn)行使用時(shí),一方面可能會(huì)出現(xiàn)不同系統(tǒng)中的相同指標(biāo)數(shù)據(jù)矛盾的情況;另一方面,若涉及不同專(zhuān)業(yè),則需要協(xié)調(diào)的范圍、周期的難度都會(huì)明顯增大,數(shù)據(jù)的時(shí)效性和及時(shí)性都難以得到保障。而專(zhuān)題庫(kù)的建設(shè)將可有效的將歷史數(shù)據(jù)整合利用起來(lái),以專(zhuān)業(yè)為邊界切割海量數(shù)據(jù),實(shí)現(xiàn)按專(zhuān)業(yè)的跨年度數(shù)據(jù)存儲(chǔ),從而可進(jìn)行更深價(jià)值的挖掘。
2 專(zhuān)題庫(kù)建設(shè)的步驟和方法
2.1 確定專(zhuān)題范圍
專(zhuān)題庫(kù)建設(shè)時(shí),首先需要明確該專(zhuān)題的數(shù)據(jù)范圍,專(zhuān)題數(shù)據(jù)可來(lái)源于統(tǒng)計(jì)年鑒、專(zhuān)題匯報(bào)等文件以及聯(lián)網(wǎng)直報(bào)系統(tǒng)等應(yīng)用,緊密?chē)@專(zhuān)題的業(yè)務(wù)本質(zhì)進(jìn)行設(shè)定,如能源專(zhuān)題庫(kù)則應(yīng)該包括能源建設(shè)、能源生產(chǎn)、能源消費(fèi)等內(nèi)容。
2.2 建立數(shù)據(jù)模型
根據(jù)對(duì)統(tǒng)計(jì)領(lǐng)域已有系統(tǒng)和基礎(chǔ)數(shù)據(jù)的分析,建立專(zhuān)題庫(kù)的數(shù)據(jù)模型。其元數(shù)據(jù)主要包括13類(lèi),其中9類(lèi)為業(yè)務(wù)元數(shù)據(jù)(圖1)、4類(lèi)為管理元數(shù)據(jù)(圖2)。
專(zhuān)題庫(kù)中最直接的為數(shù)據(jù),通過(guò)對(duì)9類(lèi)業(yè)務(wù)元數(shù)據(jù)的分析可得知指標(biāo)與數(shù)據(jù)關(guān)聯(lián)最為緊密,其他元數(shù)據(jù)均可通過(guò)指標(biāo)與數(shù)據(jù)進(jìn)行關(guān)聯(lián),通過(guò)分析和設(shè)計(jì),可變?yōu)槿鐖D3所示的數(shù)據(jù)模型。
通過(guò)分析每個(gè)元數(shù)據(jù)本身的屬性,根據(jù)模型可得出每一數(shù)據(jù)應(yīng)包括60多個(gè)屬性,考慮數(shù)據(jù)存儲(chǔ)及專(zhuān)題庫(kù)的價(jià)值,逐一評(píng)估后給出需冗余的屬性,如下:ID、值、報(bào)送單位_ID、期別_ID、指標(biāo)_ID、目錄條目_ID、入庫(kù)時(shí)間戳、報(bào)送單位全稱(chēng)、期別_起、期別_訖、指標(biāo)全稱(chēng)、目錄_ID、目錄條目名稱(chēng)、分組1條目_ID 、分組2條目_ID 、分組3條目_ID 、分組4條目_ID 、分組5條目_ID 、分組6條目_ID 、分組7條目_ID、地域1級(jí)_ID 、地域2級(jí)_ID 、地域3級(jí)_ID、計(jì)量單位_ID、數(shù)據(jù)釋意全文。
其中,5個(gè)必須字段為值、報(bào)送單位_ID、期別_ID、指標(biāo)_ID、目錄條目_ID;2個(gè)管理字段為ID、入庫(kù)時(shí)間戳,以及18個(gè)冗余存儲(chǔ)字段。
2.3 確定數(shù)據(jù)來(lái)源
數(shù)據(jù)是專(zhuān)題庫(kù)的基礎(chǔ),所有的數(shù)據(jù)處理和分析都是建立在及時(shí)、準(zhǔn)確、全面的數(shù)據(jù)之上,專(zhuān)題數(shù)據(jù)的來(lái)源主要包括以下幾個(gè)方面:
(1)通過(guò)聯(lián)網(wǎng)直報(bào)系統(tǒng)由企業(yè)、地方統(tǒng)計(jì)部門(mén)等按照制度報(bào)送周期的要求進(jìn)行數(shù)據(jù)的報(bào)送;
(2)通過(guò)各專(zhuān)業(yè)司建立的信息上報(bào)系統(tǒng),由相關(guān)的企業(yè)(如房地產(chǎn)企業(yè)等)進(jìn)行定期的數(shù)據(jù)報(bào)送;
(3)通過(guò)電子郵件、紙質(zhì)文件等由各部委辦局或地方統(tǒng)計(jì)局等將相關(guān)的數(shù)據(jù)進(jìn)行匯總報(bào)送;
專(zhuān)題庫(kù)的建設(shè)將支撐不同的數(shù)據(jù)來(lái)源、不同類(lèi)型數(shù)據(jù)的匯聚,并以統(tǒng)一的數(shù)據(jù)集合加以利用。
2.4 數(shù)據(jù)處理及存儲(chǔ)
當(dāng)數(shù)據(jù)處理和存儲(chǔ)時(shí)需考慮數(shù)據(jù)的處理,包括輸入格式轉(zhuǎn)換、數(shù)據(jù)篩選、數(shù)據(jù)單位的轉(zhuǎn)化、數(shù)據(jù)的校驗(yàn)、數(shù)據(jù)存儲(chǔ)等。
(1) 輸入格式轉(zhuǎn)換。不同的數(shù)據(jù)來(lái)源可能有不同的數(shù)據(jù)格式,系統(tǒng)將自動(dòng)解析來(lái)源數(shù)據(jù)的格式,并轉(zhuǎn)換為系統(tǒng)的統(tǒng)一數(shù)據(jù)格式。
(2) 數(shù)據(jù)篩選。由于專(zhuān)題庫(kù)的數(shù)據(jù)有著多種數(shù)據(jù)來(lái)源,可能存在不同來(lái)源間的數(shù)據(jù)沖突,系統(tǒng)將建立數(shù)據(jù)沖突的處理機(jī)制,對(duì)數(shù)據(jù)進(jìn)行篩選,確定數(shù)據(jù)采集途徑的標(biāo)準(zhǔn),確保數(shù)據(jù)的唯一性。
(3) 數(shù)據(jù)單位的轉(zhuǎn)化。在統(tǒng)計(jì)數(shù)據(jù)中,經(jīng)常會(huì)碰到以不同數(shù)量級(jí)的單位作統(tǒng)計(jì)的數(shù)據(jù),如萬(wàn)噸和噸。針對(duì)這種情況,系統(tǒng)將自動(dòng)把不同數(shù)量級(jí)的單位轉(zhuǎn)換成標(biāo)準(zhǔn)單位存儲(chǔ)入庫(kù)。
(4) 數(shù)據(jù)的校驗(yàn)。數(shù)據(jù)之間存在一定的關(guān)聯(lián)驗(yàn)證關(guān)系,系統(tǒng)在進(jìn)行數(shù)據(jù)處理時(shí)將對(duì)數(shù)據(jù)的準(zhǔn)確性進(jìn)行審核,如不同指標(biāo)數(shù)據(jù)的交叉對(duì)比、歷史數(shù)據(jù)的對(duì)比等,通過(guò)系統(tǒng)審核可保障數(shù)據(jù)的準(zhǔn)確性,對(duì)異常的數(shù)據(jù)進(jìn)行報(bào)警。
(5) 數(shù)據(jù)存儲(chǔ)。在存儲(chǔ)方面,專(zhuān)題庫(kù)的建設(shè)將采用分布式數(shù)據(jù)存儲(chǔ),以提高海量數(shù)據(jù)的分析時(shí)效性,提升專(zhuān)題數(shù)據(jù)庫(kù)的服務(wù)能力。
3 專(zhuān)題庫(kù)的應(yīng)用
3.1 多維的統(tǒng)計(jì)信息檢索服務(wù)
為滿(mǎn)足不同對(duì)象的信息需求,專(zhuān)題庫(kù)將建立多維的統(tǒng)計(jì)信息檢索服務(wù),以更快更準(zhǔn)確的獲取所需信息。另一方面,專(zhuān)題庫(kù)將提供關(guān)鍵字檢索服務(wù),以支持用戶(hù)的模糊檢索需求,并提供檢索結(jié)果的歷史數(shù)據(jù)軌跡跟蹤服務(wù)。
3.2 可視化產(chǎn)品服務(wù)
通過(guò)對(duì)數(shù)據(jù)的匯總、統(tǒng)計(jì)、分析,結(jié)合空間和時(shí)間屬性,以專(zhuān)題地圖、柱狀圖、餅狀圖和曲線(xiàn)等多種形式展示數(shù)據(jù),直觀地支持領(lǐng)導(dǎo)決策。
系統(tǒng)為各統(tǒng)計(jì)部門(mén)的業(yè)務(wù)提供GIS展示功能,使業(yè)務(wù)數(shù)據(jù)和地理空間數(shù)據(jù)融合,滿(mǎn)足統(tǒng)計(jì)部門(mén)使用系統(tǒng)的應(yīng)用需求。如能源統(tǒng)計(jì)專(zhuān)題庫(kù)系統(tǒng)可以支持以下應(yīng)用:某地區(qū)歷史能源消費(fèi)動(dòng)態(tài)演示,各地區(qū)能源消費(fèi)排名,各地區(qū)能源消費(fèi)預(yù)測(cè),發(fā)布各地區(qū)能源消費(fèi)預(yù)警信息等。
3.3 專(zhuān)題數(shù)據(jù)供給服務(wù)
為了更好的利用專(zhuān)題數(shù)據(jù)庫(kù)資源,專(zhuān)題庫(kù)應(yīng)該給其他部門(mén)提供數(shù)據(jù)服務(wù)。數(shù)據(jù)共享可以通過(guò)以下兩個(gè)途徑來(lái)實(shí)現(xiàn):一、導(dǎo)出專(zhuān)題庫(kù)報(bào)表提供給相關(guān)部門(mén)使用;二、提供查詢(xún)調(diào)用接口給其它部門(mén),可通過(guò)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)的調(diào)閱。
4 統(tǒng)計(jì)專(zhuān)題庫(kù)的幾點(diǎn)思考
4.1 建設(shè)統(tǒng)計(jì)專(zhuān)業(yè)數(shù)據(jù)庫(kù)群
單個(gè)專(zhuān)題數(shù)據(jù)庫(kù)涉及的內(nèi)容相對(duì)狹窄,僅適用于某些固定的對(duì)象和用途,所以可在專(zhuān)題庫(kù)建設(shè)的基礎(chǔ)上逐步拓展建立專(zhuān)題庫(kù)的統(tǒng)一平臺(tái),可以接入各種專(zhuān)題庫(kù),組成統(tǒng)計(jì)專(zhuān)業(yè)數(shù)據(jù)庫(kù)群,共享數(shù)據(jù),互相補(bǔ)充,擴(kuò)展專(zhuān)題庫(kù)的深度和廣度,為用戶(hù)提供更廣泛的數(shù)據(jù)服務(wù)。這樣才能更加發(fā)揮出專(zhuān)題庫(kù)的作用和優(yōu)勢(shì),相應(yīng)地也會(huì)促進(jìn)專(zhuān)題庫(kù)群的進(jìn)一步發(fā)展,形成良性循環(huán)。
4.2 建設(shè)面向不同用戶(hù)的專(zhuān)題庫(kù)
不同的用戶(hù)有不同的信息需求,一方面專(zhuān)題庫(kù)的內(nèi)容要基于不同用戶(hù)的需求來(lái)建設(shè),另一方面有些信息具有敏感性,對(duì)不同的用戶(hù)需要把信息分保密級(jí)別。因此針對(duì)不同的用戶(hù),需把專(zhuān)題數(shù)據(jù)分類(lèi)和分級(jí),建設(shè)相關(guān)的數(shù)據(jù)權(quán)限。
4.3 統(tǒng)計(jì)專(zhuān)題庫(kù)的維護(hù)
統(tǒng)計(jì)專(zhuān)題庫(kù)的維護(hù)包含以下幾個(gè)方面:
(1)數(shù)據(jù)的備份和恢復(fù):對(duì)專(zhuān)題庫(kù)的數(shù)據(jù)庫(kù)文件定期做物理備份,同時(shí)設(shè)置邏輯備份機(jī)制,以保證一旦發(fā)生故障能盡快的把數(shù)據(jù)庫(kù)恢復(fù)到某種一致的狀態(tài),并盡可能減少對(duì)數(shù)據(jù)完整性的破壞。
(2)數(shù)據(jù)的安全性控制:在系統(tǒng)運(yùn)行過(guò)程中由于應(yīng)用環(huán)境的變化,對(duì)安全性的要求也會(huì)發(fā)生變化,如有的數(shù)據(jù)原來(lái)是機(jī)密的但現(xiàn)在可以公開(kāi)查詢(xún)了;蛘呦到y(tǒng)某用戶(hù)的權(quán)限級(jí)別改變,也需要做相應(yīng)的安全配置。
(3)數(shù)據(jù)庫(kù)性能監(jiān)測(cè):通過(guò)分析數(shù)據(jù)庫(kù)的系統(tǒng)指標(biāo),判斷當(dāng)前系統(tǒng)運(yùn)行狀態(tài)是否最佳,應(yīng)做哪些改進(jìn)或者擴(kuò)容等。
參考文獻(xiàn)
[1]李順,李京,張波,王利強(qiáng),孫強(qiáng),吳班. 國(guó)家環(huán)境數(shù)據(jù)中心建設(shè)研究[A].中國(guó)環(huán)境科學(xué)學(xué)會(huì).2007中國(guó)環(huán)境科學(xué)學(xué)會(huì)學(xué)術(shù)年會(huì)優(yōu)秀論文集(下卷)[C].中國(guó)環(huán)境科學(xué)學(xué)會(huì),2007(10).
[2]. 我國(guó)統(tǒng)計(jì)信息化建設(shè)的回顧與展望[J]. 電子政務(wù),2010(Z1):159-166.
[3]門(mén)鳳超,王會(huì)仙.淺談統(tǒng)計(jì)信息化建設(shè)[J].經(jīng)濟(jì)研究導(dǎo)刊,2009(11):248-249.
[4]黃鶯,李建陽(yáng).元數(shù)據(jù)質(zhì)量評(píng)估方法及模型研究[J].圖書(shū)館學(xué)研究,2013(12):52-56+51.
[5]陳智.中國(guó)統(tǒng)計(jì)信息化建設(shè)初探[J].經(jīng)濟(jì)研究導(dǎo)刊,2013(15):243-244.
【統(tǒng)計(jì)數(shù)據(jù)專(zhuān)題庫(kù)的研究與設(shè)計(jì)分析】相關(guān)文章:
企業(yè)VI設(shè)計(jì)中的中國(guó)傳統(tǒng)元素的分析研究論文04-18
股票技術(shù)分析系統(tǒng)的研究與實(shí)現(xiàn)05-08
開(kāi)題報(bào)告的分析思路、研究方法怎么寫(xiě)08-01
盜竊欠條刑法問(wèn)題分析研究論文04-29
管樁的應(yīng)用和研究現(xiàn)狀分析論文05-15
欠平衡鉆井監(jiān)測(cè)分析系統(tǒng)的研究與實(shí)現(xiàn)08-24
功能翻譯基礎(chǔ)理論研究分析08-05