華南理工大學(xué)本科畢業(yè)設(shè)計開題報告
一、選題的背景及意義
近四十年來,傳統(tǒng)的確定性數(shù)據(jù)( deterministic data)
管理技術(shù)得到了極大的發(fā) 展,造就了一個數(shù)百億的數(shù)據(jù)庫產(chǎn)業(yè)。
數(shù)據(jù)庫技術(shù)和系統(tǒng)已經(jīng)成為信息化社會基 礎(chǔ)設(shè)施建設(shè)的重要支撐。
在傳統(tǒng)數(shù)據(jù)庫的應(yīng)用中,數(shù)據(jù)的存在性和精確性均確定 無疑。
近年來,隨著技術(shù)的進(jìn)步和人們對數(shù)據(jù)采集和處理技術(shù)理解的不斷深入, 不確定性數(shù)據(jù)( uncertain data)
得到了廣泛的重視。
在許多現(xiàn)實(shí)的應(yīng)用中,例如 經(jīng)濟(jì)、軍事、物流、金融、電信等領(lǐng)域,數(shù)據(jù)的不確定性普遍存在,不確定性數(shù) 據(jù)扮演著關(guān)鍵角色。
傳統(tǒng)的數(shù)據(jù)管理技術(shù)卻無法有效管理不確定性數(shù)據(jù),這就引 發(fā)了學(xué)術(shù)界和工業(yè)界對研發(fā)新型的不確定性數(shù)據(jù)管理技術(shù)的興趣。
由于不確定性數(shù)據(jù)的產(chǎn)生原因比較復(fù)雜(可能是原始數(shù)據(jù)本身不準(zhǔn)確或是采 用了粗粒度的數(shù)據(jù)集合,也可能是為了滿足特殊應(yīng)用目的或是在處理缺失值、數(shù) 據(jù)集成過程中而產(chǎn)生的),因此,不確定性數(shù)據(jù)的種類較多,例如關(guān)系型數(shù)據(jù)、半 結(jié)構(gòu)化數(shù)據(jù)、流數(shù)據(jù)、移動對象數(shù)據(jù)等,相應(yīng)地也出現(xiàn)了許多與數(shù)據(jù)類型緊密相 關(guān)的數(shù)據(jù)模型。
定義與應(yīng)用場景相匹配的數(shù)據(jù)模型是不確定性數(shù)據(jù)管理的首要任務(wù). 在不確 定性數(shù)據(jù)管理領(lǐng)域,最常用的模型是可能世界模型(possibleworld model)。該模型 從一個不確定性數(shù)據(jù)庫演化出很多確定的數(shù)據(jù)庫實(shí)例(稱為可能世界實(shí)例)
,而且 所有實(shí)例的概率之和為 1. 不確定性數(shù)據(jù)的種類較多,例如關(guān)系型數(shù)據(jù)、半結(jié)構(gòu)化 數(shù)據(jù)、流數(shù)據(jù)、移動對象數(shù)據(jù)等,盡管存在許多與數(shù)據(jù)類型緊密相關(guān)的數(shù)據(jù)模型, 但是這些模型最終都可以轉(zhuǎn)化為可能世界模型. 其中,基于 xml 的不確定性數(shù)據(jù)建模的研究對象主要是半結(jié)構(gòu)化數(shù)據(jù)模型。
半結(jié)構(gòu)化數(shù)據(jù)模型( semistructured data model)
能有效描述缺乏嚴(yán)格模式結(jié)構(gòu)的 數(shù)據(jù)。
半結(jié)構(gòu)化數(shù)據(jù)通?梢杂梦臋n樹來描述。
Dekhtyar 等人提出了一種管理 概率半結(jié)構(gòu)化數(shù)據(jù)(probabilistic semistructured data)
的方法,該方法以關(guān)系數(shù)據(jù)庫 技術(shù)為基礎(chǔ),支持豐富的`代數(shù)查詢。
更多的工作則是直接以文檔樹形式描述不確 定性半結(jié)構(gòu)化數(shù)據(jù),例如p2 文檔模型( p2document model)、概率樹模型,以及 PXML 模型 、Keulen 等人的概率樹模型、PrXML 模型等。
二、工作任務(wù)分析
我在小組中的研究部分是不確定性數(shù)據(jù)的模型。項(xiàng)目開啟后,我的工作與任 務(wù)可分解分以下幾個部分 1、學(xué)習(xí)與整理前輩們在不確定性數(shù)據(jù)方面的研究成果。這項(xiàng)目工作任務(wù)主要分三個階段進(jìn)行。第一階段是廣泛地收集與了解不確定性數(shù)據(jù)的相關(guān)知識,了解不確定性數(shù)據(jù)的輪廓,知道相關(guān)的術(shù)語、概念,方便以后與別人作相關(guān)的交流。
第二階段是有針對性學(xué)習(xí)與理整理現(xiàn)有的不確定性數(shù)據(jù)模型方面的理論知識。這 一階段,要知道各種模型的概念、所針對不同種類的數(shù)據(jù)、以及它們優(yōu)勢與不足 之處。第三階段是把精力放在不確定性數(shù)據(jù)研究的某種數(shù)據(jù)的模型上。
此階段要做到對相關(guān)的模型在較深入的理解,不單要知道他們的定義、優(yōu)劣、具體應(yīng)用情 況,還要理解它們在數(shù)學(xué)上表述、證明。
2、對現(xiàn)有的不確定性數(shù)據(jù)模型提出自己的見解。主要包括以下一系列的活動:
1)仔細(xì)研究現(xiàn)在模型的優(yōu)點(diǎn)與不足之處;2)與其它組員(還有指導(dǎo)老師以及相 關(guān)的研究人員)交流看法,尤其是向其它組員了解在不確定性數(shù)據(jù)的存儲與查詢 方面算法知識,為優(yōu)化工作提供依據(jù)與靈感。3)整理所收集到的不確定性數(shù)據(jù)模 型的資料。
三、調(diào)研報告
1 不確定性數(shù)據(jù)與xml 的發(fā)展史 實(shí)際上,針對不確定性數(shù)據(jù)的研究工作已經(jīng)有幾十年歷史了。從二十世紀(jì)八 十年代末開始,針對概率數(shù)據(jù)庫(probabilistic database)的研究工作就從未間斷, 這類研究工作將不確定性引入到關(guān)系數(shù)據(jù)模型中去,取得較大研究進(jìn)展。近年來, 針對不確定性數(shù)據(jù)的研究工作則在更廣的范圍之內(nèi)取得更大的進(jìn)展,即:在更豐 富的數(shù)據(jù)類型上處理更多種類的查詢?nèi)蝿?wù)。不確定性數(shù)據(jù)管理技術(shù)的典型框架包 含四大部分:模型定義、預(yù)處理與集成、存儲與索引、查詢分析處理。
可擴(kuò)展標(biāo)記語言XML(eXtensible Markup Language)〔1〕是一種簡單靈活的 文本格式的可擴(kuò)展標(biāo)記語言,起源于 SGML(Standard Generalized Markup Language),是 SGML 的一個子集合,也就是 SGML 的一個簡化版本,非常適合 于在 Web 上或者其它多種數(shù)據(jù)源間
進(jìn)行數(shù)據(jù)的交換。隨著 Web 上數(shù)據(jù)的增多, HTML 的缺點(diǎn)越來越突出。W3C 的成員認(rèn)識到,必須有一種方法能夠把數(shù)據(jù)本身 和數(shù)據(jù)的顯示分離開來,這樣W3C 在1996 年提出了XML 的概念。XML 不僅保 留了SGML 的很多優(yōu)點(diǎn),而且更加容易操作以及在World Wide Web 環(huán)境下實(shí)現(xiàn)。
1998 年,XML 成了W3C 的推薦標(biāo)準(zhǔn)。
2 不確定性數(shù)據(jù)的發(fā)展方向 在傳統(tǒng)數(shù)據(jù)庫的應(yīng)用中,數(shù)據(jù)的存在性和精確性均確鑿無疑。近年來,隨著 技術(shù)的進(jìn)步和人們對數(shù)據(jù)采集和處理技術(shù)理解的不斷深入,不確定性數(shù)據(jù) (uncertain data)得到廣泛的重視。在許多現(xiàn)實(shí)的應(yīng)用中,例如:經(jīng)濟(jì)、軍事、 物流、金融、電信等領(lǐng)域,數(shù)據(jù)的不確定性普遍存在,不確定性數(shù)據(jù)扮演關(guān)鍵角 色。傳統(tǒng)的數(shù)據(jù)管理技術(shù)卻無法有效管理不確定性數(shù)據(jù),這就引發(fā)了學(xué)術(shù)界和工 業(yè)界對研發(fā)新型的不確定性數(shù)據(jù)管理技術(shù)的興趣。針對不確定性數(shù)據(jù)的研究工作 則在更廣的范圍之內(nèi)取得更大的進(jìn)展,即:在更豐富的數(shù)據(jù)類型上處理更多種類 的查詢?nèi)蝿?wù)。
四、方案擬定與分析
1、采用由大到小,由淺入深的順序進(jìn)行研究。
不確定性數(shù)據(jù)對于我來說,是比較新的東西。要想快速把握一樣新的東西, 并不斷深入,從整體上了解它的整個框架,是很重要的。這樣可以防止在研究的 過程中迷失方向,同時,從整體上把握了不確定性數(shù)據(jù)后,也可以更方便更有效 率地與別人進(jìn)行交流,更有效地從網(wǎng)絡(luò)上檢索到有用的信息。
萬丈高樓平地起,把握不確定性數(shù)據(jù)的整體,就是為不確定性數(shù)據(jù)的模型研 究打基礎(chǔ);A(chǔ)扎實(shí),深入研究階段才能底氣。
五、畢業(yè)論文撰寫提綱
摘要Abstract
第一章 緒論
1.1 不確定性數(shù)據(jù)的背景
1.2 不確定性數(shù)據(jù)的管理框架
1.2.1 模型定義
1.2.2 預(yù)處理與集成
1.2.3 存儲與索引
1.2.4 查詢分析處理
1.3 不確定性數(shù)據(jù)的模型
1.4 建模的要求與挑戰(zhàn)
1.4.1 龐大的可能世界實(shí)例集合
1.4.2 新出現(xiàn)的維度———概率維
1.4.3 不確定性數(shù)據(jù)管理的理論問題
第二章 可能世界模型
2.1 可能世界模型的簡介
2.2 可能世界模型的舉例與說明 第三章 針對關(guān)系型數(shù)據(jù)的模型
3.1 Probabilistic ?-table 模型 3.2 Probabilistic or-set table 模型 3.3 Probabilistic or-set-?
Table 模型 3.4 Probabilistic c-table 模型 3.4.1 三個簡單的表達(dá)系統(tǒng)
3.4.2 Probabilistic c-table 第四章 針對半結(jié)構(gòu)化數(shù)據(jù)的模型 4.1 p-document 模型 4.1.1 模型簡介 4.1.2 xml 4.1.3 模型定義的相關(guān)問題與解決方法 4.2 概率樹模型模型(probabilistic tree model 4.2.1 模型快照
4.2.2 模型的定義 4.2.3 模型的不足之處 4.3 PXDB 模型 4.3.1 PXDB 模型引入 4.3.2 模型定義 4.3.3 c-formulae 4.3.4 模型評價 第五章 其它模型
5.1 針對數(shù)據(jù)流的模型
5.1.1 針對數(shù)據(jù)流的模型
5.1.2 一個常用模型的定義
5.1.3 相關(guān)窗口的分類
5.2 針對多維數(shù)據(jù)的模型
5.2.1 關(guān)于OLAP
5.2.2 針對多維數(shù)據(jù)的模型
5.2.3 相關(guān)模型
第六章 總結(jié)
6.1 內(nèi)容總結(jié)
6.2 展望 參考文獻(xiàn) 致謝
六、 實(shí)施計劃
設(shè)計總共用時3 個半月左右。
具體安排如下:
2010.3.1——2010.4.11 論文選題,收集資料,并完成開題報告初稿。
2010.4.12——2010.4.30 學(xué)習(xí)與整理不確定性數(shù)據(jù)的相關(guān)資料。
2010.5.1——2010.5.15 進(jìn)入不確定性數(shù)據(jù)模型深入研究階段,并完成論文初 稿。
2010.5.16——2010.5.25 修改畢業(yè)論文 2010.5.26——2010.6.10 整理好材料,裝訂好論文,進(jìn)行答辯準(zhǔn)備。
指導(dǎo)教師意見:
簽 名:
年 月 日 備注:
1、要有10 篇以上相關(guān)文章的閱讀量。
2、理、工科開題報告撰寫不少于2500 字,人文社科開題報告不少于3500 字,包括論文選題 的背景和意義、工作任務(wù)分析、調(diào)研報告、方案擬定與分析、畢業(yè)論文撰寫提綱及實(shí)施計 劃、文獻(xiàn)綜述(理、工科可不提交文獻(xiàn)綜述)等。
3、電腦打印,用 A4 紙,頁邊距左邊 3。2cm,右邊 2。54cm,上下邊距 2。54cm,在左邊裝 訂;內(nèi)容為小四號宋體,行距為固定值20 磅。
4、文獻(xiàn)綜述(按文獻(xiàn)綜述格式打。└皆陂_題報告后面一起裝訂。
【華南理工大學(xué)本科畢業(yè)設(shè)計開題報告】相關(guān)文章:
大學(xué)本科畢業(yè)設(shè)計開題報告10-16
大學(xué)本科生畢業(yè)設(shè)計開題報告11-05
畢業(yè)設(shè)計開題報告03-11
mv畢業(yè)設(shè)計開題報告11-27
排水畢業(yè)設(shè)計開題報告11-26
會計畢業(yè)設(shè)計開題報告11-26
廣場畢業(yè)設(shè)計開題報告11-26
文秘畢業(yè)設(shè)計開題報告11-25
路橋畢業(yè)設(shè)計開題報告11-25