- 相關(guān)推薦
分類數(shù)據(jù)的統(tǒng)計(jì)分析技巧
你知道分類數(shù)據(jù)的統(tǒng)計(jì)分析技巧有哪些嗎?你知道什么是分類數(shù)據(jù)的統(tǒng)計(jì)分析嗎?下面是yjbys小編為大家?guī)淼年P(guān)于分類數(shù)據(jù)的統(tǒng)計(jì)分析技巧的知識(shí),歡迎閱讀。
分類數(shù)據(jù)的統(tǒng)計(jì)分析技巧:
1. 樣本數(shù)據(jù)與總體比較
1)二分類資料:
(1)小樣本數(shù)據(jù):用二項(xiàng)分布進(jìn)行確切概率法檢驗(yàn);
(2)大樣本數(shù)據(jù):用U檢驗(yàn);
2)多分類數(shù)據(jù):用Pearson檢驗(yàn)(又稱擬合優(yōu)度檢驗(yàn))。
2. 四格表(2×2表)數(shù)據(jù)
1)完全隨機(jī)設(shè)計(jì)的四格表數(shù)據(jù)的分析
(1)當(dāng)樣本量n>40,并且4個(gè)格子理論數(shù)均大于5時(shí),則用Pearson 檢驗(yàn);
(2)當(dāng)樣本量n>40,并且4個(gè)格子理論數(shù)均大于1且至少存在一個(gè)格子的理論數(shù)<5時(shí),則用校正檢驗(yàn)或用Fisher’s精確概率法檢驗(yàn);
(3)當(dāng)樣本量n40或存在任一格子理論數(shù)<1,則用精確概率法檢驗(yàn);
2)配對(duì)設(shè)計(jì)的四格表數(shù)據(jù)的分析
(1)b+c≥40,則用McNemar配對(duì)檢驗(yàn);
(2)b+c<40,則用二項(xiàng)分布確切概率法檢驗(yàn);
3. 2×C表或R×2表數(shù)據(jù)的統(tǒng)計(jì)分析
1)列變量為效應(yīng)指標(biāo),并且為有序多分類變量,行變量為分組變量,則可以采用行平均得分差(Row Mean Scores Differ)的CMH 或成組的Wilcoxon秩和檢驗(yàn);
2)列變量為效應(yīng)指標(biāo)并且為二分類,行變量為有序多分類變量,則可采用普通的Pearson 檢驗(yàn)比較各組之間有無差別,如果總的來說有差別,還可進(jìn)一步作兩兩比較,以說明是否任意兩組之間的差別都有統(tǒng)計(jì)學(xué)意義。
3)行變量和列變量均為無序分類變量:
(1)當(dāng)樣本量n>40,并且理論數(shù)小于5的格子數(shù)少于行列表中格子總數(shù)的25%,則用Pearson 檢驗(yàn);
(2)當(dāng)樣本量n40,或理論數(shù)小于5的格子數(shù)多于行列表中格子總數(shù)的25%,則用Fisher’s確切概率法檢驗(yàn);
4. R×C表數(shù)據(jù)的統(tǒng)計(jì)分析
1)完全隨機(jī)設(shè)計(jì)的R×C表數(shù)據(jù)的統(tǒng)計(jì)分析
(1)列變量為效應(yīng)指標(biāo),并且為有序多分類變量,行變量為分組變量,則CMH 或Kruskal Wallis的秩和檢驗(yàn);
(2)列變量為效應(yīng)指標(biāo),并且為無序多分類變量,行變量為有序多分類變量,則采用普通的Pearson 檢驗(yàn)比較各組之間有無差別,如果總的來說有差別,還可進(jìn)一步作兩兩比較,以說明是否任意兩組之間的差別都有統(tǒng)計(jì)學(xué)意義;
(3)列變量和行變量均為有序多分類變量,可以作Spearman相關(guān)分析或者非零相關(guān)(none zero correlation)的CMH ;
(4)列變量和行變量均為無序多分類變量:
i. 當(dāng)樣本量n>40并且理論數(shù)小于5的格子數(shù)少于行列表中格子總數(shù)的25%,則用Pearson 檢驗(yàn)進(jìn)行分析;
ii. 當(dāng)樣本量n40或理論數(shù)小于5的格子數(shù)多于行列表中格子總數(shù)的25%,則用Fisher’s 確切概率法檢驗(yàn);
2)配對(duì)設(shè)計(jì)的C×C表數(shù)據(jù):
(1)配對(duì)比較:用McNemar配對(duì)檢驗(yàn);
(2)一致性檢驗(yàn)(Agreement):用Kappa檢驗(yàn);
Poisson分布數(shù)據(jù)
1. 單樣本數(shù)據(jù)與總體比較:
1)當(dāng)觀察值較小時(shí):可以用確切概率法進(jìn)行檢驗(yàn)。
2) 當(dāng)觀察值較大時(shí):可以用正態(tài)近似的U檢驗(yàn)。
2. 兩個(gè)樣本數(shù)據(jù)的比較:可以用正態(tài)近似的U檢驗(yàn)。
兩個(gè)變量之間的關(guān)聯(lián)性分析
1. 兩個(gè)變量均為連續(xù)型變量
1)當(dāng)兩變量為小樣本并且兩個(gè)變量服從雙正態(tài)分布時(shí),可以用Pearson相關(guān)系數(shù)來衡量?jī)蓚(gè)變量之間的關(guān)聯(lián)性;
2)當(dāng)兩變量為大樣本或兩個(gè)變量不服從雙正態(tài)分布,則用Spearman相關(guān)系數(shù)來衡量?jī)蓚(gè)變量之間的關(guān)聯(lián)性;
2. 如果兩個(gè)變量均為有序分類變量,可以用Spearman相關(guān)系數(shù)來衡量?jī)蓚(gè)變量之間的關(guān)聯(lián)性;
3. 如果一個(gè)變量為有序分類變量,另一個(gè)變量為連續(xù)型變量,可以用Spearman相關(guān)系數(shù)來衡量?jī)蓚(gè)變量之間的關(guān)聯(lián)性。
如何進(jìn)行數(shù)據(jù)分析統(tǒng)計(jì):
描述統(tǒng)計(jì)是通過圖表或數(shù)學(xué)方法,對(duì)數(shù)據(jù)資料進(jìn)行整理、分析,并對(duì)數(shù)據(jù)的分布狀態(tài)、數(shù)字特征和隨機(jī)變量之間關(guān)系進(jìn)行估計(jì)和描述的方法。
描述統(tǒng)計(jì)分為集中趨勢(shì)分析、離中趨勢(shì)分析、相關(guān)分析三大部分。
集中趨勢(shì)分析
集中趨勢(shì)分析主要靠平均數(shù)、中數(shù)、眾數(shù)等統(tǒng)計(jì)指標(biāo)來表示數(shù)據(jù)的集中趨勢(shì)。
離中趨勢(shì)分析
離中趨勢(shì)分析主要靠全距、四分差、平均差、方差(協(xié)方差:用來度量?jī)蓚(gè)隨機(jī)變量關(guān)系的統(tǒng)計(jì)量)、標(biāo)準(zhǔn)差等統(tǒng)計(jì)指標(biāo)來研究數(shù)據(jù)的離中趨勢(shì)。例如,我們想知道兩個(gè)教學(xué)班的語文成績(jī)中,哪個(gè)班級(jí)內(nèi)的成績(jī)分布更分散,就可以用兩個(gè)班級(jí)的四分差或百分點(diǎn)來比較。
相關(guān)分析
相關(guān)分析探討數(shù)據(jù)之間是否具有統(tǒng)計(jì)學(xué)上的關(guān)聯(lián)性。
假設(shè)檢驗(yàn)是用來判斷樣本與樣本,樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計(jì)推斷方法。
假設(shè)檢驗(yàn)可分為正態(tài)分布檢驗(yàn)、正態(tài)總體均值分布檢驗(yàn)、非參數(shù)檢驗(yàn)三類。
正態(tài)分布檢驗(yàn)
正態(tài)分布檢驗(yàn)包括三類:JB檢驗(yàn)、KS檢驗(yàn)、Lilliefors檢驗(yàn),用于檢驗(yàn)樣本是否來自于一個(gè)正態(tài)分布總體。
正態(tài)總體均值分布檢驗(yàn)
正態(tài)總體均值分布檢驗(yàn)考察系統(tǒng)誤差對(duì)測(cè)試結(jié)果的影響,從統(tǒng)計(jì)意義上來說,各樣本均值之差應(yīng)在隨機(jī)誤差允許的范圍之內(nèi)。反之,如果不同樣本的均值之差超過了允許的范圍,這就說明除了隨機(jī)誤差之外,各均值之間還存在系統(tǒng)誤差,使得各均值之間出現(xiàn)了顯著性差異。
分為兩種情況:
T檢驗(yàn):主要用于樣本含量較小,總體標(biāo)準(zhǔn)差未知的正態(tài)分布資料。它用T分布理論來推斷差異發(fā)生的概率,從而判定兩個(gè)平均數(shù)的差異是否顯著。
U檢驗(yàn):一般用于大樣本的平均值差異性檢驗(yàn),基于樣本來自正態(tài)總體的假設(shè)。它是用標(biāo)準(zhǔn)正態(tài)分布的理論來推斷差異發(fā)生的概率,從而比較兩個(gè)平均數(shù)的差異是否顯著。國外英文統(tǒng)計(jì)學(xué)大多采用Z檢驗(yàn)。
非參數(shù)檢驗(yàn)
非參數(shù)檢驗(yàn)不考慮總體分布是否已知,僅應(yīng)用樣本觀察值中一些非常直觀的信息。適用情況包括:待分析數(shù)據(jù)不滿足參數(shù)檢驗(yàn)所要求的假定,因而無法應(yīng)用參數(shù)檢驗(yàn);僅由一些等級(jí)構(gòu)成的數(shù)據(jù);所提的問題中并不包含參數(shù);需要迅速得出結(jié)果時(shí)。它的主要方法包括:卡方檢驗(yàn)、秩和檢驗(yàn)、二項(xiàng)檢驗(yàn)、游程檢驗(yàn)、K-量檢驗(yàn)、符號(hào)檢驗(yàn)等。
相關(guān)分析是研究現(xiàn)象之間相互關(guān)系的主要方式之一,它可以將現(xiàn)象之間的關(guān)系大小與方向測(cè)定出來。相關(guān)關(guān)系的類型按照不同維度可分為:
按相關(guān)程度劃分:完全相關(guān)、不相關(guān)、不完全相關(guān)。
按依存關(guān)系的表現(xiàn)形式劃分:線性相關(guān)、非線性相關(guān)。
按相關(guān)方向劃分:正相關(guān)、負(fù)相關(guān)。
按研究量劃分:?jiǎn)蜗嚓P(guān)、復(fù)相關(guān)。
相關(guān)關(guān)系的測(cè)定方法包括:散點(diǎn)圖、相關(guān)系數(shù)等。
回歸分析是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。它按照變量的多少和變量之間的關(guān)系類型,可分為多種回歸:
一元線性回歸分析
分析一個(gè)因變量與一個(gè)自變量之間的線性關(guān)系,常用統(tǒng)計(jì)指標(biāo)包括: 平均數(shù)、增減量、平均增減量。
多元線性回歸分析
分析多個(gè)自變量與一個(gè)因變量之間的線性關(guān)系,在實(shí)際統(tǒng)計(jì)分析中,一般利用軟件對(duì)多元回歸模型進(jìn)行估計(jì)。
非線性回歸分析
自變量與因變量之間因果關(guān)系的函數(shù)表達(dá)式是非線性的,非線性回歸模型有很多包括對(duì)數(shù)曲線方程、反函數(shù)曲線方程、二次曲線方程、三次曲線方程、復(fù)合曲線方程、冪函數(shù)曲線方程 、S形曲線方程等均為非線性回歸方程。
其它回歸分析模型還有很多,之前有寫過一篇回歸分析的內(nèi)容,想了解的小伙伴可以去看,這里就不贅述啦!
方差分析又稱“變異數(shù)分析”或“F檢驗(yàn)”,用于兩個(gè)及兩個(gè)以上樣本均數(shù)差別的顯著性檢驗(yàn)。使用條件包括:各樣本須是相互獨(dú)立的隨機(jī)樣本;各樣本來自正態(tài)分布總體;各總體方差相等。
根據(jù)所分析的試驗(yàn)因素個(gè)數(shù)多少,可分為:
單因素方差分析
用來研究一個(gè)控制變量的不同水平是否對(duì)觀測(cè)變量產(chǎn)生了顯著影響。這里,由于僅研究單個(gè)因素。
雙因素方差分析
用來分析兩個(gè)因素的不同水平對(duì)結(jié)果是否有顯著影響,以及兩因素之間是否存在交互效應(yīng)。
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),將數(shù)據(jù)分類到不同的類或者簇。同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。
聚類分析的計(jì)算方法主要有:
分裂法
首先創(chuàng)建k個(gè)劃分,k為要?jiǎng)?chuàng)建的劃分個(gè)數(shù)。然后利用一個(gè)循環(huán)定位技術(shù)通過將對(duì)象從一個(gè)劃分移到另一個(gè)劃分來幫助改善劃分質(zhì)量。典型的劃分方法包括:k-means、k-medoids、CLARA、CLARANS、FCM等。
層次法
創(chuàng)建一個(gè)層次以分解給定的數(shù)據(jù)集,可以分為自上而下(分解)和自下而上(合并)兩種操作方式。方法包括:BIRCH、CURE、ROCK、CHEMALOEN等。
基于密度的方法
根據(jù)密度完成對(duì)象的聚類。方法包括:DBSCAN、OPTICS等。
基于網(wǎng)格的方法
先將對(duì)象空間劃分為有限個(gè)單元以構(gòu)成網(wǎng)格結(jié)構(gòu),然后利用網(wǎng)格結(jié)構(gòu)完成聚類。方法包括:STING、CLIQUE等。
基于模型的方法
假設(shè)每個(gè)聚類的模型并發(fā)現(xiàn)適合相應(yīng)模型的數(shù)據(jù)。方法包括:COBWEB、CLASSIT等。
時(shí)間序列是同一現(xiàn)象在不同時(shí)間上的觀察數(shù)據(jù)按時(shí)間先后順序排列起來所得到的數(shù)列,也稱為動(dòng)態(tài)數(shù)列。時(shí)間序列的兩個(gè)基本要素:現(xiàn)象所屬的時(shí)間和反映現(xiàn)象在不同時(shí)間上的指標(biāo)數(shù)值。
時(shí)間序列按排列指標(biāo)的表現(xiàn)形式不同,可分為:
絕對(duì)數(shù)時(shí)間序列
指一系列同類的總量指標(biāo)數(shù)據(jù)按時(shí)間先后順序排列而形成的序列,反映現(xiàn)象在各個(gè)時(shí)期上達(dá)到的絕對(duì)水平。又分為:時(shí)點(diǎn)序列和時(shí)期序列。
相對(duì)數(shù)時(shí)間序列
指相對(duì)指標(biāo)數(shù)值按時(shí)間先后順序排列而形成的時(shí)間序列,主要反映的是客觀現(xiàn)象數(shù)量對(duì)比關(guān)系的發(fā)展過程。
平均數(shù)時(shí)間序列
指一系列同類的平均指標(biāo)數(shù)值依時(shí)間順序排列形成的數(shù)列,主要反映的是客觀現(xiàn)象一般水平的發(fā)展變化過程。又可分為:靜態(tài)平均數(shù)時(shí)間序列和動(dòng)態(tài)平均數(shù)時(shí)間序列。
時(shí)間序列的分析模型,按影響因素可劃分為:
長期趨勢(shì)的測(cè)定和分析方法:時(shí)距擴(kuò)大法、移動(dòng)平均法、最小二乘法。
季節(jié)變動(dòng)的測(cè)定和分析方法:同期平均法、移動(dòng)平均趨勢(shì)剔除法。
循環(huán)變動(dòng)的測(cè)定和分析方法:直接法和剩余法。
當(dāng)然了,統(tǒng)計(jì)學(xué)遠(yuǎn)遠(yuǎn)不止這7種數(shù)據(jù)分析方法,還有很多其他方法值得我們深挖學(xué)習(xí),如通徑分析、因子分析、主成分分析等。如果以后要做數(shù)據(jù)分析,一定要學(xué)習(xí)更多統(tǒng)計(jì)學(xué)的基礎(chǔ)知識(shí)。
【分類數(shù)據(jù)的統(tǒng)計(jì)分析技巧】相關(guān)文章:
演講技巧分類03-18
excel表格數(shù)據(jù)的分類匯總教程03-29
攝影的分類和技巧03-17
瑜伽呼吸分類技巧03-07
嗓音分類與歌唱技巧03-17
管理模具設(shè)計(jì)數(shù)據(jù)的技巧02-28
微軟認(rèn)證考試技巧:數(shù)據(jù)庫03-21
2016最數(shù)據(jù)庫設(shè)計(jì)技巧03-29
美甲筆的分類及使用技巧03-12