分類數(shù)據(jù)的統(tǒng)計分析技巧

時間：2024-11-01 10:02:51 曉璇統(tǒng)計師我要投稿

相關(guān)推薦

　　你知道分類數(shù)據(jù)的統(tǒng)計分析技巧有哪些嗎?你知道什么是分類數(shù)據(jù)的統(tǒng)計分析嗎?下面是yjbys小編為大家?guī)淼年P(guān)于分類數(shù)據(jù)的統(tǒng)計分析技巧的知識，歡迎閱讀。

　　分類數(shù)據(jù)的統(tǒng)計分析技巧：

　　1. 樣本數(shù)據(jù)與總體比較

　　1)二分類資料：

　　(1)小樣本數(shù)據(jù)：用二項分布進行確切概率法檢驗;

　　(2)大樣本數(shù)據(jù)：用U檢驗;

　　2)多分類數(shù)據(jù)：用Pearson檢驗(又稱擬合優(yōu)度檢驗)。

　　2. 四格表(2×2表)數(shù)據(jù)

　　1)完全隨機設(shè)計的四格表數(shù)據(jù)的分析

　　(1)當樣本量n>40，并且4個格子理論數(shù)均大于5時，則用Pearson 檢驗;

　　(2)當樣本量n>40，并且4個格子理論數(shù)均大于1且至少存在一個格子的理論數(shù)<5時，則用校正檢驗或用Fisher’s精確概率法檢驗;

　　(3)當樣本量n40或存在任一格子理論數(shù)<1，則用精確概率法檢驗;

　　2)配對設(shè)計的四格表數(shù)據(jù)的分析

　　(1)b+c≥40，則用McNemar配對檢驗;

　　(2)b+c<40，則用二項分布確切概率法檢驗;

　　3. 2×C表或R×2表數(shù)據(jù)的統(tǒng)計分析

　　1)列變量為效應(yīng)指標，并且為有序多分類變量，行變量為分組變量，則可以采用行平均得分差(Row Mean Scores Differ)的CMH 或成組的Wilcoxon秩和檢驗;

　　2)列變量為效應(yīng)指標并且為二分類，行變量為有序多分類變量，則可采用普通的Pearson 檢驗比較各組之間有無差別，如果總的來說有差別，還可進一步作兩兩比較，以說明是否任意兩組之間的差別都有統(tǒng)計學意義。

　　3)行變量和列變量均為無序分類變量：

　　(1)當樣本量n>40，并且理論數(shù)小于5的格子數(shù)少于行列表中格子總數(shù)的25%，則用Pearson 檢驗;

　　(2)當樣本量n40，或理論數(shù)小于5的格子數(shù)多于行列表中格子總數(shù)的25%，則用Fisher’s確切概率法檢驗;

　　4. R×C表數(shù)據(jù)的統(tǒng)計分析

　　1)完全隨機設(shè)計的R×C表數(shù)據(jù)的統(tǒng)計分析

　　(1)列變量為效應(yīng)指標，并且為有序多分類變量，行變量為分組變量，則CMH 或Kruskal Wallis的秩和檢驗;

　　(2)列變量為效應(yīng)指標，并且為無序多分類變量，行變量為有序多分類變量，則采用普通的Pearson 檢驗比較各組之間有無差別，如果總的來說有差別，還可進一步作兩兩比較，以說明是否任意兩組之間的差別都有統(tǒng)計學意義;

　　(3)列變量和行變量均為有序多分類變量，可以作Spearman相關(guān)分析或者非零相關(guān)(none zero correlation)的CMH ;

　　(4)列變量和行變量均為無序多分類變量：

　　i. 當樣本量n>40并且理論數(shù)小于5的格子數(shù)少于行列表中格子總數(shù)的25%，則用Pearson 檢驗進行分析;

　　ii. 當樣本量n40或理論數(shù)小于5的格子數(shù)多于行列表中格子總數(shù)的25%，則用Fisher’s 確切概率法檢驗;

　　2)配對設(shè)計的C×C表數(shù)據(jù)：

　　(1)配對比較：用McNemar配對檢驗;

　　(2)一致性檢驗(Agreement)：用Kappa檢驗;

　　Poisson分布數(shù)據(jù)

　　1. 單樣本數(shù)據(jù)與總體比較：

　　1)當觀察值較小時：可以用確切概率法進行檢驗。

　　2) 當觀察值較大時：可以用正態(tài)近似的U檢驗。

　　2. 兩個樣本數(shù)據(jù)的比較：可以用正態(tài)近似的U檢驗。

　　兩個變量之間的關(guān)聯(lián)性分析

　　1. 兩個變量均為連續(xù)型變量

　　1)當兩變量為小樣本并且兩個變量服從雙正態(tài)分布時，可以用Pearson相關(guān)系數(shù)來衡量兩個變量之間的關(guān)聯(lián)性;

　　2)當兩變量為大樣本或兩個變量不服從雙正態(tài)分布，則用Spearman相關(guān)系數(shù)來衡量兩個變量之間的關(guān)聯(lián)性;

　　2. 如果兩個變量均為有序分類變量，可以用Spearman相關(guān)系數(shù)來衡量兩個變量之間的關(guān)聯(lián)性;

　　3. 如果一個變量為有序分類變量，另一個變量為連續(xù)型變量，可以用Spearman相關(guān)系數(shù)來衡量兩個變量之間的關(guān)聯(lián)性。

　　如何進行數(shù)據(jù)分析統(tǒng)計：

　　描述統(tǒng)計是通過圖表或數(shù)學方法，對數(shù)據(jù)資料進行整理、分析，并對數(shù)據(jù)的分布狀態(tài)、數(shù)字特征和隨機變量之間關(guān)系進行估計和描述的方法。

　　描述統(tǒng)計分為集中趨勢分析、離中趨勢分析、相關(guān)分析三大部分。

　　集中趨勢分析

　　集中趨勢分析主要靠平均數(shù)、中數(shù)、眾數(shù)等統(tǒng)計指標來表示數(shù)據(jù)的集中趨勢。

　　離中趨勢分析

　　離中趨勢分析主要靠全距、四分差、平均差、方差（協(xié)方差：用來度量兩個隨機變量關(guān)系的統(tǒng)計量）、標準差等統(tǒng)計指標來研究數(shù)據(jù)的離中趨勢。例如，我們想知道兩個教學班的語文成績中，哪個班級內(nèi)的成績分布更分散，就可以用兩個班級的四分差或百分點來比較。

　　相關(guān)分析

　　相關(guān)分析探討數(shù)據(jù)之間是否具有統(tǒng)計學上的關(guān)聯(lián)性。

　　假設(shè)檢驗是用來判斷樣本與樣本，樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計推斷方法。

　　假設(shè)檢驗可分為正態(tài)分布檢驗、正態(tài)總體均值分布檢驗、非參數(shù)檢驗三類。

　　正態(tài)分布檢驗

　　正態(tài)分布檢驗包括三類：JB檢驗、KS檢驗、Lilliefors檢驗，用于檢驗樣本是否來自于一個正態(tài)分布總體。

　　正態(tài)總體均值分布檢驗

　　正態(tài)總體均值分布檢驗考察系統(tǒng)誤差對測試結(jié)果的影響，從統(tǒng)計意義上來說，各樣本均值之差應(yīng)在隨機誤差允許的范圍之內(nèi)。反之，如果不同樣本的均值之差超過了允許的范圍，這就說明除了隨機誤差之外，各均值之間還存在系統(tǒng)誤差，使得各均值之間出現(xiàn)了顯著性差異。

　　分為兩種情況：

　　T檢驗：主要用于樣本含量較小，總體標準差未知的正態(tài)分布資料。它用T分布理論來推斷差異發(fā)生的概率，從而判定兩個平均數(shù)的差異是否顯著。

　　U檢驗：一般用于大樣本的平均值差異性檢驗，基于樣本來自正態(tài)總體的假設(shè)。它是用標準正態(tài)分布的理論來推斷差異發(fā)生的概率，從而比較兩個平均數(shù)的差異是否顯著。國外英文統(tǒng)計學大多采用Z檢驗。

　　非參數(shù)檢驗

　　非參數(shù)檢驗不考慮總體分布是否已知，僅應(yīng)用樣本觀察值中一些非常直觀的信息。適用情況包括：待分析數(shù)據(jù)不滿足參數(shù)檢驗所要求的假定，因而無法應(yīng)用參數(shù)檢驗；僅由一些等級構(gòu)成的數(shù)據(jù)；所提的問題中并不包含參數(shù)；需要迅速得出結(jié)果時。它的主要方法包括：卡方檢驗、秩和檢驗、二項檢驗、游程檢驗、K-量檢驗、符號檢驗等。

　　相關(guān)分析是研究現(xiàn)象之間相互關(guān)系的主要方式之一，它可以將現(xiàn)象之間的關(guān)系大小與方向測定出來。相關(guān)關(guān)系的類型按照不同維度可分為：

　　按相關(guān)程度劃分：完全相關(guān)、不相關(guān)、不完全相關(guān)。

　　按依存關(guān)系的表現(xiàn)形式劃分：線性相關(guān)、非線性相關(guān)。

　　按相關(guān)方向劃分：正相關(guān)、負相關(guān)。

　　按研究量劃分：單相關(guān)、復相關(guān)。

　　相關(guān)關(guān)系的測定方法包括：散點圖、相關(guān)系數(shù)等。

　　回歸分析是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。它按照變量的多少和變量之間的關(guān)系類型，可分為多種回歸：

　　一元線性回歸分析

　　分析一個因變量與一個自變量之間的線性關(guān)系，常用統(tǒng)計指標包括: 平均數(shù)、增減量、平均增減量。

　　多元線性回歸分析

　　分析多個自變量與一個因變量之間的線性關(guān)系，在實際統(tǒng)計分析中，一般利用軟件對多元回歸模型進行估計。

　　非線性回歸分析

　　自變量與因變量之間因果關(guān)系的函數(shù)表達式是非線性的，非線性回歸模型有很多包括對數(shù)曲線方程、反函數(shù)曲線方程、二次曲線方程、三次曲線方程、復合曲線方程、冪函數(shù)曲線方程、S形曲線方程等均為非線性回歸方程。

　　其它回歸分析模型還有很多，之前有寫過一篇回歸分析的內(nèi)容，想了解的小伙伴可以去看，這里就不贅述啦！

　　方差分析又稱“變異數(shù)分析”或“F檢驗”，用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗。使用條件包括：各樣本須是相互獨立的隨機樣本；各樣本來自正態(tài)分布總體；各總體方差相等。

　　根據(jù)所分析的試驗因素個數(shù)多少，可分為：

　　單因素方差分析

　　用來研究一個控制變量的不同水平是否對觀測變量產(chǎn)生了顯著影響。這里，由于僅研究單個因素。

　　雙因素方差分析

　　用來分析兩個因素的不同水平對結(jié)果是否有顯著影響，以及兩因素之間是否存在交互效應(yīng)。

　　聚類分析是一種探索性的分析，在分類的過程中，人們不必事先給出一個分類的標準，聚類分析能夠從樣本數(shù)據(jù)出發(fā)，將數(shù)據(jù)分類到不同的類或者簇。同一個簇中的對象有很大的相似性，而不同簇間的對象有很大的相異性。

　　聚類分析的計算方法主要有：

　　分裂法

　　首先創(chuàng)建k個劃分，k為要創(chuàng)建的劃分個數(shù)。然后利用一個循環(huán)定位技術(shù)通過將對象從一個劃分移到另一個劃分來幫助改善劃分質(zhì)量。典型的劃分方法包括：k-means、k-medoids、CLARA、CLARANS、FCM等。

　　層次法

　　創(chuàng)建一個層次以分解給定的數(shù)據(jù)集，可以分為自上而下(分解)和自下而上(合并)兩種操作方式。方法包括：BIRCH、CURE、ROCK、CHEMALOEN等。

　　基于密度的方法

　　根據(jù)密度完成對象的聚類。方法包括：DBSCAN、OPTICS等。

　　基于網(wǎng)格的方法

　　先將對象空間劃分為有限個單元以構(gòu)成網(wǎng)格結(jié)構(gòu)，然后利用網(wǎng)格結(jié)構(gòu)完成聚類。方法包括：STING、CLIQUE等。

　　基于模型的方法

　　假設(shè)每個聚類的模型并發(fā)現(xiàn)適合相應(yīng)模型的數(shù)據(jù)。方法包括：COBWEB、CLASSIT等。

　　時間序列是同一現(xiàn)象在不同時間上的觀察數(shù)據(jù)按時間先后順序排列起來所得到的數(shù)列，也稱為動態(tài)數(shù)列。時間序列的兩個基本要素：現(xiàn)象所屬的時間和反映現(xiàn)象在不同時間上的指標數(shù)值。

　　時間序列按排列指標的表現(xiàn)形式不同，可分為：

　　絕對數(shù)時間序列

　　指一系列同類的總量指標數(shù)據(jù)按時間先后順序排列而形成的序列，反映現(xiàn)象在各個時期上達到的絕對水平。又分為：時點序列和時期序列。

　　相對數(shù)時間序列

　　指相對指標數(shù)值按時間先后順序排列而形成的時間序列，主要反映的是客觀現(xiàn)象數(shù)量對比關(guān)系的發(fā)展過程。

　　平均數(shù)時間序列

　　指一系列同類的平均指標數(shù)值依時間順序排列形成的數(shù)列，主要反映的是客觀現(xiàn)象一般水平的發(fā)展變化過程。又可分為：靜態(tài)平均數(shù)時間序列和動態(tài)平均數(shù)時間序列。

　　時間序列的分析模型，按影響因素可劃分為：

　　長期趨勢的測定和分析方法：時距擴大法、移動平均法、最小二乘法。

　　季節(jié)變動的測定和分析方法：同期平均法、移動平均趨勢剔除法。

　　循環(huán)變動的測定和分析方法：直接法和剩余法。

　　當然了，統(tǒng)計學遠遠不止這7種數(shù)據(jù)分析方法，還有很多其他方法值得我們深挖學習，如通徑分析、因子分析、主成分分析等。如果以后要做數(shù)據(jù)分析，一定要學習更多統(tǒng)計學的基礎(chǔ)知識。

【分類數(shù)據(jù)的統(tǒng)計分析技巧】相關(guān)文章：

演講技巧分類03-18

excel表格數(shù)據(jù)的分類匯總教程03-29

攝影的分類和技巧03-17

瑜伽呼吸分類技巧03-07

嗓音分類與歌唱技巧03-17

管理模具設(shè)計數(shù)據(jù)的技巧02-28

微軟認證考試技巧：數(shù)據(jù)庫03-21

Oracle 數(shù)據(jù)庫查詢小技巧03-21

2016最數(shù)據(jù)庫設(shè)計技巧03-29

美甲筆的分類及使用技巧03-12

亚洲国产日韩欧美在线a乱码,国产精品路线1路线2路线,亚洲视频一区,精品国产自,www狠狠,国产情侣激情在线视频免费看,亚洲成年网站在线观看

分類數(shù)據(jù)的統(tǒng)計分析技巧