分類資料假設檢驗之卡方檢驗簡介

在前面一系列檢驗方法彙總，我們注意到：前面應用的多是

連續變數資料

。我們也知道變數有不同的型別，包括連續資料、有分類資料、有等級資料。

t檢驗

和

方差檢驗

是用於比較

連續資料

的。那如果要比較分類資料的資料，如何進行分析呢？這就是本部分所講述的

卡方檢驗

。

檢驗被譽為二十世紀科學技術所有分支中的20大發明之一，它的發明者是卡爾·皮爾遜（Karl Pearson）。其基本思想是真實值與理論值的吻合程度。

卡爾。皮爾遜

簡介

卡方檢驗

是

用途非常廣

的一種

假設檢驗

方法，它在

分類資料

統計推斷中的應用，主要用於定性資料的統計學處理，如

2個或2個以上率或構成比的比較。

所謂

定性資料

是對每個物件的

某些特徵

或

性質

透過

個數的多少

來進行

表述

或

描述

而得到的資料。以

計數

的方式取值（如A組34例，B組33例），或是

名義的

（如男、女）或是

有序的

（如Ⅰ期、Ⅱ期、Ⅲ期）。有序的定性資料可稱為等級資料。

在

表現形式

上，常以

表格

的形式將資料進行歸納與整理，即為

列聯表

。如下表所示，稱為

二維

列聯表，也稱

R×C

列聯表。

基本原理與思想

卡方檢驗就是統計樣本的

實際觀測值與理論推斷值之間的偏離程度

，實際觀測值與理論推斷值之間的

偏離程度

就決定

卡方值的大小

，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若兩個值完全相等時，卡方值就為0，表明理論值完全符合。

它的無效假設

H0：觀察頻數與期望頻數沒有差別

。其基本思想就是：首先

假設H0成立

，基於此計算卡方值，表示觀察值與理論值的

偏離程度

。根據卡方值的分佈及自由度可以確定H0假設成立的情況下獲得當前統計量及更極端情況的機率P。若

P值很小

，說明觀察值與理論值偏離程度太大，應當

拒絕無效假設

，表示比較的資料之間有

顯著性差異

；

否則就接受H0

，不能認為兩者有差別。

卡方檢驗樣本量要求

卡方分佈本身是連續型分佈，但在分類資料的統計分析中，

頻數只能以整數形式出現

，因此計算出的統計量是非連續的。

當樣本量充足時，可以忽略差異。

一般認為卡方檢驗的每個單元格，要求最小期望頻數大於1，且

至少4/5的單元格期望頻數大於5

。

卡方檢驗的用途

檢驗某個

分類變數各類出現的機率是否等於指定機率

。如擲硬幣時，正反兩面的出現的機率是否均為0。5

檢驗某

兩個分類變數是否相互獨立

。如吸菸（是/否）是否與呼吸道疾病（是/否）有關；產品原料種類（多分類變數）是否與產品合格（二分類變數）有關

檢驗

控制某種/某幾種分類因素的作用後

，另

2個分類變數是否相互獨立

。如控制性別/年齡因素後，吸菸是否與呼吸道疾病有關

檢驗某

兩種方法的結果是否一致

。如採用兩種診斷方法對同一批人進行診斷，其診斷結果是否一致

後續我們將陸續展開分類資料假設檢驗。

分類資料假設檢驗 之 卡方檢驗簡介

相關文章

分類資料假設檢驗之卡方檢驗簡介