分類資料假設檢驗 之 卡方檢驗簡介

在前面一系列檢驗方法彙總,我們注意到:前面應用的多是

連續變數資料

。我們也知道變數有不同的型別,包括連續資料、有分類資料、有等級資料。

t檢驗

方差檢驗

是用於比較

連續資料

的。那如果要比較分類資料的資料,如何進行分析呢?這就是本部分所講述的

卡方檢驗

檢驗被譽為二十世紀科學技術所有分支中的20大發明之一,它的發明者是卡爾·皮爾遜(Karl Pearson)。其基本思想是真實值與理論值的吻合程度。

分類資料假設檢驗 之 卡方檢驗簡介

卡爾。皮爾遜

簡介

卡方檢驗

用途非常廣

的一種

假設檢驗

方法,它在

分類資料

統計推斷中的應用,主要用於定性資料的統計學處理,如

2個或2個以上率或構成比的比較。

所謂

定性資料

是對每個物件的

某些特徵

性質

透過

個數的多少

來進行

表述

描述

而得到的資料。以

計數

的方式取值(如A組34例,B組33例),或是

名義的

(如男、女)或是

有序的

(如Ⅰ期、Ⅱ期、Ⅲ期)。有序的定性資料可稱為等級資料。

表現形式

上,常以

表格

的形式將資料進行歸納與整理,即為

列聯表

。如下表所示,稱為

二維

列聯表,也稱

R×C

列聯表。

分類資料假設檢驗 之 卡方檢驗簡介

基本原理與思想

卡方檢驗就是統計樣本的

實際觀測值與理論推斷值之間的偏離程度

,實際觀測值與理論推斷值之間的

偏離程度

就決定

卡方值的大小

,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若兩個值完全相等時,卡方值就為0,表明理論值完全符合。

它的無效假設

H0:觀察頻數與期望頻數沒有差別

。其基本思想就是:首先

假設H0成立

,基於此計算卡方值,表示觀察值與理論值的

偏離程度

。根據卡方值的分佈及自由度可以確定H0假設成立的情況下獲得當前統計量及更極端情況的機率P。若

P值很小

,說明觀察值與理論值偏離程度太大,應當

拒絕無效假設

,表示比較的資料之間有

顯著性差異

否則就接受H0

,不能認為兩者有差別。

卡方檢驗樣本量要求

卡方分佈本身是連續型分佈,但在分類資料的統計分析中,

頻數只能以整數形式出現

,因此計算出的統計量是非連續的。

當樣本量充足時,可以忽略差異。

一般認為卡方檢驗的每個單元格,要求最小期望頻數大於1,且

至少4/5的單元格期望頻數大於5

卡方檢驗的用途

檢驗某個

分類變數各類出現的機率是否等於指定機率

。如擲硬幣時,正反兩面的出現的機率是否均為0。5

檢驗某

兩個分類變數是否相互獨立

。如吸菸(是/否)是否與呼吸道疾病(是/否)有關;產品原料種類(多分類變數)是否與產品合格(二分類變數)有關

檢驗

控制某種/某幾種分類因素的作用後

,另

2個分類變數是否相互獨立

。如控制性別/年齡因素後,吸菸是否與呼吸道疾病有關

檢驗某

兩種方法的結果是否一致

。如採用兩種診斷方法對同一批人進行診斷,其診斷結果是否一致

後續我們將陸續展開分類資料假設檢驗。