分類資料假設檢驗 之 卡方檢驗簡介
在前面一系列檢驗方法彙總,我們注意到:前面應用的多是
連續變數資料
。我們也知道變數有不同的型別,包括連續資料、有分類資料、有等級資料。
t檢驗
和
方差檢驗
是用於比較
連續資料
的。那如果要比較分類資料的資料,如何進行分析呢?這就是本部分所講述的
卡方檢驗
。
檢驗被譽為二十世紀科學技術所有分支中的20大發明之一,它的發明者是卡爾·皮爾遜(Karl Pearson)。其基本思想是真實值與理論值的吻合程度。
卡爾。皮爾遜
簡介
卡方檢驗
是
用途非常廣
的一種
假設檢驗
方法,它在
分類資料
統計推斷中的應用,主要用於定性資料的統計學處理,如
2個或2個以上率或構成比的比較。
所謂
定性資料
是對每個物件的
某些特徵
或
性質
透過
個數的多少
來進行
表述
或
描述
而得到的資料。以
計數
的方式取值(如A組34例,B組33例),或是
名義的
(如男、女)或是
有序的
(如Ⅰ期、Ⅱ期、Ⅲ期)。有序的定性資料可稱為等級資料。
在
表現形式
上,常以
表格
的形式將資料進行歸納與整理,即為
列聯表
。如下表所示,稱為
二維
列聯表,也稱
R×C
列聯表。
基本原理與思想
卡方檢驗就是統計樣本的
實際觀測值與理論推斷值之間的偏離程度
,實際觀測值與理論推斷值之間的
偏離程度
就決定
卡方值的大小
,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若兩個值完全相等時,卡方值就為0,表明理論值完全符合。
它的無效假設
H0:觀察頻數與期望頻數沒有差別
。其基本思想就是:首先
假設H0成立
,基於此計算卡方值,表示觀察值與理論值的
偏離程度
。根據卡方值的分佈及自由度可以確定H0假設成立的情況下獲得當前統計量及更極端情況的機率P。若
P值很小
,說明觀察值與理論值偏離程度太大,應當
拒絕無效假設
,表示比較的資料之間有
顯著性差異
;
否則就接受H0
,不能認為兩者有差別。
卡方檢驗樣本量要求
卡方分佈本身是連續型分佈,但在分類資料的統計分析中,
頻數只能以整數形式出現
,因此計算出的統計量是非連續的。
當樣本量充足時,可以忽略差異。
一般認為卡方檢驗的每個單元格,要求最小期望頻數大於1,且
至少4/5的單元格期望頻數大於5
。
卡方檢驗的用途
檢驗某個
分類變數各類出現的機率是否等於指定機率
。如擲硬幣時,正反兩面的出現的機率是否均為0。5
檢驗某
兩個分類變數是否相互獨立
。如吸菸(是/否)是否與呼吸道疾病(是/否)有關;產品原料種類(多分類變數)是否與產品合格(二分類變數)有關
檢驗
控制某種/某幾種分類因素的作用後
,另
2個分類變數是否相互獨立
。如控制性別/年齡因素後,吸菸是否與呼吸道疾病有關
檢驗某
兩種方法的結果是否一致
。如採用兩種診斷方法對同一批人進行診斷,其診斷結果是否一致
後續我們將陸續展開分類資料假設檢驗。