迴歸分析 之 最優尺度迴歸
迴歸模型如何算好
序曲
生查子·重葉梅
【宋】辛棄疾
百花頭上開,冰雪寒中見。霜月定相知,先識春風面。
主人情意深,不管江妃怨。折我最繁枝,還許冰壺薦。
【譯文】
梅花啊,你在百花開放之前綻開,在寒冷中出現。春寒料峭中,朦朧的月亮總是先照亮梅花。
主人十分喜愛你,不管江妃如何抱怨,也要折下最繁茂的枝頭,插進壺中,供人玩賞。
【賞析】
紹興三十二年(1162年),辛棄疾在青年時期滿懷報國雄心,然而南宋朝廷的所作所為,使他大失所望。辛棄疾曾向朝廷上《美芹十論》、《九議》等奏章,主力抗金,反而受到當權者的猜疑。辛棄疾看到了在寒風中盛開的重葉梅時,於是寫下了這首詞。
這是一首詠重葉梅的詠物詞
。
重葉梅在百花開放之前開放,在寒風凜冽中獨自綻放,表現出重葉梅的不懼風雪;主人對重葉梅的情深意重,從把最好的重葉梅折下來供友人欣賞,更加表現出主人對重葉梅的喜愛。
最優尺度迴歸簡介
一般來說,選擇
線性迴歸
或
邏輯迴歸
通常以
因變數
的資料型別為
連續變數
或
分類變數
作為依據,較少關注
自變數的資料型別
。但在
醫學研究
中,當
因變數為連續變數
,
自變數為分類變數或等級變數
時,如果直接將自變數納入迴歸模型進行研究,則會使變數失去自身的意義,如性別,男性和女性本身沒有大小、順序或趨勢的區分。在如此情況下,則可採用
最優尺度迴歸分析方法
,其英文簡稱
CATREG
。
最優尺度迴歸擅長將
分類變數不同取值進行量化處理
,從而將
分類變數轉換為數值型
進行統計分析。可以說有了最優尺度迴歸方法,將
大大提高分類變數資料的處理能力
,突破分類變數對分析模型選擇的限制,
擴大回歸分析的應用能力
。
最優尺度迴歸適用範圍:
適用於自變數為分類變數或等級變數、因變數為連續變數的線性迴歸分析研究中。
SPSS實現最優尺度迴歸
示例:
現收集了一批婦女的曾生子女數、年齡、居住地型別(1-城市,2-農村)、受教育程度(1-5分別代表 文盲半文盲、小學、初中、高中、大學及以上),建立3個變數對曾生子女數的迴歸模型,具體資料如下:
開啟
分析—迴歸—最優尺度(CATEREG)
引數選擇
(1)主頁面說明
因變數
:選擇因變數
自變數
:選擇自變數
a。 設定指定變數的
最優尺度
。對於選入的因變數或自變數,都可以定義變數取值的最優尺度。選擇點選“
定義標度
”。
有序樣條
:最優尺度變數將保持觀測變數的取值順序。分類點將被置於透過原點的一條直線(或向量)上。結果轉換時一個分段光滑且單調的多項式函式,每個分段多項式的階數透過在Spline欄的Degree輸入框指定,預設為2;分段個數透過在Spline欄的Interior Knots輸入框指定的結點個數來確定,預設為2;分段的位置由程式自動判定。
名義樣條
:最優尺度變數只保持觀測變數對樣本的分類結果,但不保持觀測變數的取值順序,分類點將被置於透過原點的一條直線(或向量)上,結果轉換時一個分段光滑的多項式函式,每個分段不一定單調;分段多項式的結束、分段個數和分段位置的設定方法同有序樣條選項。
有序尺度
:最優尺度變數將保持觀測變數的取值順序,分類點將被置於透過原點的一條直線(或向量)上。結果轉換的擬合效果比有序樣條好,但是光滑性要差一些。
名義尺度
:最優尺度變數只保持觀測變數對樣本的分類結果,但不儲存觀測變數的取值順序,分類點將被置於透過原點的一條直線(或向量)上,結果轉換的擬合效果比有序樣條好,但光滑性要差一些。
數值尺度/數字:
此方法認為分類變數的取值是有序且等間隔的。最優尺度變數將保持觀測變數的取值順序及其相等間隔,分類點將被置於透過原點的一條直線(或向量)上。若所有變數都採用數值尺度。
b. 各變數選擇情況:
(2)離散化
頁面:設定對變數進行變數離散化的編碼方式
a. 變數
:可以進行重新編碼的變數,變數後括號內說明當前變數使用的離散化方法。
b. 方法
:
未指定:
不進行離散化處理
分組:
將原始變數離散化為指定取值個數或取值間隔的類別變數。選中後,啟用 分組後設置選項。
類別數
:指定離散化後的取值個數,還可以指定這些取值所服從的分佈型別是 正態 還是 均勻;
等寬區間
:指定離散化後取值的等間隔長度。
排秩法:
透過對樣本進行排序,取秩統計量進行離散化
倍增法:
對變數的當前取值先進行標準化,再乘以10後四捨五入,然後加上一個上述,使其最小取值為1。
(3)“缺失值”頁面
分析變數:
顯示當前分析用到的變數,每個變數後面的括號內說明就是當前變數的缺失值處理方法。若需要更改對某些變數的處理方式,在列表中需要改變的變數,然後在 策略 欄選擇一種缺失值處理方法,單擊 變化量 按鈕確定更改。
策略欄:
用於選擇缺失值處理的方法。
排除對於此變數具有缺失值的物件:
如果指定變數取缺失值,則相應的觀測不參與分析
插補缺失值:
表示用估計值替代缺失值,兩種方法:眾數—用出現頻數最多的值代替缺失值,若存在多個眾數,取類別編號最小的那個眾數替代缺失值;附加類別—把缺失值作為單獨的一類,並對其進行編碼。
(4)“選項”頁面
a. 補充物件:
用於指定資料中的增補物件,有如下兩種可選方式:
個案範圍:
指定觀測範圍,在
第一個、最後一個
輸入框分佈指定增補物件的起始觀測和終止觀測序號,單擊Add進行新增。
單個個案:
指定單個記錄,在輸入框指定單個觀測的序號,單擊Add進行新增。對於已經選入的增補物件,可透過單擊 更改、新增、除去進行修改。
b. 初始設定:
用於指定變數的先驗認識,有兩個可選項
數值/數字:
若若分析變數裡沒有指定名義變數,選擇此項
隨機:
若若分析變數裡至少有一個名義變數,選擇此項
c. 條件:
用於設定迭代過程的收斂依據
d. 圖的標註依據:
用於設定做圖時對變數的標識方式
變數的標籤值或值標籤:
在圖形中顯示變數標籤和值標籤,同時可在 標籤長度限制後製定標籤的最大長度值
變數名稱或值:
在圖形中顯示變數名和觀測值
(5) “輸出”頁面
a.表
複相關係數:
包括R2統計量、調整R2
ANOVA:
輸出方差分析表,包括迴歸平方和、殘差平方和和F統計量等資訊
係數:
輸出三個表—迴歸係數表,包括引數估計值B、B的標準誤、t檢驗統計量及其顯著統計量;最優尺度係數表;相關係數與容許度表
迭代歷史:
輸出每一步迭代初始值、R方統計量和迴歸誤差等資訊。
原始變數的相關性:
輸出轉換前變數之間的相關係數矩陣
轉換後變數的相關性:
輸出轉換後變數之間的相關係數矩陣
b. 分析變數:
顯示了當前分析中的變數
c. 類別量化:
從分析變數列表中選入變數,輸出所選變數經過轉換後的變數取值
d. 描述統計:
輸出所需變數的頻數、缺失值和眾數等描述性資訊。
(6)“儲存”頁面
儲存預測後的資訊
(7)“圖形”頁面
轉換圖:
輸出轉換圖形,橫軸代表變數轉換前的觀測值,縱軸代表轉換後的量化值
殘差圖:
速出殘差圖形,縱軸代表殘差值,橫軸代表當前分類變數的取值
結果輸出與解釋:
(1) 模型摘要
調整R方值為0。934,說明迴歸模型能解釋90%以上的總變異,擬合效果不錯。
(2) 方差分析表
可以看到,構建的迴歸模型通過了方差檢驗,顯著性值小於0。05,提示至少存在一個自變數對曾生子女數有顯著影響。
(3) 迴歸係數表
迴歸係數表給出了引數估計的結果,由於尺度迴歸對變數進行了標準化處理,所以得到的係數也是標準化的。從顯著性檢驗來看,各變數對迴歸方程的貢獻是顯著的。在本例中,居住地的標準化係數為0。220,表示它的標準化取值增加1個單位,預測值就增加0。220。
(4) 相關性與容差
下表中包括了偏相關係數、部分相關係數、轉換前容差與轉換後容差等統計量,這些指標都可反映自變數對因變數的影響程度。
相關分析
:
零階相關性給出的是轉換後的自變數和因變數之間的相關係數
;年齡的偏相關係數最大為0。890,表示不考慮其他變數的影響,年齡解釋了因變數的(0。890)2=0。79=79%的變異;年齡的部分相關係數為0。408,表示從
曾生
子女數中去除了其他2個因素的影響後,剩餘部分解釋了因變數的0。408的評分=0。166=16。6%的變異。
影響重要性
:根據標準化係數和相關係數計算的自變數在模型中的
重要程度的百分比
,取值越大對迴歸方程的貢獻也越大。在本例中,年齡和受教育程度對生育子女數的影響最大,而居住地的影響實際上最小。
容差:
表示該變數對因變數的影響中不能被其他自變數所解釋的比例,越大越好,反映了自變數共線性的情況,若有變數的容差太小,則最有尺度迴歸分析的結果可能不正確。
(5)轉換圖形
下圖表述的是受教育程度變化前後的分值對應,可見,高中、大學兩個等級被給予了相同的量化評分,顯然隨後這兩個基本實際上被合併分析;小學-高中三個等級的評分逐漸上升,但差別不大;文盲半文盲和小學相比,評分差距非常大。
由於隨後的會分析是用變換後分值進行的,相當於評分間為燈具變換。
語法
********************最優尺度迴歸分析******************。CATREG VARIABLES=childnum age area edu/ANALYSIS=childnum(LEVEL=NUME) WITH age(LEVEL=NUME) area(LEVEL=NOMI) edu(LEVEL=ORDI)/MISSING=childnum(LISTWISE) age(LISTWISE) area(LISTWISE) edu(LISTWISE)/MAXITER=100/CRITITER=。00001/PRINT=R COEFF ANOVA/INITIAL=NUMERICAL/PLOT=TRANS(area edu)(20)/SAVE=TRDATA/REGULARIZATION=NONE/RESAMPLE=NONE。