迴歸分析 之 最優尺度迴歸

迴歸模型如何算好

序曲

生查子·重葉梅

【宋】辛棄疾

百花頭上開,冰雪寒中見。霜月定相知,先識春風面。

主人情意深,不管江妃怨。折我最繁枝,還許冰壺薦。

【譯文】

梅花啊,你在百花開放之前綻開,在寒冷中出現。春寒料峭中,朦朧的月亮總是先照亮梅花。

主人十分喜愛你,不管江妃如何抱怨,也要折下最繁茂的枝頭,插進壺中,供人玩賞。

【賞析】

紹興三十二年(1162年),辛棄疾在青年時期滿懷報國雄心,然而南宋朝廷的所作所為,使他大失所望。辛棄疾曾向朝廷上《美芹十論》、《九議》等奏章,主力抗金,反而受到當權者的猜疑。辛棄疾看到了在寒風中盛開的重葉梅時,於是寫下了這首詞。

這是一首詠重葉梅的詠物詞

重葉梅在百花開放之前開放,在寒風凜冽中獨自綻放,表現出重葉梅的不懼風雪;主人對重葉梅的情深意重,從把最好的重葉梅折下來供友人欣賞,更加表現出主人對重葉梅的喜愛。

最優尺度迴歸簡介

一般來說,選擇

線性迴歸

邏輯迴歸

通常以

因變數

的資料型別為

連續變數

分類變數

作為依據,較少關注

自變數的資料型別

。但在

醫學研究

中,當

因變數為連續變數

自變數為分類變數或等級變數

時,如果直接將自變數納入迴歸模型進行研究,則會使變數失去自身的意義,如性別,男性和女性本身沒有大小、順序或趨勢的區分。在如此情況下,則可採用

最優尺度迴歸分析方法

,其英文簡稱

CATREG

最優尺度迴歸擅長將

分類變數不同取值進行量化處理

,從而將

分類變數轉換為數值型

進行統計分析。可以說有了最優尺度迴歸方法,將

大大提高分類變數資料的處理能力

,突破分類變數對分析模型選擇的限制,

擴大回歸分析的應用能力

最優尺度迴歸適用範圍:

適用於自變數為分類變數或等級變數、因變數為連續變數的線性迴歸分析研究中。

SPSS實現最優尺度迴歸

示例:

現收集了一批婦女的曾生子女數、年齡、居住地型別(1-城市,2-農村)、受教育程度(1-5分別代表 文盲半文盲、小學、初中、高中、大學及以上),建立3個變數對曾生子女數的迴歸模型,具體資料如下:

迴歸分析 之 最優尺度迴歸

開啟

分析—迴歸—最優尺度(CATEREG)

迴歸分析 之 最優尺度迴歸

引數選擇

(1)主頁面說明

因變數

:選擇因變數

自變數

:選擇自變數

迴歸分析 之 最優尺度迴歸

a。 設定指定變數的

最優尺度

。對於選入的因變數或自變數,都可以定義變數取值的最優尺度。選擇點選“

定義標度

”。

有序樣條

:最優尺度變數將保持觀測變數的取值順序。分類點將被置於透過原點的一條直線(或向量)上。結果轉換時一個分段光滑且單調的多項式函式,每個分段多項式的階數透過在Spline欄的Degree輸入框指定,預設為2;分段個數透過在Spline欄的Interior Knots輸入框指定的結點個數來確定,預設為2;分段的位置由程式自動判定。

名義樣條

:最優尺度變數只保持觀測變數對樣本的分類結果,但不保持觀測變數的取值順序,分類點將被置於透過原點的一條直線(或向量)上,結果轉換時一個分段光滑的多項式函式,每個分段不一定單調;分段多項式的結束、分段個數和分段位置的設定方法同有序樣條選項。

有序尺度

:最優尺度變數將保持觀測變數的取值順序,分類點將被置於透過原點的一條直線(或向量)上。結果轉換的擬合效果比有序樣條好,但是光滑性要差一些。

名義尺度

:最優尺度變數只保持觀測變數對樣本的分類結果,但不儲存觀測變數的取值順序,分類點將被置於透過原點的一條直線(或向量)上,結果轉換的擬合效果比有序樣條好,但光滑性要差一些。

數值尺度/數字:

此方法認為分類變數的取值是有序且等間隔的。最優尺度變數將保持觀測變數的取值順序及其相等間隔,分類點將被置於透過原點的一條直線(或向量)上。若所有變數都採用數值尺度。

迴歸分析 之 最優尺度迴歸

b. 各變數選擇情況:

迴歸分析 之 最優尺度迴歸

(2)離散化

頁面:設定對變數進行變數離散化的編碼方式

a. 變數

:可以進行重新編碼的變數,變數後括號內說明當前變數使用的離散化方法。

b. 方法

未指定:

不進行離散化處理

分組:

將原始變數離散化為指定取值個數或取值間隔的類別變數。選中後,啟用 分組後設置選項。

類別數

:指定離散化後的取值個數,還可以指定這些取值所服從的分佈型別是 正態 還是 均勻;

等寬區間

:指定離散化後取值的等間隔長度。

排秩法:

透過對樣本進行排序,取秩統計量進行離散化

倍增法:

對變數的當前取值先進行標準化,再乘以10後四捨五入,然後加上一個上述,使其最小取值為1。

迴歸分析 之 最優尺度迴歸

(3)“缺失值”頁面

分析變數:

顯示當前分析用到的變數,每個變數後面的括號內說明就是當前變數的缺失值處理方法。若需要更改對某些變數的處理方式,在列表中需要改變的變數,然後在 策略 欄選擇一種缺失值處理方法,單擊 變化量 按鈕確定更改。

策略欄:

用於選擇缺失值處理的方法。

排除對於此變數具有缺失值的物件:

如果指定變數取缺失值,則相應的觀測不參與分析

插補缺失值:

表示用估計值替代缺失值,兩種方法:眾數—用出現頻數最多的值代替缺失值,若存在多個眾數,取類別編號最小的那個眾數替代缺失值;附加類別—把缺失值作為單獨的一類,並對其進行編碼。

迴歸分析 之 最優尺度迴歸

(4)“選項”頁面

a. 補充物件:

用於指定資料中的增補物件,有如下兩種可選方式:

個案範圍:

指定觀測範圍,在

第一個、最後一個

輸入框分佈指定增補物件的起始觀測和終止觀測序號,單擊Add進行新增。

單個個案:

指定單個記錄,在輸入框指定單個觀測的序號,單擊Add進行新增。對於已經選入的增補物件,可透過單擊 更改、新增、除去進行修改。

b. 初始設定:

用於指定變數的先驗認識,有兩個可選項

數值/數字:

若若分析變數裡沒有指定名義變數,選擇此項

隨機:

若若分析變數裡至少有一個名義變數,選擇此項

c. 條件:

用於設定迭代過程的收斂依據

d. 圖的標註依據:

用於設定做圖時對變數的標識方式

變數的標籤值或值標籤:

在圖形中顯示變數標籤和值標籤,同時可在 標籤長度限制後製定標籤的最大長度值

變數名稱或值:

在圖形中顯示變數名和觀測值

迴歸分析 之 最優尺度迴歸

(5) “輸出”頁面

a.表

複相關係數:

包括R2統計量、調整R2

ANOVA:

輸出方差分析表,包括迴歸平方和、殘差平方和和F統計量等資訊

係數:

輸出三個表—迴歸係數表,包括引數估計值B、B的標準誤、t檢驗統計量及其顯著統計量;最優尺度係數表;相關係數與容許度表

迭代歷史:

輸出每一步迭代初始值、R方統計量和迴歸誤差等資訊。

原始變數的相關性:

輸出轉換前變數之間的相關係數矩陣

轉換後變數的相關性:

輸出轉換後變數之間的相關係數矩陣

b. 分析變數:

顯示了當前分析中的變數

c. 類別量化:

從分析變數列表中選入變數,輸出所選變數經過轉換後的變數取值

d. 描述統計:

輸出所需變數的頻數、缺失值和眾數等描述性資訊。

迴歸分析 之 最優尺度迴歸

(6)“儲存”頁面

儲存預測後的資訊

迴歸分析 之 最優尺度迴歸

(7)“圖形”頁面

轉換圖:

輸出轉換圖形,橫軸代表變數轉換前的觀測值,縱軸代表轉換後的量化值

殘差圖:

速出殘差圖形,縱軸代表殘差值,橫軸代表當前分類變數的取值

迴歸分析 之 最優尺度迴歸

結果輸出與解釋:

(1) 模型摘要

調整R方值為0。934,說明迴歸模型能解釋90%以上的總變異,擬合效果不錯。

迴歸分析 之 最優尺度迴歸

(2) 方差分析表

可以看到,構建的迴歸模型通過了方差檢驗,顯著性值小於0。05,提示至少存在一個自變數對曾生子女數有顯著影響。

迴歸分析 之 最優尺度迴歸

(3) 迴歸係數表

迴歸係數表給出了引數估計的結果,由於尺度迴歸對變數進行了標準化處理,所以得到的係數也是標準化的。從顯著性檢驗來看,各變數對迴歸方程的貢獻是顯著的。在本例中,居住地的標準化係數為0。220,表示它的標準化取值增加1個單位,預測值就增加0。220。

迴歸分析 之 最優尺度迴歸

(4) 相關性與容差

下表中包括了偏相關係數、部分相關係數、轉換前容差與轉換後容差等統計量,這些指標都可反映自變數對因變數的影響程度。

相關分析

零階相關性給出的是轉換後的自變數和因變數之間的相關係數

;年齡的偏相關係數最大為0。890,表示不考慮其他變數的影響,年齡解釋了因變數的(0。890)2=0。79=79%的變異;年齡的部分相關係數為0。408,表示從

曾生

子女數中去除了其他2個因素的影響後,剩餘部分解釋了因變數的0。408的評分=0。166=16。6%的變異。

影響重要性

:根據標準化係數和相關係數計算的自變數在模型中的

重要程度的百分比

,取值越大對迴歸方程的貢獻也越大。在本例中,年齡和受教育程度對生育子女數的影響最大,而居住地的影響實際上最小。

容差:

表示該變數對因變數的影響中不能被其他自變數所解釋的比例,越大越好,反映了自變數共線性的情況,若有變數的容差太小,則最有尺度迴歸分析的結果可能不正確。

迴歸分析 之 最優尺度迴歸

(5)轉換圖形

下圖表述的是受教育程度變化前後的分值對應,可見,高中、大學兩個等級被給予了相同的量化評分,顯然隨後這兩個基本實際上被合併分析;小學-高中三個等級的評分逐漸上升,但差別不大;文盲半文盲和小學相比,評分差距非常大。

由於隨後的會分析是用變換後分值進行的,相當於評分間為燈具變換。

迴歸分析 之 最優尺度迴歸

語法

********************最優尺度迴歸分析******************。CATREG VARIABLES=childnum age area edu/ANALYSIS=childnum(LEVEL=NUME) WITH age(LEVEL=NUME) area(LEVEL=NOMI) edu(LEVEL=ORDI)/MISSING=childnum(LISTWISE) age(LISTWISE) area(LISTWISE) edu(LISTWISE)/MAXITER=100/CRITITER=。00001/PRINT=R COEFF ANOVA/INITIAL=NUMERICAL/PLOT=TRANS(area edu)(20)/SAVE=TRDATA/REGULARIZATION=NONE/RESAMPLE=NONE。