迴歸分析之最優尺度迴歸

迴歸模型如何算好

序曲

生查子·重葉梅

【宋】辛棄疾

百花頭上開，冰雪寒中見。霜月定相知，先識春風面。

主人情意深，不管江妃怨。折我最繁枝，還許冰壺薦。

【譯文】

梅花啊，你在百花開放之前綻開，在寒冷中出現。春寒料峭中，朦朧的月亮總是先照亮梅花。

主人十分喜愛你，不管江妃如何抱怨，也要折下最繁茂的枝頭，插進壺中，供人玩賞。

【賞析】

紹興三十二年（1162年），辛棄疾在青年時期滿懷報國雄心，然而南宋朝廷的所作所為，使他大失所望。辛棄疾曾向朝廷上《美芹十論》、《九議》等奏章，主力抗金，反而受到當權者的猜疑。辛棄疾看到了在寒風中盛開的重葉梅時，於是寫下了這首詞。

這是一首詠重葉梅的詠物詞

。

重葉梅在百花開放之前開放，在寒風凜冽中獨自綻放，表現出重葉梅的不懼風雪；主人對重葉梅的情深意重，從把最好的重葉梅折下來供友人欣賞，更加表現出主人對重葉梅的喜愛。

最優尺度迴歸簡介

一般來說，選擇

線性迴歸

或

邏輯迴歸

通常以

因變數

的資料型別為

連續變數

或

分類變數

作為依據，較少關注

自變數的資料型別

。但在

醫學研究

中，當

因變數為連續變數

，

自變數為分類變數或等級變數

時，如果直接將自變數納入迴歸模型進行研究，則會使變數失去自身的意義，如性別，男性和女性本身沒有大小、順序或趨勢的區分。在如此情況下，則可採用

最優尺度迴歸分析方法

，其英文簡稱

CATREG

。

最優尺度迴歸擅長將

分類變數不同取值進行量化處理

，從而將

分類變數轉換為數值型

進行統計分析。可以說有了最優尺度迴歸方法，將

大大提高分類變數資料的處理能力

，突破分類變數對分析模型選擇的限制，

擴大回歸分析的應用能力

。

最優尺度迴歸適用範圍：

適用於自變數為分類變數或等級變數、因變數為連續變數的線性迴歸分析研究中。

SPSS實現最優尺度迴歸

示例：

現收集了一批婦女的曾生子女數、年齡、居住地型別（1-城市，2-農村）、受教育程度（1-5分別代表文盲半文盲、小學、初中、高中、大學及以上），建立3個變數對曾生子女數的迴歸模型，具體資料如下：

開啟

分析—迴歸—最優尺度（CATEREG）

引數選擇

（1）主頁面說明

因變數

：選擇因變數

自變數

：選擇自變數

a。設定指定變數的

最優尺度

。對於選入的因變數或自變數，都可以定義變數取值的最優尺度。選擇點選“

定義標度

”。

有序樣條

：最優尺度變數將保持觀測變數的取值順序。分類點將被置於透過原點的一條直線（或向量）上。結果轉換時一個分段光滑且單調的多項式函式，每個分段多項式的階數透過在Spline欄的Degree輸入框指定，預設為2；分段個數透過在Spline欄的Interior Knots輸入框指定的結點個數來確定，預設為2；分段的位置由程式自動判定。

名義樣條

：最優尺度變數只保持觀測變數對樣本的分類結果，但不保持觀測變數的取值順序，分類點將被置於透過原點的一條直線（或向量）上，結果轉換時一個分段光滑的多項式函式，每個分段不一定單調；分段多項式的結束、分段個數和分段位置的設定方法同有序樣條選項。

有序尺度

：最優尺度變數將保持觀測變數的取值順序，分類點將被置於透過原點的一條直線（或向量）上。結果轉換的擬合效果比有序樣條好，但是光滑性要差一些。

名義尺度

：最優尺度變數只保持觀測變數對樣本的分類結果，但不儲存觀測變數的取值順序，分類點將被置於透過原點的一條直線（或向量）上，結果轉換的擬合效果比有序樣條好，但光滑性要差一些。

數值尺度/數字：

此方法認為分類變數的取值是有序且等間隔的。最優尺度變數將保持觀測變數的取值順序及其相等間隔，分類點將被置於透過原點的一條直線（或向量）上。若所有變數都採用數值尺度。

b. 各變數選擇情況：

（2）離散化

頁面：設定對變數進行變數離散化的編碼方式

a. 變數

：可以進行重新編碼的變數，變數後括號內說明當前變數使用的離散化方法。

b. 方法

：

未指定：

不進行離散化處理

分組：

將原始變數離散化為指定取值個數或取值間隔的類別變數。選中後，啟用分組後設置選項。

類別數

：指定離散化後的取值個數，還可以指定這些取值所服從的分佈型別是正態還是均勻；

等寬區間

：指定離散化後取值的等間隔長度。

排秩法：

透過對樣本進行排序，取秩統計量進行離散化

倍增法：

對變數的當前取值先進行標準化，再乘以10後四捨五入，然後加上一個上述，使其最小取值為1。

（3）“缺失值”頁面

分析變數：

顯示當前分析用到的變數，每個變數後面的括號內說明就是當前變數的缺失值處理方法。若需要更改對某些變數的處理方式，在列表中需要改變的變數，然後在策略欄選擇一種缺失值處理方法，單擊變化量按鈕確定更改。

策略欄：

用於選擇缺失值處理的方法。

排除對於此變數具有缺失值的物件：

如果指定變數取缺失值，則相應的觀測不參與分析

插補缺失值：

表示用估計值替代缺失值，兩種方法：眾數—用出現頻數最多的值代替缺失值，若存在多個眾數，取類別編號最小的那個眾數替代缺失值；附加類別—把缺失值作為單獨的一類，並對其進行編碼。

（4）“選項”頁面

a. 補充物件：

用於指定資料中的增補物件，有如下兩種可選方式：

個案範圍：

指定觀測範圍，在

第一個、最後一個

輸入框分佈指定增補物件的起始觀測和終止觀測序號，單擊Add進行新增。

單個個案：

指定單個記錄，在輸入框指定單個觀測的序號，單擊Add進行新增。對於已經選入的增補物件，可透過單擊更改、新增、除去進行修改。

b. 初始設定：

用於指定變數的先驗認識，有兩個可選項

數值/數字：

若若分析變數裡沒有指定名義變數，選擇此項

隨機：

若若分析變數裡至少有一個名義變數，選擇此項

c. 條件：

用於設定迭代過程的收斂依據

d. 圖的標註依據：

用於設定做圖時對變數的標識方式

變數的標籤值或值標籤：

在圖形中顯示變數標籤和值標籤，同時可在標籤長度限制後製定標籤的最大長度值

變數名稱或值：

在圖形中顯示變數名和觀測值

(5) “輸出”頁面

a．表

複相關係數：

包括R2統計量、調整R2

ANOVA：

輸出方差分析表，包括迴歸平方和、殘差平方和和F統計量等資訊

係數：

輸出三個表—迴歸係數表，包括引數估計值B、B的標準誤、t檢驗統計量及其顯著統計量；最優尺度係數表；相關係數與容許度表

迭代歷史：

輸出每一步迭代初始值、R方統計量和迴歸誤差等資訊。

原始變數的相關性：

輸出轉換前變數之間的相關係數矩陣

轉換後變數的相關性：

輸出轉換後變數之間的相關係數矩陣

b. 分析變數：

顯示了當前分析中的變數

c. 類別量化：

從分析變數列表中選入變數，輸出所選變數經過轉換後的變數取值

d. 描述統計：

輸出所需變數的頻數、缺失值和眾數等描述性資訊。

（6）“儲存”頁面

儲存預測後的資訊

（7）“圖形”頁面

轉換圖：

輸出轉換圖形，橫軸代表變數轉換前的觀測值，縱軸代表轉換後的量化值

殘差圖：

速出殘差圖形，縱軸代表殘差值，橫軸代表當前分類變數的取值

結果輸出與解釋：

(1) 模型摘要

調整R方值為0。934，說明迴歸模型能解釋90%以上的總變異，擬合效果不錯。

(2) 方差分析表

可以看到，構建的迴歸模型通過了方差檢驗，顯著性值小於0。05，提示至少存在一個自變數對曾生子女數有顯著影響。

(3) 迴歸係數表

迴歸係數表給出了引數估計的結果，由於尺度迴歸對變數進行了標準化處理，所以得到的係數也是標準化的。從顯著性檢驗來看，各變數對迴歸方程的貢獻是顯著的。在本例中，居住地的標準化係數為0。220，表示它的標準化取值增加1個單位，預測值就增加0。220。

(4) 相關性與容差

下表中包括了偏相關係數、部分相關係數、轉換前容差與轉換後容差等統計量，這些指標都可反映自變數對因變數的影響程度。

相關分析

：

零階相關性給出的是轉換後的自變數和因變數之間的相關係數

；年齡的偏相關係數最大為0。890，表示不考慮其他變數的影響，年齡解釋了因變數的（0。890）2=0。79=79%的變異；年齡的部分相關係數為0。408，表示從

曾生

子女數中去除了其他2個因素的影響後，剩餘部分解釋了因變數的0。408的評分=0。166=16。6%的變異。

影響重要性

：根據標準化係數和相關係數計算的自變數在模型中的

重要程度的百分比

，取值越大對迴歸方程的貢獻也越大。在本例中，年齡和受教育程度對生育子女數的影響最大，而居住地的影響實際上最小。

容差：

表示該變數對因變數的影響中不能被其他自變數所解釋的比例，越大越好，反映了自變數共線性的情況，若有變數的容差太小，則最有尺度迴歸分析的結果可能不正確。

（5）轉換圖形

下圖表述的是受教育程度變化前後的分值對應，可見，高中、大學兩個等級被給予了相同的量化評分，顯然隨後這兩個基本實際上被合併分析；小學-高中三個等級的評分逐漸上升，但差別不大；文盲半文盲和小學相比，評分差距非常大。

由於隨後的會分析是用變換後分值進行的，相當於評分間為燈具變換。

語法

********************最優尺度迴歸分析******************。CATREG VARIABLES=childnum age area edu/ANALYSIS=childnum（LEVEL=NUME） WITH age（LEVEL=NUME） area（LEVEL=NOMI） edu（LEVEL=ORDI）/MISSING=childnum（LISTWISE） age（LISTWISE） area（LISTWISE） edu（LISTWISE）/MAXITER=100/CRITITER=。00001/PRINT=R COEFF ANOVA/INITIAL=NUMERICAL/PLOT=TRANS（area edu）（20）/SAVE=TRDATA/REGULARIZATION=NONE/RESAMPLE=NONE。

迴歸分析 之 最優尺度迴歸

相關文章

迴歸分析之最優尺度迴歸