白話統計閱讀筆記：均值預測以及逐步迴歸分析策略

迴歸分析結果怎麼看

均值的置信區間及個體的預測區間

線上性迴歸中我們假定對於每個特定的Xi值，其對應的Yi值來自一個均值為B0+B1X、標準差為∂_ε的分佈。對於個體的預測區間，即為已知某個特定的Xi值，想根據該值預測對應得到Yi值，也就是預測某個具體值，這就是對個體的預測，與前者對均值的預測不同，後者預測的是具體的某個值的區間，所以其標準誤更大。

逐步迴歸篩選變數策略

在多因素分析中，一個十分常見而又令初學者非常迷惑的問題是，如果篩選有意義的影響因素，當變數較多的時候，各個變數之間的關係錯綜複雜，並不是簡單根據因素分析結果來確定是否有統計學意義，而是需要一定的分析策略。

但是是否需要進行變數篩選是根據研究目的來定的，當研究者已經明確了鹽焗的主要因素，只不過有很多其他因素需要校正，這時是不需要進行變數篩選的，而當研究者並不清楚哪些因素可能與研究因變數有關，這時就需要進行變數篩選，所以在進行多因素分析之前，一定要先明確你的研究目的，在統計軟體中，不管你的分析是研究主要因素和混雜因素，還是將所有因素都作為探索性危險因素，他的操作都是相同的，都是把變數納入相應的介面，如果你沒有一個正確統計分析思路來指導，則很容易陷入混亂中。

變數篩選方式很多，這裡首先介紹一種理論上的最佳方式，即最優子集選擇，就是把所有自變數的組合都擬合一遍，比較一下哪個模型更好，選出最優模型。以下是幾個判斷最優模型的指標：

決定係數R2

R2反映了因變數的變異能夠被模型（納入的自變數）所解釋的比例，也就是模型解釋的變異佔總變異的比例，R2越大，表示方程中自變數的解釋能力越強，不少文章都會報道這一指標，但是各個領域並未統一標準到底該指標達到多大算好，同時，該指標有一個缺陷，就是其值隨著自變數的增多而增大，即使加入沒有意義的變數，該指標的值也會增大，因此不能較好地反映不同模型的優劣。

校正決定係數R2adj

是對上述的決定係數進行校正後的指標，因為加了一個對自變數的懲罰項使其不會隨自變數的增加而增加。

赤池資訊準則（AIC）

與R2adj一樣，AIC也加入了對自變數個數的懲罰項，但是懲罰力度更大一些。

殘差均方

該引數主要是針對於殘差加了一個懲罰項，MSE越小的模型，表示擬合效果越好。

Cp統計量

是指標對於P個自變數的散點圖，可見沒有偏倚的迴歸方程就是Cp=P的直線，而一個好的模型應該是Cp值小且離Cp=P的直線很近。一般傾向於選擇具有較低Cp值的模型。

逐步迴歸技術有濫用的跡象，不少統計學家建議，如果應用逐步迴歸法，對其解釋結果一定要謹慎，首先，這些方法得到的結果未必就是最優解，因為他們並沒有執行所有的自變數組合，其次，當自變數之間的相關性很強時，這些方法可能會較為敏感，此時可能容易忽略某些重要變數。此外，變數選擇技術絕不是你把資料直接放到軟體中，直接得到結果，在進行變數篩選之前，一定要先弄清楚其是否滿足線性迴歸的應用條件，否則直接做迴歸是沒有任何意義的。第四，向前選擇法、向後選擇法、逐步設定法的界值不同，所得結果也會有所不同，這一點具有較強的主觀性，第五，採用最優子集可以獲得不同的模型，而逐步迴歸只能得到一個模型。

總的建議，如果你的自變數不是很多，則建議首選最優子集迴歸，表現為電腦能夠很快給出結果，但如果無法執行最優子集，則可以考慮先用逐步迴歸快速掃描，剔除那些較為明顯的意義不大的變數，然後再用最優子集迴歸選擇最優模型。

Ref：《白話統計》馮國雙著

白話統計閱讀筆記：均值預測以及逐步迴歸分析策略

相關文章