白話統計閱讀筆記:均值預測以及逐步迴歸分析策略

迴歸分析結果怎麼看

均值的置信區間及個體的預測區間

線上性迴歸中我們假定對於每個特定的Xi值,其對應的Yi值來自一個均值為B0+B1X、標準差為∂_ε的分佈。對於個體的預測區間,即為已知某個特定的Xi值,想根據該值預測對應得到Yi值,也就是預測某個具體值,這就是對個體的預測,與前者對均值的預測不同,後者預測的是具體的某個值的區間,所以其標準誤更大。

逐步迴歸篩選變數策略

在多因素分析中,一個十分常見而又令初學者非常迷惑的問題是,如果篩選有意義的影響因素,當變數較多的時候,各個變數之間的關係錯綜複雜,並不是簡單根據因素分析結果來確定是否有統計學意義,而是需要一定的分析策略。

但是是否需要進行變數篩選是根據研究目的來定的,當研究者已經明確了鹽焗的主要因素,只不過有很多其他因素需要校正,這時是不需要進行變數篩選的,而當研究者並不清楚哪些因素可能與研究因變數有關,這時就需要進行變數篩選,所以在進行多因素分析之前,一定要先明確你的研究目的,在統計軟體中,不管你的分析是研究主要因素和混雜因素,還是將所有因素都作為探索性危險因素,他的操作都是相同的,都是把變數納入相應的介面,如果你沒有一個正確統計分析思路來指導,則很容易陷入混亂中。

變數篩選方式很多,這裡首先介紹一種理論上的最佳方式,即最優子集選擇,就是把所有自變數的組合都擬合一遍,比較一下哪個模型更好,選出最優模型。以下是幾個判斷最優模型的指標:

決定係數R2

R2反映了因變數的變異能夠被模型(納入的自變數)所解釋的比例,也就是模型解釋的變異佔總變異的比例,R2越大,表示方程中自變數的解釋能力越強,不少文章都會報道這一指標,但是各個領域並未統一標準到底該指標達到多大算好,同時,該指標有一個缺陷,就是其值隨著自變數的增多而增大,即使加入沒有意義的變數,該指標的值也會增大,因此不能較好地反映不同模型的優劣。

校正決定係數R2adj

是對上述的決定係數進行校正後的指標,因為加了一個對自變數的懲罰項使其不會隨自變數的增加而增加。

赤池資訊準則(AIC)

與R2adj一樣,AIC也加入了對自變數個數的懲罰項,但是懲罰力度更大一些。

殘差均方

該引數主要是針對於殘差加了一個懲罰項,MSE越小的模型,表示擬合效果越好。

Cp統計量

是指標對於P個自變數的散點圖,可見沒有偏倚的迴歸方程就是Cp=P的直線,而一個好的模型應該是Cp值小且離Cp=P的直線很近。一般傾向於選擇具有較低Cp值的模型。

逐步迴歸技術有濫用的跡象,不少統計學家建議,如果應用逐步迴歸法,對其解釋結果一定要謹慎,首先,這些方法得到的結果未必就是最優解,因為他們並沒有執行所有的自變數組合,其次,當自變數之間的相關性很強時,這些方法可能會較為敏感,此時可能容易忽略某些重要變數。此外,變數選擇技術絕不是你把資料直接放到軟體中,直接得到結果,在進行變數篩選之前,一定要先弄清楚其是否滿足線性迴歸的應用條件,否則直接做迴歸是沒有任何意義的。第四,向前選擇法、向後選擇法、逐步設定法的界值不同,所得結果也會有所不同,這一點具有較強的主觀性,第五,採用最優子集可以獲得不同的模型,而逐步迴歸只能得到一個模型。

總的建議,如果你的自變數不是很多,則建議首選最優子集迴歸,表現為電腦能夠很快給出結果,但如果無法執行最優子集,則可以考慮先用逐步迴歸快速掃描,剔除那些較為明顯的意義不大的變數,然後再用最優子集迴歸選擇最優模型。

Ref: 《白話統計》 馮國雙著