統計學基礎筆記：概念梳理12

對統計學基本概念的梳理，其中普通字型為賈俊平著《統計學（第六版）》中的重要概念，引用字型的內容為書中沒有標註為重要概念的較為重要的補充，批註為我依據所學知識的補充。

第12章多元線性迴歸

多元迴歸模型 multiple regression model

設因變數為y，k個自變數分別為x1，x2，…，xk，描述因變數y如何依賴於自變數x1，x2，…，xk和誤差項ε的方程稱為多元迴歸模型。其一般形式可表示為：

式中，β0，β1，β2，…，βk是模型的引數；ε為誤差項。

多元迴歸方程 multiple regression equation

多元迴歸方程，描述了因變數y的期望值與自變數x1，x2，…，xk之間的關係。一般形式可表示為：

估計的多元迴歸方程 estimated multiple regression equation

迴歸方程中的引數是未知的，需要利用樣本資料去估計它們。當用樣本統計量去估計迴歸方程中的未知引數時，就得到了估計的多元迴歸方程，其一般形式為：

多重判定係數 multiple coefficient of determination

多重判定洗漱是多元迴歸中的迴歸平方和佔總平方和的比例，它是度量多元迴歸方程擬合程度的一個統計量，反映了在因變數y的變差中被估計的迴歸方程所解釋的比例。其定義如下：

調整的多重判定係數 adjusted multiple coefficient of determination

因為隨著自變數個數的增加將影響到因變數中被估計的迴歸方程所解釋的變差數量。當增加自變數時，會使預測誤差變得較小，從而減少殘差平方和SSE。由於迴歸平方和SSR=SST-SSE，當SSE變小時，SSR就會變大，從而使R^2變大。如果模型中增加一個自變數，即使這個自變數在統計上並不顯著，R^2也會變大。因此，為避免增加自變數而高估R^2，統計學家提出用樣本量n和自變數的個數k去調整R^2，計算出調整的多重判定係數，記為Ra^2，其計算公式為：

多重共線性 multicollinearity

當迴歸模型中兩個或兩個以上的自變數彼此相關時，則稱迴歸模型中存在多重共線性。在實際問題中，所使用的自變數之間存在相關是一件很平常的事，但是在迴歸分析中存在多重共線性將會產生某些問題：首先，變數之間高度相關時，可能會使迴歸的結果混亂，甚至會把分析引入歧途；其次，多重共線性可能對引數估計值的正負號產生影響，特別是βi的正負號有可能同預期的正負號相反。

檢測多重共線性的方法有多重，其中最簡單的一種方法是計算模型中各對自變數之間的相關係數，並對各相關係數進行顯著性檢驗。如果有一個或多個相關係數是顯著的，就表示模型中所使用的自變數之間相關，因而存在多重共線性問題。

具體來說，如果出現下列情況，暗示存在多重共線性：

1。模型中各對自變數之間顯著相關。

2。當模型的線性關係檢驗（F檢驗）顯著時，幾乎所有迴歸係數βi的t檢驗卻不顯著。

3。迴歸係數的正負號與預期的相反。

4。容忍度與方差擴大因子，一般認為方差擴大因子大於10時，存在嚴重的多重共線性。

容忍度 tolerance

（在多元迴歸模型中）某個自變數的容忍度等於1減去該自變數為因變數而其他k-1個自變數為預測變數時所得到的線性迴歸模型的判定係數，即1-Ri^2。容忍度越小，多重共線性越嚴重。

方差擴大因子 variance inflation factor / VIF

（在多元迴歸模型中）方差擴大因子等於容忍度的倒數，即VIF=1/（1-Ri^2）。顯然，VIF越大，多重共線性越嚴重。一般認為VIF大於10時，存在嚴重的多重共線性。

統計學基礎筆記：概念梳理12

相關文章