因果推理“三問”:是什麼?為什麼需要?如何使用?

譯者:AI研習社(聽風1996)

雙語原文連結:Causal Inference: What, Why, and How

作為一名經濟學博士,我致力於尋找某些變數之間的因果關係,用來完成我的論文。因果關係強大到可以讓人們有足夠的信心去做決策、防止損失、求解最優解等。在本文中,我將討論什麼是因果關係,為什麼需要發現因果關係,以及進行因果推理的常用技巧。

1。 什麼是因果關係?

因果關係描述的是兩個變數之間的關係,即一個變數如何誘發另一個變數的發生。它比相關關係要強得多,因為相關關係只是描述兩個變數之間的共同運動模式。透過繪製散點圖,可以很容易地觀察到兩個連續變數的相關性。對於分類變數,我們可以繪製柱狀圖來觀察其關係。要知道兩個連續變數之間的確切相關性,我們可以使用皮爾遜相關公式。皮爾遜(Pearson)的相關性介於-1和1之間,絕對值越大表示相關性越強。正相關意味著兩個變數在同一方向共同運動,反之亦然。

但對於因果關係,要把握的關係就要複雜得多。為了知道變數A是否引起了變數B的發生,即干預A是否引起了結果B,我們需要保持所有其他變數不變,以隔離和量化干預的效果。我們需要控制的其他變數稱為混雜變數,即與干預和結果都相關的變數:

因果推理“三問”:是什麼?為什麼需要?如何使用?

有關混淆變數的例子

在上圖中,我舉了一個混淆變數,其中年齡與戒菸率和致死率都是正相關的。年齡越大,死亡率越高,但吸菸率越低。如果我們在估計吸菸對死亡率的影響時沒有控制年齡,我們可能會觀察到吸菸會減少死亡率這樣荒謬結果。我們不能在這裡得出因果關係,因為我們沒有控制所有混雜變數。關於這個例子的更多細節,你可以閱讀我討論 “辛普森悖論 ”的文章:

所謂的“辛普森悖論”

在得出因果效應的結論時,我們需要記住的另一個因素是選擇偏差。為了隔離治療效果,我們需要確保治療組單位是在人群中隨機選擇的。這樣,我們在治療後觀察到的差異不是因為其他因素,而是因為治療。舉個例子,當一家超市想估計提供優惠券對提高整體銷售額的影響時。如果超市只把優惠券傳遞給在店裡購物的顧客(干預組),發現他們比沒有收到優惠券的顧客(對照組)購買了更多的商品,那麼市場由於選擇偏差而無法在此處得出因果關係。沒有將顧客隨機選擇到治療組中。他們之所以在這裡,是因為他們在超市購物,這表明與對照組相比,即使沒有優惠券,他們也更可能從超市購買商品。比較來自治療組和對照組的結果變數在這裡將毫無意義。

為什麼要估計因果關係?

得到因果關係是如此複雜的,何必還要呢?我們為什麼不直接使用相關性呢?我們知道相關性在進行預測時是有用的。如果我們知道變數A與變數B有很強的相關性,那麼知道變數A的值就可以幫助我們預測變數B的值。在業務環境中,我們可以利用相關性來預測給哪些客戶群體做促銷,這樣我們就可以根據客戶過去的行為和其他客戶特徵來提高轉化率。但是,即使是最準確的預測模型,也不能得出結論,當你觀察到客戶轉化率提高了,就是因為促銷。我們需要設計實驗或進行準實驗研究,才能得出因果關係並量化干預效果。在這個例子中,因果推理可以告訴你,提供促銷活動是否增加了客戶轉化率,以及增加了多少。因此,與相關性相比,因果關係能給決策者更多的指導和信心。

如何進行因果推斷?

1、不同的干預效應

估計因果效應與估計你的利益結果變數的干預效應是一樣的。根據具體的研究或業務問題,可以選擇不同的治療效果進行估計。假設Y是結果變數,其中Y是沒有干預的結果,Y是有干預的結果。T為虛擬變數,表示單位i是在干預組(T=1)還是對照組(T=0):

平均干預效應(ATE):

平均而言,干預組和對照組之間的結果變數有何不同?

因果推理“三問”:是什麼?為什麼需要?如何使用?

平均干預效應

平均干預效應(ATT):

平均而言,干預組中的單位在接受和不接受干預的情況下,結果變數的差異是什麼?

因果推理“三問”:是什麼?為什麼需要?如何使用?

平均干預效果

在這裡,E(Y|T=1)是干預組單位的預期結果,它是可觀察的。然而,E(Y|T=1)是不可觀察的,因為它是假設的。一個單位只能有Y和Y這兩種結果中的一種,這取決於這個單位所在的組別。如果這個單位已經接受了干預,我們可以觀察Y,並使用不同的技術來估計Y這個反事實變數。我將在後面討論不同的技術。

條件平均干預效應(CATE):

因果推理“三問”:是什麼?為什麼需要?如何使用?

條件平均干預效果

條件平均干預效果是應用某些條件x來估計ATE。在某些情況下,干預會對不同的子組產生不同的影響,並且ATE可以為零,因為這些效果被抵消了。CATE可以用於估計子組之間的異質效應。

個體干預效應(ITE)

因果推理“三問”:是什麼?為什麼需要?如何使用?

個體干預效果

個體干預效應與CATE相同,應用的條件是單位是單位 i。

2,假設

如上所述,在宣告因果關係之前,需要採取許多措施。在進行因果推斷時,請記住以下假設:

無選擇偏差:每個單位都有同等可能被分配到干預組。

在估計干預效果時,沒有未控制的混淆變數。

結果變數Y是可觀察的,它可以用來估計干預後的干預效果。

SUTVA:穩定單位處理值假設。這個假設有兩個方面。對於實驗中的任何單位:

1、單位i接受干預不會影響其他單位的結果,即無網路效應。

2、如果單位i在干預組中,其接受的干預與干預組中的所有其他單位一樣,即只有一個種干預型別。

3、工作流程

因果推理最大的挑戰是,我們只能觀察到每個單位i的Y或Y,我們永遠無法完美測量每個單位i的干預效果,為了應對這個問題,我們需要為干預組找到完美的對照組,使兩組之間唯一的區別就是干預。這可以透過執行隨機化實驗或在隨機化不切實際的情況下尋找匹配的干預組和對照組(準實驗)來實現。以下是我認為有用的工作流程:

因果推理“三問”:是什麼?為什麼需要?如何使用?

隨機對照試驗(RCT)

如果總能隨機分出干預組和對照組,生活就會輕鬆很多! 隨機分配干預後,我們可以分別估計治療組和對照組的結果變數,其差異就是平均治療效果(ATE)。由於單位是隨機選入干預組的,所以干預組和對照組的單位之間唯一的區別就是是否接受過干預。因此,結果變數的差異就是干預的效果。但是,有時由於網路效應或技術問題,無法將干預組和對照組隨機化。或者把使用者分成兩組成本太高。例如,在估計促銷活動的效果時,如果將部分使用者排除在促銷活動之外,會對使用者的滿意度產生負面影響。在這種情況下,我們可以進行準實驗,也就是不依賴隨機分配的實驗。

差異(DID):

DID通常是在對照組和干預組之間存在已存在差異時使用的。但是,我們認為干預組和對照組的結果變數增長趨勢沒有顯著差異(平行趨勢假設)。也就是說,按照下表的定義,兩組在結果變數上的差異在治療前後是相同的,d_post=d_pre:

因果推理“三問”:是什麼?為什麼需要?如何使用?

干預組的結果差異為d_t,定義為Y(1,1)-Y(1,0),對照組的結果差異為d_c,定義為Y(0,1)-Y(0,0)。d_t和d_c之間的差值為DID,即干預效果,如下圖所示。

因果推理“三問”:是什麼?為什麼需要?如何使用?

DID = d_t-d_c=(Y(1,1)-Y(1,0))-(Y(0,1)-Y(0,0))

平行趨勢假設是一個很強的假設,當違背這個假設的時候,DID估計就會出現偏差。

匹配

儘管不可能進行隨機實驗,但我們可以找到完美匹配的干預組,在不進行干預的情況下量化結果變數。我們可以根據interests特徵構建一個人工對照組。例如,我們可以在一個城市給予促銷活動,並與其他沒有促銷活動的城市進行結果變數的比較。這些城市除了促銷活動外,其他因素都是相似的。這就像一個橫向比較。

我們可以使用的另一種方法是時間序列比較,這叫做switch-back檢驗。例如,我們可以選擇一個城市,在一週內給出促銷活動,然後將結果變數與最近一段時間沒有促銷活動的這個城市進行比較。差異將是促銷的效果。

這些技術在面對網路效應時相當有用。使用橫向比較或時間序列比較,我們不需要把一個市場分成不同的群體。因此,我們不需要擔心同一市場中群體之間的溢位效應。在對整個市場進行比較時,必須確保對照組和干預組市場之間的唯一差異是干預。

內生性

當獨立變數X(干預)與迴歸中的誤差項相關,從而使估計結果(干預對結果變數Y的影響)產生偏差時,就會產生內生性。引起內生性的方式有三種:

遺漏變數:

當我們沒有將混淆變數作為控制變數納入迴歸,或無法量化混淆變數時。例如,如果我們想估計教育(干預)對未來收入(結果變數)的影響,就需要在迴歸中加入一個稱為 “能力 ”的混淆變數。作為一個混淆變數,“能力 ”會增加接受高等教育的機會,增加獲得高收入的機會。但是,由於我們無法輕易地量化 “能力”,所以很難將其納入迴歸中。簡單地用 “學歷 ”對 “收入 ”進行迴歸,會使處理效果出現偏差。如果我們能夠量化混淆變數,我們就可以將它們全部納入迴歸中。如果不能,我們需要使用迴歸不連續或工具變數來進行隨意推斷。我將在後面討論它們。

如果我們可以量化混雜變數,則可以將它們全部包含在迴歸中。如果不是,我們需要使用迴歸不連續性或工具變數來進行因果推斷。稍後再討論。

反向因果關係:

當X可以影響Y,Y也可以影響X時,就存在反向因果關係。例如,如果我們在超市給在這家超市購物的顧客發放優惠券。優惠券會增加收到優惠券的顧客的銷售額,這些顧客會更多的出現在超市,也更有可能收到更多的優惠券。迴圈下去。在應對這個問題的時候,我們需要在中間引入一些隨機化。比如,我們並不是給所有出現在超市的顧客發放優惠券,而是隨機選擇一些顧客發放優惠券,並估算出差異。引入一定程度的隨機化會減少估計的偏差。

選擇偏差:

如上所述,如果具有某些特徵的單位更容易被選入干預組,那麼我們就面臨選擇偏差。我們觀察到的結果變數的差異不僅是由干預引起的,也是由於組間其他預先存在的差異。如果我們相信治療組和對照組有平行的趨勢,即它們之間的差異不會因為治療或時間而改變,我們可以使用DID來估計治療效果。否則,我們可以尋求其他解決方案。

處理內生性問題總是很麻煩。除了包括所有混淆變數和引入一些隨機化外,迴歸不連續和工具變數是解決內生性問題的另外兩種方法。

1、迴歸不連續

迴歸不連續是在一個分界點測量干預效果。用一個例子會更容易理解。假設我們想估計發放獎學金對學生成績的影響。簡單地估計有獎學金和沒有獎學金的學生之間的成績差異,會因為內生性而使估計結果出現偏差。獲得獎學金的學生即使沒有獎學金,也更有可能獲得更好的成績。如果我們有一個給獎學金的臨接點,我們可以利用迴歸不連續來估計獎學金的效應。例如,如果我們給成績高於80分的學生髮放獎學金,那麼我們就可以估計成績接近80分的學生的成績差異。這背後的直覺是,在影響成績的其他特徵方面,得到79分的學生很可能與得到81分的學生相似。對於成績在79到81之間的學生來說,被分配到干預組(有獎學金)和對照組(沒有獎學金)是大致隨機的。因此,我們只能看這個子人群的成績差異來估計治療效果。更多詳情請檢視維基百科頁面。

2、工具變數

工具變數指的是與自變數X高度相關,但與因變數Y不直接相關的變數,它們的關係就像下圖。

因果推理“三問”:是什麼?為什麼需要?如何使用?

工具變數

由於工具變數與結果變數並不直接相關,如果改變工具變數引起結果變數的變化,那一定是干預變數的原因。例如,在估計教育對未來收入的影響時,常用的工具變數是父母的教育水平。父母的教育水平與孩子的教育水平高度相關,而與孩子的收入並不直接相關。為具體的研究問題尋找工具變數是很困難的,它需要對相關文獻和領域知識有充分的瞭解。在得到工具變數後,我們可以用2SLS迴歸來檢驗這個工具變數是否好用,如果好用,處理效果如何。詳情請參考維基百科頁面。

這些就是因果推理的what、why和how。希望本文可以幫助你總結基本概念和技術,感謝您的閱讀。

AI研習社是AI學術青年和AI開發者技術交流的線上社群。我們與高校、學術機構和產業界合作,透過提供學習、實戰和求職服務,為AI學術青年和開發者的交流互助和職業發展打造一站式平臺,致力成為中國最大的科技創新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。