機器學習面試題精選連載(4)——機率論

本期繼續連載數學基礎的最後一部分:機率論,包括基礎概念、似然、最大似然估計、機率分佈衡量等。至此數學基礎知識就介紹完啦,下次開始介紹具體的模型演算法。

《機器學習基礎知識手冊》總結了更多的問題,歡迎訪問github地址:https://github。com/5663015/machine-learning-handbook

機率論基礎概念

排列

組合

聯合機率分佈:多個變數的機率分佈稱為

聯合機率分佈

表示

同時發生的機率。

邊緣機率:有時我們知道了一組變數的聯合機率分佈,還需要知道其中一個子集的機率分佈,這種定義在子集上的機率分佈稱為

邊緣機率分佈

。對於離散型隨機變數,根據下面的求和法來計算

條件機率:在給定

​發生的

條件機率

為:

全機率公式:若事件​

構成一個完備事件組且都有正機率,則對於任一個事件​x都有如下

全機率公式:

貝葉斯公式:

貝葉斯公式

是關於隨機事件x和y的條件機率和邊緣機率邊緣機率的:

​是後驗機率,​

是條件機率或似然

期望:

對於N個離散隨機變數X,其機率分佈為​

,X的期望定義為:

對於連續型隨機變數X,機率密度函式為

​,則期望為:

期望的性質:

方差:

隨機變數X的方差用來定義它的機率分佈的離散程度,定義為:

方差的性質:

機率和似然的區別與聯絡

機率

表達的是給定

下樣本隨機向量

的可能性,而

似然

表達了給定樣本

下引數

為真實值的可能性。

似然函式的形式是

,其中“|”代表的是條件機率或者條件分佈,因此似然函式是在“已知”樣本隨機變數

的情況下,估計引數空間中的引數

的值,因此似然函式是關於引數

的函式,即給定樣本隨機變數

後,估計能夠使

的取值成為

的引數

的可能性;而機率密度函式的定義形式是

,即機率密度函式是在“已知”

的情況下,去估計樣本隨機變數

出現的可能性。

似然函式可以看做是同一個函式形式下的不同視角。以函式

​為例,該函式包含了兩個變數,​

​,如果

​已知為2,那麼函式就是變數​

的二次函式,即​

;如果​

已知為2,那麼該函式就是變數b的冪函式,即

​。同理,​

和​

也是兩個不同的變數,如果​

的分佈是由已知的​

刻畫的,要求估計​

的實際取值,那麼

​就是​

的機率密度函式;如果已知隨機變數​

的取值,而要估計使​

取到已知​

的引數分佈,就是似然函式的目的。

最大似然估計和最大後驗機率的區別

對於函式

​有兩種情況:

​保持不變,

​為變數,此時函式為機率函式,表示的是

​出現的機率;

​是變數,

​是變數,此時為似然函式,表示不同​

下​

出現的機率

最大似然估計嘗試求解使得

出現機率最高的

。對於m次實驗,由於每次都是獨立的,我們可以將

中每一次實驗結果

的似然函式

全部乘起來,那麼,使得該式取得最大值的

,即為

的最大似然估計:

最大似然估計方法嘗試求解

來最大化似然函式

,顯然計算出來的引數完全取決於實驗結果。最大後驗機率能夠很大程度解決這個問題。該方法嘗試最大化後驗機率

是已知的,只需最大化分子部分。和最大化似然的唯一區別是增加了先驗機率

KL散度、JS散度、Wasserstein距離

KL散度

(不對稱),也叫

相對熵

,衡量分佈之間的差異性。KL散度並不是一個真正的距離,KL散度不滿足對稱性(即

)和三角不等式(即不滿足

將KL散度展開可得

,其中

為熵,

交叉熵

。KL散度實際上衡量的是兩者之間的資訊損失

KL散度的缺點:

無界

不對稱

若兩個分佈無重疊部分可能得到的結果無意義

關於分佈不重合時的情況舉例,對於如下的分佈,P1在AB上均勻分佈,P2在CD上均勻分佈,

控制著兩個分佈的距離遠近。可得:

機器學習面試題精選連載(4)——機率論

JS散度

:解決了KL散度非對稱的問題。KL散度和JS散度都有一個問題,即當兩個分佈

離得很遠沒有重疊時,KL散度是無意義的,JS散度是個常數。

Wasserstein距離

​是​

分佈組合起來的所有可能的聯合分佈的集合。對於每一個可能的聯合分佈​

,可以從中取樣​

得到一個樣本​x和y​,並計算出這對樣本的聚類​

,所以可以計算該聯合分佈

​下,樣本對距離的期望值​

。在所有可能的聯合分佈中能夠取到這個期望值的下界的就是wasserstein距離。直觀上可以理解為在

​這個路徑規劃下把土堆​

挪到土堆

​所需要的消耗。而Wasserstein距離就是在最優路徑規劃下的最小消耗,也叫做Earth-mover距離。

往期回顧:

機器學習面試題精選連載(1)——模型基礎

機器學習面試題精選連載(2)——微積分與線性代數

機器學習面試題精選連載(3)——線性代數