機器學習面試題精選連載（4）—

本期繼續連載數學基礎的最後一部分：機率論，包括基礎概念、似然、最大似然估計、機率分佈衡量等。至此數學基礎知識就介紹完啦，下次開始介紹具體的模型演算法。

《機器學習基礎知識手冊》總結了更多的問題，歡迎訪問github地址：https：//github。com/5663015/machine-learning-handbook

機率論基礎概念

排列

：

，

組合

：

聯合機率分佈：多個變數的機率分佈稱為

聯合機率分佈

，

表示

和

同時發生的機率。

邊緣機率：有時我們知道了一組變數的聯合機率分佈，還需要知道其中一個子集的機率分佈，這種定義在子集上的機率分佈稱為

邊緣機率分佈

。對於離散型隨機變數，根據下面的求和法來計算

：

條件機率：在給定

和

發生的

條件機率

為：

全機率公式：若事件

構成一個完備事件組且都有正機率，則對於任一個事件x都有如下

全機率公式：

貝葉斯公式：

貝葉斯公式

是關於隨機事件x和y的條件機率和邊緣機率邊緣機率的：

是後驗機率，

是條件機率或似然

期望：

對於N個離散隨機變數X，其機率分佈為

，X的期望定義為：

對於連續型隨機變數X，機率密度函式為

，則期望為：

期望的性質：

方差：

隨機變數X的方差用來定義它的機率分佈的離散程度，定義為：

方差的性質：

機率和似然的區別與聯絡

機率

表達的是給定

下樣本隨機向量

的可能性，而

似然

表達了給定樣本

下引數

為真實值的可能性。

似然函式的形式是

，其中“|”代表的是條件機率或者條件分佈，因此似然函式是在“已知”樣本隨機變數

的情況下，估計引數空間中的引數

的值，因此似然函式是關於引數

的函式，即給定樣本隨機變數

後，估計能夠使

的取值成為

的引數

的可能性；而機率密度函式的定義形式是

，即機率密度函式是在“已知”

的情況下，去估計樣本隨機變數

出現的可能性。

似然函式可以看做是同一個函式形式下的不同視角。以函式

為例，該函式包含了兩個變數，

和

，如果

已知為2，那麼函式就是變數

的二次函式，即

；如果

已知為2，那麼該函式就是變數b的冪函式，即

。同理，

和

也是兩個不同的變數，如果

的分佈是由已知的

刻畫的，要求估計

的實際取值，那麼

就是

的機率密度函式；如果已知隨機變數

的取值，而要估計使

取到已知

的引數分佈，就是似然函式的目的。

最大似然估計和最大後驗機率的區別

對於函式

有兩種情況：

保持不變，

為變數，此時函式為機率函式，表示的是

出現的機率；

是變數，

是變數，此時為似然函式，表示不同

下

出現的機率

最大似然估計嘗試求解使得

出現機率最高的

。對於m次實驗，由於每次都是獨立的，我們可以將

中每一次實驗結果

的似然函式

全部乘起來，那麼，使得該式取得最大值的

，即為

的最大似然估計：

最大似然估計方法嘗試求解

來最大化似然函式

，顯然計算出來的引數完全取決於實驗結果。最大後驗機率能夠很大程度解決這個問題。該方法嘗試最大化後驗機率

：

是已知的，只需最大化分子部分。和最大化似然的唯一區別是增加了先驗機率

KL散度、JS散度、Wasserstein距離

KL散度

（不對稱），也叫

相對熵

，衡量分佈之間的差異性。KL散度並不是一個真正的距離，KL散度不滿足對稱性（即

）和三角不等式（即不滿足

）

將KL散度展開可得

，其中

為熵，

為

交叉熵

。KL散度實際上衡量的是兩者之間的資訊損失

KL散度的缺點：

無界

不對稱

若兩個分佈無重疊部分可能得到的結果無意義

關於分佈不重合時的情況舉例，對於如下的分佈，P1在AB上均勻分佈，P2在CD上均勻分佈，

控制著兩個分佈的距離遠近。可得：

JS散度

：解決了KL散度非對稱的問題。KL散度和JS散度都有一個問題，即當兩個分佈

和

離得很遠沒有重疊時，KL散度是無意義的，JS散度是個常數。

Wasserstein距離

：

是

分佈組合起來的所有可能的聯合分佈的集合。對於每一個可能的聯合分佈

，可以從中取樣

得到一個樣本x和y，並計算出這對樣本的聚類

，所以可以計算該聯合分佈

下，樣本對距離的期望值

。在所有可能的聯合分佈中能夠取到這個期望值的下界的就是wasserstein距離。直觀上可以理解為在

這個路徑規劃下把土堆

挪到土堆

所需要的消耗。而Wasserstein距離就是在最優路徑規劃下的最小消耗，也叫做Earth-mover距離。

往期回顧：

機器學習面試題精選連載（1）——模型基礎

機器學習面試題精選連載（2）——微積分與線性代數

機器學習面試題精選連載（3）——線性代數

機器學習面試題精選連載（4）——機率論

相關文章