機器學習面試題精選連載(4)——機率論
本期繼續連載數學基礎的最後一部分:機率論,包括基礎概念、似然、最大似然估計、機率分佈衡量等。至此數學基礎知識就介紹完啦,下次開始介紹具體的模型演算法。
《機器學習基礎知識手冊》總結了更多的問題,歡迎訪問github地址:https://github。com/5663015/machine-learning-handbook
機率論基礎概念
排列
:
,
組合
:
聯合機率分佈:多個變數的機率分佈稱為
聯合機率分佈
,
表示
和
同時發生的機率。
邊緣機率:有時我們知道了一組變數的聯合機率分佈,還需要知道其中一個子集的機率分佈,這種定義在子集上的機率分佈稱為
邊緣機率分佈
。對於離散型隨機變數,根據下面的求和法來計算
:
條件機率:在給定
和
發生的
條件機率
為:
全機率公式:若事件
構成一個完備事件組且都有正機率,則對於任一個事件x都有如下
全機率公式:
貝葉斯公式:
貝葉斯公式
是關於隨機事件x和y的條件機率和邊緣機率邊緣機率的:
是後驗機率,
是條件機率或似然
期望:
對於N個離散隨機變數X,其機率分佈為
,X的期望定義為:
對於連續型隨機變數X,機率密度函式為
,則期望為:
期望的性質:
方差:
隨機變數X的方差用來定義它的機率分佈的離散程度,定義為:
方差的性質:
機率和似然的區別與聯絡
機率
表達的是給定
下樣本隨機向量
的可能性,而
似然
表達了給定樣本
下引數
為真實值的可能性。
似然函式的形式是
,其中“|”代表的是條件機率或者條件分佈,因此似然函式是在“已知”樣本隨機變數
的情況下,估計引數空間中的引數
的值,因此似然函式是關於引數
的函式,即給定樣本隨機變數
後,估計能夠使
的取值成為
的引數
的可能性;而機率密度函式的定義形式是
,即機率密度函式是在“已知”
的情況下,去估計樣本隨機變數
出現的可能性。
似然函式可以看做是同一個函式形式下的不同視角。以函式
為例,該函式包含了兩個變數,
和
,如果
已知為2,那麼函式就是變數
的二次函式,即
;如果
已知為2,那麼該函式就是變數b的冪函式,即
。同理,
和
也是兩個不同的變數,如果
的分佈是由已知的
刻畫的,要求估計
的實際取值,那麼
就是
的機率密度函式;如果已知隨機變數
的取值,而要估計使
取到已知
的引數分佈,就是似然函式的目的。
最大似然估計和最大後驗機率的區別
對於函式
有兩種情況:
保持不變,
為變數,此時函式為機率函式,表示的是
出現的機率;
是變數,
是變數,此時為似然函式,表示不同
下
出現的機率
最大似然估計嘗試求解使得
出現機率最高的
。對於m次實驗,由於每次都是獨立的,我們可以將
中每一次實驗結果
的似然函式
全部乘起來,那麼,使得該式取得最大值的
,即為
的最大似然估計:
最大似然估計方法嘗試求解
來最大化似然函式
,顯然計算出來的引數完全取決於實驗結果。最大後驗機率能夠很大程度解決這個問題。該方法嘗試最大化後驗機率
:
是已知的,只需最大化分子部分。和最大化似然的唯一區別是增加了先驗機率
KL散度、JS散度、Wasserstein距離
KL散度
(不對稱),也叫
相對熵
,衡量分佈之間的差異性。KL散度並不是一個真正的距離,KL散度不滿足對稱性(即
)和三角不等式(即不滿足
)
將KL散度展開可得
,其中
為熵,
為
交叉熵
。KL散度實際上衡量的是兩者之間的資訊損失
KL散度的缺點:
無界
不對稱
若兩個分佈無重疊部分可能得到的結果無意義
關於分佈不重合時的情況舉例,對於如下的分佈,P1在AB上均勻分佈,P2在CD上均勻分佈,
控制著兩個分佈的距離遠近。可得:
JS散度
:解決了KL散度非對稱的問題。KL散度和JS散度都有一個問題,即當兩個分佈
和
離得很遠沒有重疊時,KL散度是無意義的,JS散度是個常數。
Wasserstein距離
:
是
分佈組合起來的所有可能的聯合分佈的集合。對於每一個可能的聯合分佈
,可以從中取樣
得到一個樣本x和y,並計算出這對樣本的聚類
,所以可以計算該聯合分佈
下,樣本對距離的期望值
。在所有可能的聯合分佈中能夠取到這個期望值的下界的就是wasserstein距離。直觀上可以理解為在
這個路徑規劃下把土堆
挪到土堆
所需要的消耗。而Wasserstein距離就是在最優路徑規劃下的最小消耗,也叫做Earth-mover距離。
往期回顧:
機器學習面試題精選連載(1)——模型基礎
機器學習面試題精選連載(2)——微積分與線性代數
機器學習面試題精選連載(3)——線性代數