Curriculum Labeling:重新審視半監督學習的偽標籤

Curriculum Labeling (CL),在每個自訓練週期之前重新啟動模型引數,優於偽標籤 (PL)

Pseudo-Labeling (PL) 透過將偽標籤應用於未標記集中的樣本以在自訓練週期中進行模型訓練。 Curriculum Labeling (CL)中,應用類似課程學習的原則,透過在每個自學習週期之前重新啟動模型引數來避免概念漂移。該論文釋出在2021 AAAI 。

Curriculum Labeling:重新審視半監督學習的偽標籤

偽標籤 (PL) 簡要回顧

Curriculum Labeling:重新審視半監督學習的偽標籤

偽標籤可以認為是未標記資料的目標類,就好像它們是真正的標籤一樣。偽標籤是透過選取網路為每個未標記樣本預測的最大預測機率的類來實現的。偽標籤使用帶有 Dropout 的微調階段,可以將預訓練的網路以有監督的方式同時使用標記和未標記的資料進行訓練。

Curriculum Labeling (CL)

Curriculum Labeling:重新審視半監督學習的偽標籤

模型在標記樣本上進行訓練。然後該模型用於預測和分配未標記樣本的偽標籤。預測機率分數的分佈用於選擇偽標記樣本的子集。使用標記和偽標記樣本重新訓練新模型。透過使用這個新模型重新標記未標記的樣本來重複這個過程。 當訓練期間使用資料集中的所有樣本時,該過程停止。

Curriculum Labeling:重新審視半監督學習的偽標籤

具體來說,百分位分數用於決定新增哪些樣本。上面的演算法顯示了模型的完整流程,其中percentile (X, Tr)返回第r個百分位的值。r的值從0%到100%以20為單位遞增。當偽標記集包含整個訓練資料樣本(r=100%)時,重複過程終止。

資料由N個有標記的樣例(Xi, Yi)和M個無標記的樣例Xj組成。設H是一組假設H θ,其中H θ∈H,其中H θ∈H表示一個對映X到Y的函式。設Lθ(Xi)表示給定例子Xi的損失。為了選擇具有最低可能誤差的最佳預測器,公式可以用正則化經驗風險最小化(ERM)框架解釋。

下面,L(θ)定義為偽標記正則化經驗損失:

Curriculum Labeling:重新審視半監督學習的偽標籤

上圖的cee為交叉熵

cross entropy

實驗結果

下圖為基於WideResNet-28在CIFAR-10和SVHN上的測試錯誤率

Curriculum Labeling:重新審視半監督學習的偽標籤

下圖為使用CNN-13在CIFAR-10和SVHN上的測試錯誤率

Curriculum Labeling:重新審視半監督學習的偽標籤

CL在CIFAR-10上出人意料地超過了之前基於偽標記的方法和一致性正則化方法。

CL的資料增強是以完全隨機的方式進行的轉換,稱為隨機增強(RA)。在SVHN上,CL方法與以前所有依賴中高度資料增強的方法相比,具有競爭性的測試誤差。

Curriculum Labeling:重新審視半監督學習的偽標籤

測試SSL演算法的一種常見做法是,使用每個類的50、100和200個樣本來改變標記資料的大小。當處理較小的標籤集時CL也不會顯著降低。

Curriculum Labeling:重新審視半監督學習的偽標籤

在ImageNet上,CL以最先進的技術取得了具有競爭力的結果,得分非常接近目前的頂級表現方法。模型為 ResNet-50,使用已標記/未標記資料的10%/90%的訓練分割。

對於標記樣本分佈外的真實評估結果如下:

Curriculum Labeling:重新審視半監督學習的偽標籤

在 Oliver NeurIPS’18 更現實的 SSL 設定中,未標記資料可能與標記資料不共享同一類集。該實驗是透過綜合改變 CIFAR-10 上的類重疊來複制的,這裡只選擇動物類來執行分類(鳥、貓、鹿、狗、青蛙、馬)。

CL 對分佈外的類具有魯棒性,而以前方法的效能顯著下降。 據推測,所提出的自定進度是CL中表現良好的關鍵,其中自適應閾值方案可以幫助在訓練期間過濾分佈外的未標記樣本。

消融研究

標籤的有效性

Curriculum Labeling:重新審視半監督學習的偽標籤

不同的資料增強,如混淆和SWA,在應用傳統的偽標記時,沒有進度,也沒有特定的閾值(即0。0)。只有在對偽標註進行重資料增強時,該方法才能在不使用任何資料擴充的情況下匹配所提出的進度設計。

Curriculum Labeling:重新審視半監督學習的偽標籤

在偽標記 (PL) 中使用的固定閾值,這些閾值用於包含偽標記的未標記資料。 CL能夠產生比傳統的偽標記方法,即使在應用重資料增強時使用固定閾值顯著的收益。

Curriculum Labeling:重新審視半監督學習的偽標籤

只有最有把握的樣本在 CL 中被重新標記。 置信閾值為 0。9 和 0。9995。使用精心挑選的閾值是次優的。

重新初始化與微調的有效性結果如下:

Curriculum Labeling:重新審視半監督學習的偽標籤

重新初始化模型會產生至少 1% 的提升,並且不會給建議的自定進度方法增加顯著的開銷。與微調相反,重新初始化模型確實顯著提高了準確性,展示了一種替代且可能更簡單的解決方案來緩解確認偏差問題。

論文地址:https://avoid。overfit。cn/post/29b1087f7bc145f691ad8ea907717136

作者:Sik-Ho Tsang