語言模型的冰山一角：微調是不必要，AI21 Labs探索凍結模型未開發潛力

選自arXiv

作者：Yoav Levine等

機器之心編譯

機器之心編輯部

來自 AI21 Labs 這項研究表明，微調通常是一種不必要的浪費，關鍵是找到站在大型凍結語言模型的肩膀上的最佳方式。

目前，最佳化給定 NLP 任務效能的最佳方法通常是微調預訓練語言模型（LM）。然而這樣做的一個副作用是，其他任務的效能會隨之下降。

近年來，巨型預訓練語言模型（LM）在各種任務中展示出了令人驚訝的零樣本能力，使得眾多研究者產生這樣一個願景，即單一的、多功能模型可以在不同的應用程式中得到廣泛應用。然而，當前領先的凍結（frozen）LM 技術，即保持模型權重不變，效能卻不如以任務相關方式修改權重的微調方法。反過來，如果研究者能夠忍受模型遺忘與損害多功能性，還需要考慮效能和多功能性之間的權衡。

來自 AI21 Labs 的研究者撰文《 STANDING ON THE SHOULDERS OF GIANT FROZEN LANGUAGE MODELS 》，論文的主要資訊是，當前的凍結模型技術（例如 prompt tuning）只是冰山一角，那些更強大的方法利用凍結 LM 技術可以在具有挑戰性的領域中進行微調，而不會犧牲底層模型的多功能性。

為了證明這一點，作者介紹了三種利用凍結模型的新方法：依賴輸入提示調優（input-dependent prompt tuning）；凍結閱讀器（frozen readers）；迴圈語言模型（recursive LM），每種方法都大大改進了當前的凍結模型方法。事實上，作者的部分方法甚至在目前其主導的領域中優於微調方法。每種方法的計算成本都高於現有的凍結模型方法，但相對於單次透過一個巨大的凍結 LM 仍然可以忽略不計。這些方法中的每一種本身都構成了有意義的貢獻，但是透過將這些貢獻放在一起，該研究旨在讓讀者相信一個更廣泛的資訊，該資訊超出了任何給定方法的細節：凍結模型具有未開發的潛力，微調通常是不必要的。

論文地址：https：//arxiv。org/pdf/2204。10019。pdf

一般來講，對大型 LM 進行微調通常可以獲得出色的效能，但這種方法訓練代價昂貴。這篇論文表明，存在一個更好的替代方案：凍結一個單一的、巨大的預訓練 LM，並學習更小的神經模組，可將 LM 專門用於不同的任務。

更重要的是，這項研究表明可以將大型 LM 應用於實際問題，在這個階段中，特定任務的神經中間模組的設計將會取代微調。其結果將是，微調通常是一種不必要的浪費，而關鍵是找到站在大型凍結語言模型的肩膀上的最佳方式。

依賴輸入提示調優

本節中，研究者提出了一種稱為依賴輸入提示調優（ID-PT）方法，可用於在保持凍結狀態的同時對 LM 進行大規模多工處理。ID-PT 用來訓練一個非常小的外部網路，該網路接收來自眾多精選資料集之一作為輸入，並動態建立一個神經提示，使凍結的 LM 為處理這個輸入做好準備（參見圖 1）。

該研究使用 Sanh 等人的訓練集進行了實驗，並與他們的模型進行比較，這兩者都是公開可用的。該研究在凍結了 7B 引數的 J1-Large 模型上執行了 ID-PT，並在僅對一半的訓練示例進行訓練後達到了 Sanh 等人的微調 11B 引數 T0++ 模型的效能。這表明無需微調，LM 也能取得較好的結果。維護和服務單個凍結的 LM 作為主幹，並執行 ID-PT 以在不同的任務套件上對其進行外部調整。此外，正如在後面部分中展示的那樣，這啟用了一個新的工作流程，透過部署單個巨大的 LM 來支援各種不同的 NLP 應用程式。

ID-PT 架構如圖 2 所示，它由 3 個元件組成：（1）凍結基於 T5 的編碼器；（2）一個學習提示，用於在提示生成器中提示調優凍結 T5 編碼器的功能（總共 330K 學習引數）；（3）一個學習的交叉注意力網路，將 T5 編碼器的可變長度輸出序列（長度等於輸入 x 的長度）轉換為固定長度的提示 p （x）。

表 1 顯示了每個任務叢集以及跨資料集的 ID-PT + J1-Large 和 T0++ 的平均測試集分數。這兩個模型看起來相當，在一些任務叢集上表現出較小的效能差異，而另一些則表現出更高的方差：ID-PT + J1-Large 在情感和釋義任務叢集中表現更好，而 T0++ 在結構 - 文字和摘要任務叢集中優於 ID-PT + J1-Large。總體而言，ID-PT + J1-Large 在跨資料集的測試分數平均值中略超過 T0++ 的表現。

圖 3 顯示了該研究在訓練期間不同點觀察到的 ID-PT + J1-Large 的平均開發集分數：

凍結閱讀器

依賴於小型檢索增強閱讀器的一個固有缺點是，它們沒有大型 LM 的世界知識或推理能力。因此，需要將強大的監督學習檢索與大型 LM 結合。為了解決這個問題，該研究使用了一個外部重排序（external re-ranking）模組，以增加在適合凍結 LM 的上下文視窗的少量通道中獲得答案的機會。雖然檢索器相關性分數是根據問題和段落的單獨密集表示來計算的，但重排序器會在聯合處理問題和文章後預測每個文件的相關性分數。提示調優凍結的 LM 以從出現在其上下文中的重排序的文件中提取答案。

表 2 顯示了在將文件打包到 LM 的上下文視窗中時使用重排序器的實用性。當使用 DPR 作為檢索系統時，該研究將 LM 輸入的召回率（即答案出現在凍結 LM 的上下文視窗中的問題的百分比）從 77。2% 提高了到 80。4%，從而將下游效能（透過精確匹配衡量）提高 2。1 個百分點（從 46。6% 到 48。7%）。同樣，該研究觀察到在利用 Spider+BM25 等更強大的檢索器時，重新排名可以獲得顯著收益。

表 3 顯示了該系統在 NQ 測試集上與各種生成基線對比結果。凍結 J1-Grande-17B 閱讀器獲得了最好的結果，超越 FiD 模型得分。

總體來說，該結果表明巨大的凍結語言模型可作為 ODQA 的優秀閱讀器，也不會落後於更精細的、突出的、經過微調的閱讀器。

將迴圈應用於凍結 LM 模型

現有的基於 Transformer 的 LM 的應用程式只通過 LM 執行一次給定輸入。儘管這是一種很自然的選擇，在大部分其他 DNN 應用程式中，研究者從 LM 設計模式的差異中找到了機會。由於 LM 的輸入和輸出空間都使用的是自然語言，而且由於相同的 LM 可以提供多種功能，因此原則上可以將 LM 重新應用到自己的輸出中，這種操作被稱為「LM 迴圈」。

在這一部分，研究者提出了兩種不同的方法將該思路付諸實踐（圖 5），並給出了實驗證據，證明每一種方法都可以產生顯著的收益。在第 4。1 節中，提供了一種文字方法，其中輸出文字在第一次透過凍結 LM 並重新插入相同的凍結 LM 之後進行取樣。在第 4。2 節中，提出了一種神經方法，在這種方法中，一個可訓練的小型網路透過相同的凍結 LM 將凍結 LM 輸出處的向量表徵對映到下一次迭代的向量表徵輸入。

圖 5：（a） Prompt 調優使一次透過凍結的 LM；（b）文字迴圈 LM 方法（Section 4。1）使用凍結的 LM 一次取樣 n 個候選答案，然後再次取樣正確的答案；（c）神經迴圈 LM 方法（Section 4。2）涉及一個訓練好的聯結器，該聯結器將第一個 LM 關口的輸出嵌入轉換為第二個 LM 關口的輸入嵌入。藍色表示「凍結」，未經訓練的模組；橙色代表訓練過的模組。

在 closed-book 設定的開放域問答上，研究者評估了 LM 迴圈方法，其中重點關注了 Natural Questions benchmark （Kwiatkowski et al。， 2019）。研究者用 7B 引數的 LM J1-Large 進行了實驗，結果表明，透過模型的兩次迭代，這兩種方法都比傳統的凍結模型方法（只使用一次凍結模型）獲得了實質性收益，而且神經迴圈 LM 的效能優於文字迴圈 LM。

值得注意的是，透過兩次迭代 7B 引數模型，神經迴圈 LM 模型接近了 17B 引數 LMJ1-Grande 單次透過的效能。

透過迴圈地將 LM 應用於其自身的輸出來提高效能，這一前景有可能變成為服務於 LM 的商業化遊戲規則改變者。如果一個 LM 在某項任務上的表現不令人滿意，現有的垂直效能改進就是預訓練一個更大的 LM。然而，預訓練越來越大的 LM 很快就變得昂貴起來，而且即使在評估時間部署巨大的模型也是昂貴的。此外，只有在某些任務或任務中的某些輸入時才需要改進效能。透過在自身輸出上重新應用現有的 LM 進行改進，只需要單次前向透過成本的一半，或者在需要時獲得雙倍的計算量，這是一個比預訓練更集中、成本更低的選擇，並部署一個規模為原來兩倍的模型。

原標題：《語言模型的冰山一角：微調是不必要， AI21 Labs探索凍結模型未開發潛力》

語言模型的冰山一角：微調是不必要，AI21 Labs探索凍結模型未開發潛力

相關文章