NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

平均分配演算法有幾種

允中 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

要說自然語言處理領域當今最fashion的“神兵”,恐怕非預訓練語言模型莫屬。

2018年BERT橫空出世,那真可謂是打開了NLP新世界的大門。

且在這條預訓練+微調的修行之路上,各路高手那叫一個百花齊放,各領風騷。

你看XLNet才把BERT從榜單之巔拉下馬,那廂RoBERTa便進一步“榨乾”BERT效能,重歸榜首。

還不僅僅是西方選手輪番登臺,文心ERNIE等東方身影也不乏精彩表現。

NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

所以這兩年多以來,都有哪些模型表現可圈可點?

今天,諸位看官便不妨隨我盤點一番~

且看GLUE兵器譜

如果把預訓練語言模型都比喻成兵器,那江湖上自有“百曉生兵器譜”,能給它們排個一二三四五。

GLUE就是自然語言處理領域的權威排行榜之一。

該榜單由紐約大學、華盛頓大學、DeepMind等機構聯合推出,一直以來被視作評估NLP研究進展的行業標準。

NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

因此,這GLUE榜首之爭,那真是相當的激烈。能夠奪魁的“神兵”,自然也各有各的文章。

玄鐵重劍 BERT

就說這

BERT

,甫一亮相,就以

預訓練+微調

的2-Stage模式,直接將GLUE基準拉高7。7%,端的是驚豔了眾NLP開發者。

NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

具體而言,BERT是基於Transformer的深度雙向語言表徵模型。預訓練模型只需要增加一個輸出層就可以進行微調,從而適應更廣泛的新任務。

這種概念上的簡練,正可謂是重劍無鋒,大巧不工。

鴛鴦劍 XLNet

BERT雖好,但缺點也不是沒有。比如預訓練時的MASK標記在微調時並不會被看到,會產生忽略兩個實體之間關聯的情況,產生預訓練-微調差異。

自迴歸模型可以避免這樣的問題。於是,“鴛鴦劍”XLNet就登場了——這是一個雙向特徵表示的自迴歸模型。

NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

並且,作為一個泛化自迴歸語言模型,XLNet不依賴殘缺資料。

倚天劍 RoBERTa

不過就在XLNet“霸榜”一個月之後,BERT的強勢繼承人就出現了。

Facebook把BERT改進了一番,進一步“榨乾”了BERT的效能,以RoBERTa之名重回巔峰。那架勢恰是“倚天一出,誰與爭鋒”。

簡單來說,RoBERTa主要做了這樣的修改:更長的訓練時間,更大的batch,更多的資料……

NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

單從資料來看,原始的BERT使用了13GB大小的資料集,而RoBERTa使用了包含6300萬條英文新聞的

160GB

資料集。

而在訓練時間上,RoBERTa需要使用1024個英偉達V100訓練大約1天的時間。

說到這,諸位看官可能會問,那咱們國內的“兵器”們,可曾榜上留名,與這些西方名兵交映生輝啊?

答案是肯定的。

屠龍刀 文心ERNIE

百度家大名文心的二妮(ERNIE),就在最近再奪榜首。

NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

“屠龍寶刀”鋒利之極,無堅不摧。而文心ERNIE的鋒利之處,在於能融合大規模知識持續學習進化,久經打磨而其刃不卷。

這已經不是“國貨之光”ERNIE第一次登頂GLUE。

NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

2019年12月,文心ERNIE就在GLUE

首次

突破90分大關,甚至超越人類3個百分點,創下榜單新紀錄。

此後2020年,文心ERNIE又在語言生成、跨模態理解、多語言理解等方向取得突破,先後提出了ERNIE-GEN、ERNIE-VIL、ERNIE-M等模型,取得10餘項SOTA,登頂各方向權威評測的榜首。比如在全球規模最大的語義評測比賽SemEval 2020中,文心ERNIE就一口氣斬獲5項世界冠軍。ERNIE 2。0論文被Paper Digest團隊評為國際人工智慧頂級學術會議AAAI 2020最具影響力的學術論文。文心ERNIE還獲得2020年度中國人工智慧學會優秀科技成果、2020世界人工智慧大會最高榮譽SAIL(Super AI Leader)大獎等。

那麼,取得如此多驕人的戰績,文心ERNIE又有何獨家鍛造秘方?

NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

文心ERNIE因何登頂NLP兵器譜?

文心ERNIE基於預訓練-微調架構,開創性地將大資料預訓練與多源豐富知識相結合,透過持續學習技術,不斷吸收海量文字資料中詞彙、結構、語義等方面的新知識,實現模型效果不斷進化,如同人類持續學習一樣。

如今登頂GLUE榜首的是ERNIE二代目,它的預訓練過程分為兩個步驟:

構建無監督預訓練任務學習不同維度的知識

透過多工學習實現不同任務的持續訓練

在這個過程中,不同的任務會被有序地加入ERNIE,透過持續多工學習,使得模型在學習新任務時不會遺忘此前學到的知識。

而對於不同的特定應用任務,文心ERNIE 2。0會使用具體的任務資料微調。

NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

說到此次二代目能在激烈競爭中奪魁的核心秘技,則是

層次化學習

這是一種新的學習正規化,其中包含了2個學習層次,分別對應“內功”和“外功”。

內功(內層學習)主要是圍繞詞法、結構、語義3個方面知識構建的預訓練任務。

這也是文心ERNIE首次登頂GLUE時就已採用的核心技術。

這裡也不妨簡單舉例說明一下。

在詞法層面,以知識掩碼任務為例。

文心ERNIE 1。0模型透過對海量資料中的詞、實體等先驗語義知識的掩碼,學習完整概念的語義表示。相較於 BERT 學習原始語言訊號,ERNIE 直接對先驗語義知識單元進行建模,增強了模型的語義表示能力。到了文心ERNIE 2。0,則使用其作為一個預訓練任務。

NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

在結構層面,句子排序任務就是其中之一。

句子之間的順序反映了它們之間的邏輯順序以及時間順序。文心ERNIE 2。0構建了句子排序預訓練任務:在訓練過程中,隨機將一個段落中的N個句子打亂,讓模型在N! 的類別中預測正確的順序。透過該技術使模型學習了文章結構中所蘊含的豐富知識。

NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

在語義層面,以其中的邏輯關係預測任務為例:

要想對語義資訊進行更加精細化的建模,短句之間連詞表達出的邏輯關係是關鍵。因此,文心ERNIE 2。0使用短句間的連詞構造無監督的關係分類任務,學習句子之間細粒度的邏輯語義知識。

如下圖所示:

NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

內功之外,再說外功。外功(外層學習)是模型結構與規模的精細化階段性學習:

從第一階段採取迴圈共享引數Transformer結構,到第二階段進行逐層結構展開,到最後完全展開成非共享結構。

NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

如此帶來的訓練收益,包括以下幾個方面:

首先,平滑的模型引數展開訓練方法,解決了大規模Post-LN(層歸一化後置,即Layer Norm在Residual之後)收斂不穩定的問題。

其次,透過不斷展開模型的引數,模型的神經元引數規模逐步增加,文心ERNIE能夠順利地吸收規模越來越大的知識輸入,進而提升模型學習能力的上限。

與此同時,文心ERNIE神經元在擴大的過程中,引入了百度飛槳自研的Hybrid Sharding分散式訓練演算法。

該演算法透過在單位通訊單元中平均分配網路引數和梯度資料,巧妙避開了網路開銷瓶頸,能充分利用硬體優勢進行同步通訊。

這也使得百億引數規模的模型訓練成為可能,訓練時間大幅降低。

這把神兵,你也能用

說了這麼多,各位看官想來已等得心焦,迫不及待想問那個關鍵問題:

能不能直接體驗效果?

那!是!當!然!

NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

好訊息是,百度已經發布了文心ERNIE語義理解平臺。

該平臺集文心ERNIE預訓練模型集、全面的NLP演算法集、端到端開發套件和平臺服務於一體,提供一站式NLP開發與服務,幫助開發者更簡單、高效地定製NLP模型。

近日,平臺重點推出了文心ERNIE NLP開發套件

專業版

旗艦版

在專業版中,就預置了大家期盼已久的文心ERNIE2。0預訓練模型,面向專業的學術和產業開發需求提供語義理解能力。

旗艦版則面向工業級應用場景,提供最全面的預訓練模型庫和演算法集,並支援金融、媒體等場景化應用。

根據實驗結果,在機器閱讀理解、命名實體識別、自然語言推斷、語義相似度、情感分析和問答等9項任務上,文心ERNIE 2。0效能均大幅超過BERT。

NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

同時,專業版開發套件還配套了多種NLP經典演算法網路,支援文字分類、短文字匹配、序列標註和閱讀理解等典型文字處理任務。

基本上,從資料預處理到模型訓練,再到模型的預測均可一站體驗。

想要試試的話,直接戳進文末文心ERNIE官網,申請下載即可。

NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

說起來,兩度登頂GLUE,刷榜各大榜單,在國產預訓練“兵器”裡,文心ERNIE還是第一個。

不過,縱觀GLUE榜單,就會發現以ERNIE為首,越來越多made in China的神兵利器,都在不斷突破,書寫自己的篇章。

NLP玩得溜,「兵器」得趁手:GLUE排行第一那種,瞭解下?

也正是在開放共享的氛圍之中,中國的NLP力量已悄然發展、壯大,走向了世界舞臺中央。

那麼,要來體驗一下嗎?

文心ERNIE官網:

https://wenxin。baidu。com/wenxin/sdk

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態