全球1000名科學家組成BigScience，超大NLP模型BLOOM來了！

編輯：拉燕好睏

【新智元導讀】

最近，由1000多位科學家組成的團隊歷時117天，搞出來了個超大的開源NLP模型。

上半年，世界範圍內1000多個科學家聯合搞了個大團隊。

他們將會英勇地團結起來，一起反抗。。。

眾所周知，自然語言處理這一塊的模型和資料庫一直都被科技大廠牢牢地掌握在手裡。從某種程度上講，這算是一種技術壟斷。

這1000個科學家，有搞倫理的，有搞法律的，甚至還有搞哲學的。當然，也不乏來自Meta和谷歌的員工，不過他們都是以個人身份參與進來的。

他們的目的也很簡單，就是要整一個真正像樣的NLP模型——公平，公平，還是**的公平。

新的NLP模型取名叫BOOM，啊不是，是BLOOM。估計是希望這個模型能像花一樣蓬勃綻開吧。

不過，從前期投入來看，也確實應該有底氣。

據統計，來自公共的資助就有價值700萬美元的訓練時間，也就是說，沒有這些機構的幫助，這筆錢就得自己花，才能完成訓練。

順利的話，BLOOM足以和谷歌、OpenAI這種大廠掰掰手腕。而且更關鍵的是，還是開源的。此外，BLOOM將會是同等規模的模型中，第一個多語言模型。

如今，BLOOM在訓練了117天后，終於完事兒了。

算力：蹭了價值300萬歐元的

不過說實在的，NLP大模型已經聽膩了。

畢竟說穿了它就是一種演算法，模型會學習數十億個單詞和短語之間的統計學關聯，然後執行各種任務，包括生成摘要、翻譯、回答問題，以及對文字進行分類等等。

尤其是，BLOOM在引數量上還沒啥突破——為1760億個引數。

具體來說，BLOOM和GPT一樣，使用的是decoder-only架構。

甚至還是從英偉達的Megatron-LM和OpenAI的GPT2那兒改過來的。

它擁有共70層，每層112個的注意力頭（attention head），2048個token的序列長度，並採用了GeLU啟用函式。

同時，BLOOM還使用了13種程式語言，可以說主流的程式語言基本全用了。

資料集方面，BLOOM算得上是多語言模型——其中包括了46種語言。資料集的容量達到了3416億個token，相當於1。5TB的文字資料。

硬體方面，384個A100 GPU用於訓練，每一個都有80GB的記憶體。而一份模型需要48個GPU，每個GPU有60GB的記憶體。訓練的吞吐量大約為150TFLOPs。

團隊預估的訓練時間差不多是3~4個月，誤差取決於訓練過程中吞吐量的變化，以及可能出現的意外。

今年的3月14日，BLOOM正式開始訓練，用的是法國的巴黎郊外設立的Jean Zay國家超算。（感謝法國研究機構CNRS和GENCI提供的價值約300萬歐元的計算撥款。）

經過幾天的最佳化，團隊很快就將訓練速度提到了149-150 TFLOPs/GPU。

有一個非常有意思的點，剛開始模型還在按部就班的訓著，基本保持每天1%的速度，穩步前進。

6月29日的時候，進度條終於到了100%。

就在大家都以為要結束的時候……

進度條在

6月30日

又漲了1%。

網友們也是一臉懵逼，這

都冒頂了，咋還在蹭蹭漲。

好在，最終還是停在了102%。

資料集：自己手搓的才靠譜

雖說這類模型有些時候讓人很滿意，比如說生成詩歌，或是正確回答一些瑣碎的問題等等，但說到底這些模型並不真的理解語言。這正是NLP模型也會生成一堆垃圾出來的原因。

更令人擔憂的是，語言模型還有可能宣揚錯誤的價值觀，比方說種族主義，或是性別歧視。究其原因就是模型並不理解語言，給它塞什麼就學什麼。

眾所周知，資料集是開發模型時非常重要的一環。

Hugging Face的機器學習研究院Yacine Jernite表示，現在存在的大多數模型都是直接從網路上抓取語言，包括Reddit等網站。

而BLOOM卻沒有這麼做。

這群研究人員從500種來源中，人工挑選了341億字的資料集的三分之二。其中包括Semantic Scholar，這是一個AI支援的學術出版物搜尋引擎，其中就包括Nature等頂刊中的內容。

換句話說，BLOOM模型的資料集基本是手搓出來的。

其中，選取資料集的來源是開會討論出來的，同時還參考了其它社群團體的建議，比如非洲NLP社群Masakhane，LatinX in AI和Machine Learning Tokyo。

Jernite表示，我們想保證所有能應用這個模型的人，都能參與到資料集的選擇當中。選取他們國家、他們語言中的內容。（然後引入了科學家自己的主觀偏見）

為此，BigScience團隊使用多語言網路抓取的方式先把資料集的容量拉滿，然後再對資料集的質量進行過濾，並對隱私政策進行了一些調整。

該專案還減少了從色情網站中提取的內容量，這是為了避免最終模型會輸出含有性別歧視的內容。

同時Jernite也承認，BLOOM也不是說一點偏見就沒有了。但是透過向它輸入多文化和高質量的內容，BigScience團隊還是想盡可能的改進現有的模型。

最關鍵的是，正因為模型背後的程式碼和資料集是開源的，每個研究人員都可以進行嘗試，瞭解哪些部分導致最終輸出了負面的內容。這對未來的模型迭代很有好處。

布朗大學的自然語言學習研究院Ellie Pavlick表示，對BLOOM的評估也將和此前的基準不同。除了將BLOOM與其它模型在回答問題的能力等方面作比較以外，研究人員還希望能考察更多的指標。

例如，BLOOM對某些刻板印象的聯想有多強，或者BLOOM對某種特定的語言有多麼的偏向。

Pavlick表示，因為現在BLOOM已經被訓練成多語言模型了，那麼它會對語言有更深的理解。這會幫助它對多樣化任務的概括能力。

同時，Leahy預測，鑑於語言資料集的規模不大，該模型在英語中的表現可能要比其它大模型略遜一點。但是，因為BLOOM在其它方面有別的優勢，Leahy認為這應該能抹平這種差距。

開源：但會隨時調整

亮點來了。

前提到的以往的NLP模型由大廠掌控，所以BigScience團隊才琢磨著要做這麼一件事。

其實NLP模型的訓練過程可以說是大同小異，BLOOM之所以有它獨特的意義，就是因為後續的開源環節。

BLOOM團隊表示，在訓練完畢以後，所有相關研究人員都可以獲得下載BLOOM的許可權，不管是想用它做實驗，或是為了別的目的用新的資料集給它做進一步的訓練，都可以。

但是，下載BLOOM，並且成功讓它跑起來，對硬體能力提出了很高的要求。

現在BLOOM只供一些大一點的研究團隊使用，所以BigScience團隊還沒給小團隊或是個人鋪好路。以後，研發團隊會發布小一點的、對硬體要求低一點的BLOOM版本。

同時，還會開發一個分散式系統，能讓各個實驗室在各自的伺服器上分享模型。

此外，Hugging Face還會發佈一個網頁版應用，能讓任何人都可以使用BLOOM，而無需下載。

除了在AI領域的應用以外，Francesco de Toni還發現了在歷史研究領域的應用。

Toni來自西澳大學，這所大學坐落在澳大利亞珀斯。他是BigScience團隊中的一名語言學家，領導BLOOM的一個小組。

他們發現，BLOOM能夠高效地從大量的歷史資料中提取資訊，而這是任何搜尋引擎都做不到的。

比方說，BLOOM可以從文藝復興時期，商人之間往來的信件中提取所有的人名，或是出現的貨物，以此來研究文藝復興時期的歷史。

在釋出BLOOM的同時，還發布了一份檔案，描述了BLOOM的能力和一些侷限性。

在使用BLOOM之前，還需要簽署一份會不斷更新的法律許可，研究人員必須承諾不會把BLOOM用於惡意，或是不恰當的目的。比如生成假新聞。

Giada Pistilli表示，該團隊會一直監測模型的應用情況，並且會在必要的時候插手干預，調整許可證書和相關檔案的內容。

參考資料：

https：//www。nature。com/articles/d41586-022-01705-z

https：//bigscience。notion。site/BLOOM-BigScience-176B-Model-ad073ca07cdf479398d5f95d88e218c4

https：//mobile。twitter。com/bigsciencellm

全球1000名科學家組成BigScience，超大NLP模型BLOOM來了！

相關文章