煉個BERT花了快1天?谷歌:我這是4810億引數的巨型BERT

機器學習領域權威“跑分”

MLPerf v1.1

訓練榜單已出爐。

這次,在BERT模型的成績表上有一個“異常”的數字:

1196.638

(分鐘),來自谷歌。

煉個BERT花了快1天?谷歌:我這是4810億引數的巨型BERT

怎麼?谷歌訓練一個BERT要接近1天,別家都只要幾分鐘?

煉個BERT花了快1天?谷歌:我這是4810億引數的巨型BERT

NONONO!

這其實是谷歌從未透露的

巨型版本

BERT,引數規模有

4810億

,不是別人只有幾億引數那種的BERT。

它也是谷歌今年在MLPerf“非標準區”提交的一個作品:

一共花了

2048塊

TPUv4,約20小時訓練而成!

煉個BERT花了快1天?谷歌:我這是4810億引數的巨型BERT

△ TPUv4晶片機架,谷歌資料中心

有史以來最大版本的BERT

標準BERT模型(BERT Large)引數規模只有3。4億,而此次4810億的巨型BERT是有史以來最大的一個版本。

這倆之間直接差了

好幾個數量級

而谷歌表示,

訓練大型模型

正是公司的“重中之重”(主要用於雲服務)。

所以此次他們根本沒有參加任何標準分割槽裡的跑分評比,只在非標準區“釋放了自我”。

MLPerf競賽有倆分割槽:

Closed區也就是標準區,參賽商在ResNet-50等規定模型上跑分;

煉個BERT花了快1天?谷歌:我這是4810億引數的巨型BERT

Open區也就是非標準區,參賽商可以嘗試任何規定以外的模型和方法來達到目標效能。

在大多數參賽商都“擠”在標準區訓練小規模的模型時,谷歌員工

“凡爾賽”道

“在短短几秒內‘豪擲’4000塊晶片來訓練巨型BERT才是真的酷(爽)。”

煉個BERT花了快1天?谷歌:我這是4810億引數的巨型BERT

谷歌由此也希望MLPerf基準測試能引進更多的大模型,因為他們覺得現實中才不會像非標準區的參賽作品那樣

用那麼多晶片

來訓練

那麼小

的模型。

而此次的巨型BERT效能也不賴,它的預測準確率為75%,

比MLPerf要求的72.2%要高

同時,和標準區其他參賽商一樣,谷歌也用較少的文字資料樣本來達到目標精度。

具體來說,標準區要求一個程式使用近5億個token序列進行訓練,每個序列的長度大多為128個token。

而Google只使用了大約2000萬個序列,不過每個序列的長度為512token。

另外,完成這次工作的2048塊TPU系統一開始也是為了迎合公司的生產和研發需要,所以它並未“束之高閣”——目前已用於

Google Cloud服務

英偉達在標準區“戰績顯赫”

其餘MLPerf結果,主要在“標準區”,一如既往,

英偉達

戰績最高。

煉個BERT花了快1天?谷歌:我這是4810億引數的巨型BERT

比如它使用最新一代GPU A100的系統在訓練

ResNet-50

花費的時間上包攬前四,其中最快

只需21秒

——比今年6月24秒的最高成績還快。

當然,此戰績一共花了4320個A100,在1080個AMD的EPYC x86處理器的幫助下並行完成。

但在不拼晶片和主機處理器的情況下,競爭對手可就碾壓起英偉達了。

其中

英特爾Habana

用256個Gaudi加速晶片,只需

3.4分鐘

就訓練好ResNet-50。

Graphcore

則只需

3.8分鐘

,用了256塊IPU加速器晶片和32塊AMD EPYC主機處理器。

英偉達

在配備16個EPYC處理器的64路A100系統下,花了

4.5分鐘

打敗了英偉達的Graphcore,則強調自己最看重效能和成本之間的平衡。

煉個BERT花了快1天?谷歌:我這是4810億引數的巨型BERT

就比如Graphcore在16路系統上訓練ResNet-50耗費28分鐘,比英偉達DGX A100系統快一分鐘,但他們用到的POD-16是DGXA100成本的

一半

此次參賽的其他廠商中,

三星

在電子訓練普通版BERT的速度上獲得了第二名,僅為25秒。花了256個AMD晶片和1024個英偉達A100。

微軟的

Azure

雲服務首次參賽,它使用192個AMD EPYC處理器和768個A100在醫療資料上訓練影象分割模型獲得了最高分。

同時Azure也表示後續也會像谷歌那樣在非標準區提交一些成績,雖然微軟和英偉達在此前不久釋出了目前最大的模型

“威震天-圖靈”

,但他們表示:

許多公司希望將人工智慧用於專一目的,而非需要4000塊晶片才能執行的巨型語言模型。

更多評分結果大家可以參考官網資料。