7 Papers | 谷歌量子霸權論文；13項NLP任務奪冠的小模型ALBERT

機器之心整理

參與：一鳴、杜偉

本週重要論文很多，特別是谷歌的研究非常耀眼，有量子霸權論文和引數小 BERT 很多但效能超 XLNe 的模型 ALBERTt。此外還有北大等的論文。

目錄：

Gate Decorator： Global Filter Pruning Method for Accelerating Deep Convolutional Neural Networks

InterpretML： A Unified Framework for Machine Learning Interpretability

ALBERT： A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

Language Models as Knowledge Bases？

Deep Learning For Symbolic Mathematics

Quantum Supremacy Using a Programmable Superconducting Processor

Do Massively Pretrained Language Models Make Better Storytellers？

論文 1：Gate Decorator: Global Filter Pruning Method for Accelerating Deep Convolutional Neural Networks

作者：Zhonghui You、Kun Yan、Jinmian Ye、Meng Ma、Ping Wang

論文連結：https：//arxiv。org/abs/1909。08174

摘要

：對濾波器進行剪枝是一種最為有效的、用於加速和壓縮卷積神經網路的方法。在這篇論文中，來自北大的研究者提出了一種全域性濾波器剪枝的演算法，名為「門裝飾器（gate decorator）」。這一演算法可以透過將輸出和通道方向的尺度因子（門）相乘，進而改變標準的 CNN 模組。當這種尺度因子被設 0 的時候，就如同移除了對應的濾波器。研究人員使用了泰勒展開，用於估計因設定了尺度因子為 0 時對損失函式造成的影響，並用這種估計值來給全域性濾波器的重要性進行打分排序。接著，研究者移除哪些不重要的濾波器。在剪枝後，研究人員將所有的尺度因子合併到原始的模組中，因此不需要引入特別的運算或架構。此外，為了提升剪枝的準確率，研究者還提出了一種迭代式的剪枝架構——Tick-Tock。

圖 1：濾波器剪枝圖示。第 i 個層有 4 個濾波器（通道）。如果移除其中一個，對應的特徵對映就會消失，而輸入 i+1 層的通道也會變為 3。

圖 2：Tick-Tock 剪枝框架圖示。

圖 3：組剪枝展示。同樣顏色的 GBN 屬於同一組。

推薦

：本文是北大和 Momenta 的一篇論文，借用 LSTM 的門控制思想對神經網路進行剪枝，是一種新穎的剪枝方法，讀者朋友可借鑑。

論文 2：InterpretML: A Unified Framework for Machine Learning Interpretability

作者：Harsha Nori、Samuel Jenkins、Paul Koch、Rich Caruana

論文連結：https：//arxiv。org/abs/1909。09223v1

摘要

：InterpretML 是一個為實踐者和研究者提供機器學習可解釋性演算法的開源 Python 軟體包。InterpretML 能提供以下兩種型別的可解釋性：（1）明箱（glassbox），這是針對可解釋性設計的機器學習模型（比如線性模型、規則列表、廣義相加模型）；（2）黑箱（blackbox）可解釋技術，用於解釋已有的系統（比如部分依賴、LIME）。這個軟體包可讓實踐者透過在一個統一的 API 下，藉助內建的可擴充套件視覺化平臺，使用多種方法來輕鬆地比較可解釋性演算法。InterpretML 也包含了可解釋 Boosting 機（Explanable Boosting Machine，EBM）的首個實現，這是一種強大的可解釋明箱模型，可以做到與許多黑箱模型同等準確的效能。

軟體架構和程式碼

推薦

：本文是微軟開源工具的論文，用於幫助人們使用科技史的模型進行機器學習。

論文 3：ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

作者：谷歌團隊

論文連結：https：//openreview。net/pdf？id=H1eA7AEtvS

摘要

：通常而言，在預訓練自然語言表徵時增加模型大小可以提升模型在下游任務中的效能。但在某些情況下，由於 GPU/TPU 記憶體限制、訓練時間延長以及意外的模型退化等原因，進一步增加模型大小的難度也隨之增加。所以，為了解決這些問題，來自谷歌的研究者提出透過兩種引數削減（parameter-reduction）技術來降低記憶體消耗，加快 BERT 的訓練速度。綜合實驗表明，ALBERT 的擴充套件效果要優於原始 BERT。此外，他們還使用了聚焦於句間連貫性建模的自監督損失，並證明這種損失對下游任務中的多語句輸入有持續幫助。ALBERT 模型在 GLUE、RACE 和 SQuAD 基準測試上都取得了新的 SOTA 效果，並且引數量少於 BERT-large。

表 2：本文中用到的 BERT 和 ALBERT 模型配置。

推薦

：雖然大型預訓練語言模型在很多 NLP 任務上取得了進展，但壓縮引數一直是研究者的目標。谷歌團隊這回再次發力，將 BERT 進行了明顯的引數縮減，但依然超越了現有的 SOTA——XLNet 模型。這一論文值得讀者閱讀。

論文 4：Language Models as Knowledge Bases?

作者：Fabio Petroni、Tim Rocktaschel、Patrick Lewis、Anton Bakhtin1Yuxiang Wu、Alexander H。 Miller、Sebastian Riedel

論文地址：https：//arxiv。org/abs/1909。01066v2

摘要

：近來在大型與來哦中預訓練的語言模型幫助 NLP 下游任務提升了效能表現。當學習語言知識的同時，這些模型可能儲存了訓練集中的關聯知識，可以回答一些填空方面的問題。

作為結構化的知識基礎，語言模型有很多優勢：它們不需要抽取工程，使得使用者可以獲得開放的關係類別，也可以容易地擴充套件更多資料，也不需要監督訓練。本文中，研究者探究了一系列 SOTA 語言模型在不微調的情況下作為關係知識表示的能力。

語言模型作為知識表示的方法。

推薦

：本文分析了語言模型作為關係知識表示的能力，為下一步利用預訓練模型進行知識推理和問答的研究提供了一些思路。

論文 5：Deep Learning For Symbolic Mathematics

作者匿名

論文地址：https：//openreview。net/forum？id=S1eZYeHFDS¬eId=S1eZYeHFDS

摘要

：神經網路在解決統計或擬合問題時較計算和解決符號資料更為優秀。在本文中，研究者表明，神經網路在解決一些複雜的數學問題上表現很好，例如符號積分和解決微分方程。研究者提出了一種語法，可以表示這些數學問題，以及一種用於生成大資料集的方法，用於訓練一個 seq2seq 模型。研究者提出的方法在表現上超過了商業代數計算軟體的效能，如 Matlab 或 Mathematica。

推薦

：神經網路強大的擬合能力使其在機器學習中佔有一席之地。本文創新性地使用神經網路擬合數學問題，且計算速度很快。

論文 6：Quantum Supremacy Using a Programmable Superconducting Processor

作者：Eleanor G。 Rieffel

論文地址：https：//drive。google。com/file/d/19lv8p1fB47z1pEZVlfDXhop082Lc-kdD/view

摘要

：量子計算機的誘人前景在於量子處理器上執行某項計算任務的速度要比經典處理器快指數倍，而根本性的挑戰是構建一個能夠在指數級規模的計算空間中執行量子演算法的高保真度處理器。在這篇論文中，谷歌研究者使用具有可程式設計超導量子位元的處理器來建立 53 量子位元的量子態，佔據了 2^53∼10^16 的狀態空間。重複性實驗得到的測量值對相應的機率分佈進行取樣，並利用經典模擬加以驗證。

谷歌的量子處理器大約只需 200 秒即可對量子電路取樣 100 萬次，而當前最優的超級計算機完成同樣的任務大約需要 1 萬年。

圖 1：Sycamore 量子處理器。a。該處理器的佈局，有 54 個量子位元，每個量子位元用耦合器（藍色）與四個最近的量子位元相連；b。 Sycamore 晶片的光學影象。

推薦

：本文昭示著量子計算領域的進一步發展，為量子計算的實際應用奠定了研究基礎。論文依舊是谷歌相關團隊，足見其科研實力強大。

論文 7：Do Massively Pretrained Language Models Make Better Storytellers?

作者：Abigail See、Aneesh Pappu、Rohun Saxena、 Akhila Yerukola、 Christopher D。 Manning

論文地址：https：//arxiv。org/pdf/1909。10705

摘要

：在大量文字上訓練過的大型神經語言模型在很多種 NLP 任務上都取得了很好的表現。但是，這些模型在自然語言生成任務上的能力依然不夠明確。一些線索說明這些模型可以生成高質量文字，但是並沒有關於這些模型生成能力的具體研究。本文中，研究者對比了這些預訓練模型，包括 GPT2-117 和現在的神經故事生成模型。透過多種指標評估生成文字後，研究人員發現了一些可以很好生成故事的模型，以及一些表現不太好的模型。研究人員表示，雖然 GPT2-117 在語境上更好，對事件的順序更敏感，而且使用了更多不常用的詞彙，但是它在使用最大似然解碼演算法時只能生成重複的、沒有多樣性的文字。

不同模型生成的故事文字。

推薦

：預訓練語言模型能講好故事嗎？本文說明：依然不能。故事不僅關乎語法和語序，還有隱式地表意和情感資訊和額外的先驗知識作為基礎。目前很多文字生成的模型僅僅只是繼續續寫文字而已，它們既沒有理解文字的含義，也無法組織起連貫有趣的語言。

7 Papers | 谷歌量子霸權論文；13項NLP任務奪冠的小模型ALBERT

相關文章