今年的海德堡論壇，Raj Reddy、Sanjeev Arora、LeCun 與 Bengio 都講了些什麼？

作者 | AI 科技評論

編輯 | 陳彩嫻

隨著算力的日益提高和研究的不斷積累，深度學習的發展已經走向應用，給各行各業帶來了深刻的影響。如何從模型的設計和部署兩方面讓 AI 更加向善，這是構建深度學習工具和使用工具的人都需要考慮的問題。

在這樣的背景下，

三點陣圖靈獎獲得者 Raj Reddy、Yoshua Bengio、Yann LeCun 和 2011 年 ACM 計算獎得主 Sanjeev Arora，

以及多位學者，在今年九月舉辦的第九屆海德堡獲獎者論壇上帶來了一場關於

深度學習的應用與影響

的討論。

深度學習的概念在變化

深度學習

我覺得有一個很籠統的定義，即

透過組裝那些函式沒有被完全定義的組塊來組裝一個機器，然後透過使用梯度下降最小化某種目標函式來解決這些函式。

這個籠統的定義適用於很多情況，不僅僅是神經網路，並且可能還與上世紀 50 年代的單一處理（single processing）和模式識別有共通之處。

這些年來，深度學習的概念已經有所演變，也的確有人提議重新予以命名。

可微分程式設計（differentiable programming）

這個概念可以被泛化地理解為深度學習，其含義是編寫一個程式，其中函式呼叫不被完全定義，而是在訓練中加以調整。

的概念在變化

我以前研究演算法和計算複雜性，大約在 2011 年，就在深度學習爆發的前一年，我轉向了機器學習。

LeCun 剛才談到的正規化是，

你有一個成本函式（cost fucntion），並在過程中加以調整，這就是深度學習。

問題是，成本函式並不能真正確定神經網路所做的事情，從相同的成本函式中，你也可以獲得其他很多東西。所以這種正規化並不總是受到認可。現在它在理論上已經被證明了，其實是演算法的

隱式偏差。

目前我們還不清楚最底層發生了什麼，所以我認為，

如果僅使用成本函式來推理深度網路，可能是錯誤的，我們需要更多地瞭解黑箱內部所發生的事情。

理想情況下，我們為此需要一個更廣泛的關於訓練演算法的隱式偏見的理論。因為訓練演算法、架構和成本函式組合在一起，才帶來了我們所看到的結果。我們並未掌握完整的理論，但這種理論是十分重要的，因為當前我們使用深度學習的主要方式是在無標籤資料的情況下訓練模型，然後泛化到其他任務。這種方式不適用於任何現有的理論框架。所以我們必須真正深入黑箱。

Yann LeCun：

我們有兩種理解機器學習的方式。一種是關於使用訓練、演算法、架構和成本函式；另一種是將機器學習理解為建立一個模型。模型是一種描述世界的方式，包括資料是如何生成的、我們如何觀察資料、我們期望看到什麼樣的預測，這種方式我稱之為「推理」（inference）。

如何將資料轉化為更新引數的方式？對於任何推理方法，研究統計或機率的人通常使用的一種方法是最大似然。對於我們所使用的任何一種模型結構，都可得到一種演算法。深度學習的魔力在於基於組合性、遞迴性、架構深度、特定型別的損失函式、梯度下降演算法，對特定型別的模型進行特定的選擇。

所以我認為，那些對機率感興趣、做推理思考的人應該把分解作為其分析工具，即對於以下問題做分解：

你正在建立的是什麼模型？為什麼要建立這個模型？將資料轉化為見解的推理過程是什麼？你實際使用的演算法是什麼？

對於所有這些問題中的每一個，你都可以將其視為一個物件，對其做分析、做理論研究或是實證檢驗。或者你也可以將其放在一起研究。

我認為這種模型非常有用，它將機器學習理解為一個廣泛的領域。機器學習並不僅僅是獲取資料、跑程式碼、使用 scikit-learn、做一些預測，要關心我們真正在做的是什麼。

Sanjeev Arora：

Shakir Mohamed：

Yoshua

我非常同意 Shakir 和 Sanjeev 的觀點。我想強調的是，我們需要對我們在各種深度學習實現和架構中投入的歸納偏差有更多有意識的理解。理想情況下，在設計階段，我們應當考慮函式或分佈空間中的偏好是什麼，並將這些偏好引入到目標函式之外的學習中。這對設計下一代深度學習系統也有意義。

深度學習經常被吐槽的一個點是它的推理能力。有一種觀點認為，深度學習不能像人類那樣做真正的推理，因為人類使用的是大腦中的某些神經網路。我同意，但我相信，可以

透過引入歸納偏差，將結構融入這些架構和物件中，從而引發類似於人類的推理。

Bengio

：

深度學習的推理能力

提問：

我從事自動駕駛系統和自動駕駛汽車方面的工作，我

有

我回答第二個問題。將原始資料、感官資料轉換為符號表示或者符號類別或序列。這就是深度學習擅長的。但它仍然不完美，因為它可能非常脆弱，因為通常如果它透過監督執行的訓練，它將被訓練用於特定任務。而就在這個任務之外，它不會工作得特別好。

我們還不太清楚我們是如何讓深度學習系統做推理的，目前有很多研究，實際上我寫了一篇關於觀點論文，幾個月前放在了網上，試圖解決

讓推理與深度學習相相容

的問題。

論文地址：https：//openreview。net/pdf？id=BZ5a1r-kVsf

因為深度學習是一種非常強大的技術，我們需要

讓機器去學習世界模型並獲得常識。

兩個問題，一是機器學習技術的可轉化性，另一個問題是如何把由感知系統產生的具體知識與符號知識聯絡起來？自動駕駛汽車如何避免感知系統錯誤，比如變化的交通燈。這不會發生在人類身上，人有常識，有一個外部世界的模型可以將感官資訊與符號知識聯絡起來。

Yann LeCun：

我確實認為有可能將符號知識與我們從資料中提取的知識聯絡起來，例如設計不同的架構，並且將推理作為其中的重要組成部分。

深度神經網路的競爭力在於，我們將多個層和模組組合起來，並開始有了注意力機制，但

還需要更多動態組合，正確的知識或者是高階知識，甚至是符號知識需要被組合起來去做推理，

這是未來我們利用注意力機制的一種路徑，不過這仍是一個非常開放的問題。

Yoshua Bengio

Yoshua 你談到了自治系統，好像這些系統是在許多時間段或在無限的時間裡執行，但我們還不清楚是否對系統的決策做出持續性的解釋，因為它是一個動態程式。而人類擁有解釋這些決策的所有捷徑，誰知道這些捷徑是否有用？

：

你在不同的國家只能靠左行駛或靠右行駛，我們可以對符號規則做類似的處理。

Sanjeev Arora：

是的，但還有一個問題是，當你說到動態決策時，並沒有簡潔的解釋來理解為什麼它是正確的。

Yoshua Bengio：

Sanjeev Arora：

以某種方式將符號邏輯與深度學習架構相結合，對於解釋能力和可解釋性方面的研究非常有用。但我認為，我們有一個錯誤的假設，即在我們的世界中，存在於人類身上的符號足以理解複雜的自動駕駛汽車和其他複雜系統。在這種假設下，問題就變成了如果我們要將這個複雜的神經網路正在做的事近似為對我們有意義的符號，這種近似是否足夠好？我們如何判斷它何時不夠好？為什麼會失敗？如果失敗了，它會告訴我們如何修復嗎？我認為這是一個非常重要的問題。

Been Kim

：

提問：請問

Bengio

教授

，您

提到了推理

和歸納偏差

的必要性

，

我

個人更多是

在適應不同

模態

的空間中處理

歸納偏差，

我想知道

您在這方面

是怎麼做的

我們在人類推理中看到的一些歸納偏差涵蓋了這樣一個事實：當我們在高層次上進行推理時，我們在建立概念之間的因果關係、概念之間的關係，並形成一個非常稀疏的圖（graph）。如果我丟下一個球，它就會落在地面上，像這樣非常準確的預測是在高層次上的，涉及的變數很少，這就跟你在畫素級別上能夠執行的操作非常不同。

此外，在這個高層次上，我們重複使用這些概念和元件來形成新的序列、新的意義，我們還不知道如何做好重用動態和重組，但我們可以將這種歸納偏差設計到神經網路中。

人類高層次理解的另一個方面是因果關係，

因果關係在分佈泛化和我們關於意圖的思考方面起作用，意圖也就是人類想要做的事情以及在高層次上與干預相關的行為，所以這跟強化學習有很多關聯。我們還需要做更多的工作，去將歸納偏差它們整合到架構和訓練物件中。

人類擅長推論和推理，但我們並不是完美的推理機器，理解我們失敗的推理模式也很重要。我們或許可以

從生物學中獲取線索，幫助我們探索如何將這些歸納偏差引入神經網路。

。

Yoshua Bengio：

開放式同行評審：從 ICLR 談起

提問

：自成立以來，ICLR 的

開放式同行評審方法

都非常特殊

，這

對於 AI 領域學術研究發展是否產生了影響？ICLR 最早的大會主席 Yoshua 和 Yann 都在這裡，我們先從 Yann 開始。

2000 年底到 2010 年初，當時人們謹慎地討論該怎麼正確地進行同行評審，計算機科學會議的同行評審頗有些隨機，但這不能怪罪於執行同行評審的人，因為這就是它的本質，而且這個領域的快速發展也決定了這一點，大多數人在領域內的經驗都是有限的，所以大多數審稿人有時會是博士生，有時是碩士生。他們更多是要找出一篇論文的缺點而非優點，而且不得不拒絕很多論文，我們很多人都為此感到內疚。

我跟 Yoshua

Yann

已經討論了幾次，論文或預印本與在出版機構或評審機構之間的壟斷關係已經被打破，所以任何評審機構，無論是會議還是期刊，都可以評審任何論文，並且任何論文也都可以請求評審機構進行評審。如果您想要獲取見解和評論，同行評審就像是一個開放的市場，準確度、預測性或信譽度，對評審機構都有提升作用。

我在我的網站上寫了一篇關於這個的文章，並在馬薩諸塞大學阿默斯特分校和 David McCallum 討論，他正在做 OpenReview 的工作，OpenReview 相當於是一個實施同行評審的基礎設施。

根據pin實體的準確度或預測性，或者類似的東西或它們的信譽度來提升審查實體。所以我在我的網站上寫了一篇關於這個的文章，然後開始和大衛麥卡勒姆討論你。U mass，amherst，因為它正在開展公開審查，公開審查基本上是可用於實施這些想法的基礎設施。

2013 年，我們停止了運行了十年的 wrokshop，並開始啟動 ICLR。我們詢問 OpenReview 我們能不能實施同行評審系統，實際上並不可能實施整個系統，但我們取得了一些成功。

重要的是，評審是開放的，所以評審人會寫評論，並被所有人看到，提交的論文也是所有人可見。這不是雙盲，而是單盲，官方審稿人是匿名的，但是任何人都可以選擇在自己的名下為所有論文寫評論。

有一位對這個過程感興趣的社會心理學家進行了一項調查，比如詢問人們與經典模式相比會更喜歡這種模式嗎？他們都回答是的，這個結論非常明確。

但最終當其他人組織 ICLR 時，我們並不能去告訴程式委員會該如何組織會議，因為他們是志願的角色。所以評審過程又逐漸地越來越接近於更傳統的模式，除了 OpenReview 得以保留。

而現在，其他會議也都轉換到這種模式，包括 NeurIPs 和 ICML，我認為這是一個進步。在開放性的另一個方面，我認為 Yoshua 和我對激發 AI 社群研究的的快速發表產生了重大影響。有這樣一句話：早發表，多發表。論文可能有錯誤，但是沒關係，有機會糾正。

LeCun：

提問：Yoshua，結合你在 ICLR 的經驗，對於那些除了自己的研究之外還

參與組織

工作

的年輕研究人員

我先就 Yann 的回答再補充一些背景。機器學習研究者社群幾十年來在開放科學和開放出版方面一直是積極分子，我和 Yann 一直在推動 ICLR。

在 1999 年左右，《機器學習期刊》（Machine Learning Journal）的委員會發生了一場小革命，委員會成員和研究者包括我自己在內都在推動更多的開放獲取，但是談判並沒有成功，委員會的很大一部分成員離開了。我們創辦了現在機器學習旗艦期刊——The Journal of Machine Learning Research （JMLR），是社群管理的非營利組織。

有時科學上的需要和科學家尋求的真理價值觀以及為社會做一些積極的事情，並不總是與利潤最大化相一致。我認為有理想的年輕人，例如發起 Climate Change AI （CCAI）的小組，在會議上申請組織研討會，通常是年輕人新群體將精力投入到這些事情中。有時他們可以自己創辦一個會議，要做到這一點需要付出工作和努力，需要召集一大批關心這個話題的人。

，你有什麼要做和不要做的建議？

谷歌學術顯示，自 2013 年以來，ICLR 在所有出版機構影響力排名中已經位列第七位，領先於 PNAS，這是非常了不起的，這要歸功於完全開放的評審過程。

Yoshua Bengio：

Yann LeCun：

環保的 AI 與低碳大模型

提問：現在

模型越來越大、越來越複雜，

而大模型

會消耗更多的能量和資源。隨著時間的推移，

這會導致

氣候

越來越糟糕

，

而且

模型似乎不會停止變大。在嘗試構建更高效的模型時，是否有任何工具

、程式或其他措施

來

防止

這種情況

：我們可以從訓練和部署兩方面來看，在部署階段，我們可以使模型更加緊湊，但在訓練方面，我們確實傾向於把模型做得越來越大。

發生呢？

：其實分三類，有研究培訓、生產培訓以及部署。部署是迄今為止最大的能源消耗源。有一篇非常有趣的論文，是谷歌的員工做出了某種預測，預測關於在谷歌這樣的線上服務中花費在 AI 上的能源與其他所有能源的比例是多少。事實上比例不是很大。所以

能源消耗的數字正在變大，但它變大的速度不是很快。

目前，這個數字大概是 15 - 20%，而且不會超出這個範圍，因為受到了經濟的限制，而且所有那些大公司都在能源上花費了大量的錢，這意味著他們有巨大的動力去節省能源。

Sanjeev Arora

：蒸餾是一個可以關注的關鍵詞。

蒸餾可以將複雜網路變得更小、更易於理解、更稀疏。

稀疏網路也是一個值得關注的關鍵詞。而且我還想補充一下，在製作、部署模型的時候，在像谷歌這樣的公司中，簡化模型這一點是非常重要的。因為模型越複雜就越難維護，更難理解，即便對我們來說也很難。因此，我們一直在努力把模型做得更好、更簡單。

Yann LeCun

：有非常龐大的工程師團隊投入所有精力去做這個工作，他們的努力使得部署中的推理更加高效。

Been Kim

Yann LeCun

提問

：有一個相關的問題是

，我們如何確保有

相關的

激勵措施

使

人工智慧的進步能夠直接解決氣候危機

方面

的問題

：我認為有必要考慮一下，當我們還不能將 AI 用於所有事情的時候，我們要使用 AI 來優先解決什麼問題？氣候危機的加速速度比預期的要快，影響正變得比預期的更嚴重。所以我認為我們需要確保對人工智慧應用和部署的投資激勵與應對氣候危機的需要相稱。

？

：谷歌 Alphabet 和我在使用人工智慧應對氣候變化方面有合作過一些專案。例如我們做了一個開放式協作專案，其想法是使用人工智慧來找出有效地將氫與氧從水中分離出來的方法。

只要能有效地大規模儲存能量，我們就有了應對氣候變化的解決方案。我們可以用太陽能電池板覆蓋一個小沙漠，用水產出氫氣後，將能量以甲烷的形式運送到需要的地方。從此我們將不再需要化石燃料。該專案僅活躍了大約一年，但它是一個任何人都可以參與的開放專案。我認為人工智慧在材料科學和化學中的應用非常有前景。

Shannon Vallor

：我們的確採取了某些措施，但正如 Shannon 所說，這些措施還不夠。要解決這個問題的話，必須要由政府來推出政策。能夠解決這個問題的不是個人，甚至不是個別公司，而是政府。只有政府能在地球的層面上用最理想的方式做到。我們需要鼓勵政府。而且這麼做不僅僅是因為氣候，我在傳染病、醫療等領域也遇到過類似的問題。

影片連結：https：//www。youtube。com/watch？v=dyOxLRr_Zbs

Yann LeCun

Yoshua Bengio

更多內容

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社群進行轉載！

公眾號轉載請先在「AI科技評論」後臺留言取得授權，轉載時需標註來源並插入本公眾號名片。

雷峰網

今年的海德堡論壇，Raj Reddy、Sanjeev Arora、LeCun 與 Bengio 都講了些什麼？

相關文章