Yann LeCun最新發聲：自監督+世界模型，讓 AI 像人類一樣學習與推理

作者 |

維克多、西西、王曄

編輯 | 陳彩嫻

如何突破當代人工智慧（AI）的瓶頸？不同學者存在不同觀點。

總體來看可以概括為兩類，其一監督學習者，提倡透過改善資料標籤質量，從而完善監督學習。代表人物有發起“以資料為中心AI”革命的吳恩達，提倡設計“合成數據自帶所有標籤”的

Rev Lebaredian。

其二，無監督學者，例如Yann LeCun，提倡下一代AI系統將不再依賴於精心標註的資料集。

近日，Yann LeCun在meta AI（原Facebook）官方部落格上以及IEEE採訪中，深度闡述了他的自監督學習思路，他認為AI想要突破現在的瓶頸，必須讓機器學習世界模型，從而能夠填補缺失的資訊，預測將要發生的事情，並預測行動的影響。

這雖然不是革命性的想法，但卻是革命性的行動。正如LeCun在在多次演講中提到：這場革命將是無監督的（THE REVOLUTION WILL NOT BE SUPERVISED）。具體而言這種革命性體現在對兩個問題的思考：

第一，我們應該使用什麼樣的學習正規化來訓練世界模型？

第二，世界模型應該使用什麼樣的架構？

同時，他也提到：監督學習的侷限性有時會被誤以為是深度學習的侷限性，這些限制可以透過自監督學習來克服。

以下是LeCun對自監督的思考與世界模型設計，內容來源於meta AI與IEEE，AI科技評論做了不改變原意的編譯。

AI可以學習世界模型

LeCun提到，人類和動物能夠透過觀察，簡單的互動，以及無監督的方式學習世界知識，因此可以假設，這裡面蘊含的潛在能力構成了常識的基礎。這種常識能夠讓人類在陌生的環境下完成任務，例如一位年輕的司機，從來沒有在雪地裡開過車，但是他卻知道如果車開的太猛，輪胎會打滑。

早在幾十年前，就有學者研究人類、動物甚至智慧系統如何“借力”世界模型，自我學習。因此，當前AI也面臨著重新設計學習正規化和架構，使機器能夠以自我監督的方式學習世界模型，然後使用這些模型進行預測、推理和規劃。

世界模型需要融合不同的學科的觀點，包括但不限於認知科學、系統神經科學、最優控制、強化學習以及 “傳統 ”人工智慧。必須將它們與機器學習的新概念相結合，如自監督學習和聯合嵌入架構（joint-embedding architectures）。

AI新架構：自主智慧架構

在上述世界模型思想的基礎上，LeCun 提出了自主智慧機構，由六個獨立模組組成，且假設每個都可微：可以容易地計算一些目標函式，以及相對應的梯度估計，並將梯度資訊傳播到上游模組。

自主智慧的系統架構：配置器（configurator）是核心，從其他模組獲取輸入。

配置器的角色是控制。

給定一個要執行的任務，它會透過調整引數預先配置感知模組、世界模型，以及計算成本和新增參與者（actor）。

感知模組能夠接收資訊，估計現實世界。

對於一個特定的任務，只有一小部分感知到的世界狀態是相關和有用的。配置器為感知模組提供動力，從感知中提取與任務相關的資訊。

世界模型模組是最複雜的部分，具有雙重作用。1。估計感知模組無法得到的缺失資訊；2。合理預測世界的未來狀態，其中包括世界的自然演變以及參與者行動的影響。世界模型是現實世界的模擬器，由於世界充滿了不確定性，該模型必須能夠處理多種可能的預測。直觀的例子是：一個接近十字路口的司機可能會放慢汽車行駛的速度，防止另一輛接近十字路口的車沒有按規矩停在停車標誌上。

成本模組用來計算預測智慧體（agent）的不合適程度。

由兩部分組成：內在成本（ intrinsic cost），特徵是不可訓練，但能實時計算“不適”：智慧體損害、違反硬編碼行為等；評價者（critic），它是一個可訓練的模組，預測內在成本的未來值。

LeCun表示：

成本模組

是基本的行為驅動和內在動機的所在。因此，它將考慮到內在成本：不浪費能源，以及任務的具體消耗。成本模組是可分的，成本的梯度可以透過其他模組反向傳播，用於規劃、推理或學習。

參與者模組提供行動建議。參與者模組可以找到一個使估計的未來成本最小化的最佳行動序列，並在最佳序列中輸出第一個行動，其方式類似於經典的最優控制。

短期記憶模組可以記錄當前情況，預測世界狀態，以及相關成本。

世界模型架構和自監督訓練

世界模型架構的核心在於預測。

構建世界模型的一個關鍵挑戰是如何使該模型能夠表示多個模糊的預測。現實世界並不是完全可以預測的：一個特定的情況可能有多種演變的方式，並且許多與情況相關的細節與手頭的任務無關。比如，我可能需要預測我開車時周圍的汽車會做什麼，但我不需要預測道路附近樹木中個別葉子的詳細位置。那麼，世界模型如何學習現實世界的抽象表示，做到保留重要的細節、忽略不相關的細節，並且可以在抽象表示的空間中進行預測呢？

解決方案的一個關鍵要素是聯合嵌入預測架構（Joint Embedding Predictive Architecture ，JEPA）。JEPA 捕獲兩個輸入（x 和 y）之間的依存關係。例如，x 可以是一段影片，y 可以是影片的下一段。輸入 x 和 y 被饋送到可訓練的編碼器，這些編碼器提取它們的抽象表示，即 sx 和 sy。預測器模組被訓練為從 sx 預測 sy。預測器可以使用潛在變數 z 來表示 sy 中存在但 sx 中不存在的資訊。JEPA 以兩種方式處理預測中的不確定性：（1）編碼器可能會選擇丟棄難以預測的有關 y 的資訊；（2）當潛在變數 z 在一個集合上變化時，將導致預測在一個集合上變化一組似是而非的預測。

那麼，我們如何訓練 JEPA 呢？

截至目前為止，研究者所使用的唯一方法就是“對比”，包括顯示相容 x 和 y 的示例，以及許多 x 和不相容 y 的示例。但是當表示是高維狀態時，這是相當不切實際的。

過去兩年還出現了另一種訓練策略：正則化方法。當應用於 JEPA 訓練時，該方法使用了四個標準：

使 x 的表示最大限度地提供關於 x 的資訊

使 y 的表示最大限度地提供關於 y 的資訊

使 y 的表示可以從 x 的表示中最大程度地預測

使預測器使用盡可能少的潛在變數資訊來表示預測中的不確定性

這些標準可以以各種方式轉化為可微的成本函式。一種方法是 VICReg 方法，即方差/變數（Variance）、不變性（Invariance）、協方差正則化（Covariance Regularization）。在 VICReg 中，x 和 y 表示的資訊內容透過將其分量的方差保持在閾值之上並透過使這些分量儘可能地相互獨立來最大化。同時，該模型試圖使 y 的表示可以從 x 的表示中預測。此外，潛變數的資訊內容透過使其離散、低維、稀疏或噪聲來最小化。

JEPA 的美妙之處在於它自然地產生了輸入的資訊抽象表示，消除了不相關的細節，並且可以執行預測。這使得 JEPA 可以相互堆疊，以便學習具有更高抽象級別的表示，可以進行長期預測。

例如，一個場景可以在高層次上描述為“廚師正在製作可麗餅”。它可以預測廚師會去取麵粉、牛奶和雞蛋，將食材混合，把麵糊舀進鍋裡，將麵糊油炸，並翻轉可麗餅，然後不斷重複該過程。在較低層次的表達上，這個場景可能是倒一勺麵糊並舀均勻，且將其鋪在鍋周圍。一直持續到每一毫秒的廚師的手的精確軌跡。在低層次的手部軌跡上，我們的世界模型只能進行短期的準確預測。但在更高的抽象層次上，它可以做出長期的預測。

分層 JEPA 可用於在多個抽象級別和多個時間尺度上執行預測。訓練方式主要是透過被動觀察，很少透過互動。

嬰兒在出生後的頭幾個月主要透過觀察來了解世界是如何運作的。她瞭解到世界是三維的，知道有些物體會擺在其他物體的前面，當一個物體被遮擋時，它仍然存在。最終，在大約 9 個月大的時候，嬰兒學會了直觀的物理學——例如，不受支撐的物體會因重力而落下。

分層 JEPA 的願景在於它可以透過觀看影片和與環境互動來了解世界是如何運作的。透過訓練自己來預測影片中會發生什麼，它可以生成對世界的分層表示。透過在世界上採取行動並觀察結果，世界模型將學會預測其行動的後果，進而能夠推理和計劃。

“感知-行動”情節

透過將分層 JEPA 訓練為世界模型，一個智慧體（機器人）就可以執行復雜動作的分層規劃，將複雜任務分解為一系列不太複雜和不太抽象的子任務，一直到對效應器（effector）的低階動作。

一個典型的感知-行動情節如上。該圖說明了兩級層次結構的情況。感知模組提取世界狀態的分層表示（圖中 s1［0］=Enc1（x）和 s2［0］=Enc2（s［0］））。然後，在假設二級行動器提出的一系列抽象動作的情況下，多次應用二級預測器來預測未來狀態。行動器最佳化二級動作序列以將總成本最小化（圖中的C（s2 ［4］））。

這個過程類似於最優控制中的模型預測控制。對第二級潛在變數的多個繪圖重複該過程，這可能會產生不同的高階場景。由此產生的高階動作並不構成真正的動作，而只是定義了低階狀態序列必須滿足的約束（例如，食材是否正確混合？）。它們確實構成了子目標。整個過程在低層重複：執行低層預測器，最佳化低層動作序列以將上層的中間成本最小化，並對低層潛在變數的多個繪圖重複該過程。一旦該過程完成，智慧體將第一個低階動作輸出到效應器，整個情節可以重複。

如果我們成功構建了一個這樣的模型，那麼所有的模組都是可微的，因此整個動作最佳化過程可以使用基於梯度的方法來執行。

使 AI 更接近人類水平的智慧

LeCun 的願景需要更深入的探索，而且前方還有許多艱鉅的挑戰。其中最有趣又最困難的一項挑戰是為世界模型將架構和訓練細節例項化。我們甚至可以說，訓練世界模型是未來幾十年人工智慧可以真正取得進展的主要挑戰。

但是架構的許多其他方面仍有待定義，包括如何精確地訓練Critic（Critic網路的作用是衡量一個Actor在某狀態下的優劣），如何構建和訓練配置器，以及如何使用短期記憶來跟蹤世界狀態和儲存世界狀態與行動的歷史，用內在成本來調整Critic。

LeCun 和其他 Meta AI 的研究人員期待在未來數月和數年內探索這些內容，並與該領域的其他人交流想法和學習。創造可以像人類一樣有效地學習和理解的機器是一項長期的科學努力——而且不能保證成功。但我們相信，基礎研究將繼續加深對思想和機器的理解，並將帶來更多造福人類的人工智慧突破成果。

Yann LeCun：AI 不需要人類的監督

IEEE Spectrum：

您曾說過，監督學習的侷限性有時會被誤認為是深度學習的內在侷限，那哪些限制可以透過自監督學習來克服呢？

Yann LeCun

：

監督學習在一些結構穩定的領域中表現很出色。在這些領域中，你可以收集大量的標記資料，並且在部署過程中可以看到，這些輸入型別與訓練過程中使用的輸入型別沒有太大區別。要收集大量且相對沒有偏差的標記資料是很難的。我所說的不一定是社會偏差，而是說系統不應該使用資料中的相關性。一個非常著名的例子是，當你在訓練一個能夠識別奶牛的系統時，若訓練中用的都是草場上的奶牛，那麼系統將把草作為奶牛的背景。如果再給它一頭在海灘上的奶牛，它可能就很難識別出了。

自監督學習（SSL）允許我們訓練系統以獨立於任務的方式學習良好的輸入表示。因為 SSL 訓練使用未標記的資料，所以我們可以使用非常大的訓練集，並讓系統學習更穩健和更完整的輸入表示。然後，它只需要少量的標記資料就能在監督任務上獲得良好的效能。這大大減少了純監督學習所特有的標記資料量，並使系統更加穩健，能夠更好地處理與標記訓練樣本不同的輸入。它有時還會降低系統對資料偏差的敏感性——關於這一改進，我們將在未來幾周內分享更多關於研究的見解。

現在在實際的 AI 系統中正在發生的事情是，我們正在轉向使用 SSL 對大量未標記資料進行預訓練的更大架構。這些可用於各種任務。例如，Meta AI 現在擁有可以處理幾百種語言的語言翻譯系統。這是一個單一的神經網路！我們還有多語種語音識別系統。這些系統可以處理幾乎沒有資料的語言，更不用說帶註釋的資料了。

IEEE Spectrum：其他行業先驅說，人工智慧的前進方向是透過更好的資料標記來改進監督學習。吳恩達最近和我談到了

以資料為中心的AI

，英偉達的 Rev Lebaredian 和我談到了帶有所有標籤的合成數據。該領域是否存在關於前進道路的分歧？

LeCun

：我不認為存在哲學上的分歧。SSL 預訓練是 NLP 中非常標準的做法。它在語音識別方面表現出了出色的效能改進，並且在視覺方面開始變得越來越有用。然而，“經典”監督學習仍有許多未開發的應用，因此人們當然應該儘可能使用合成數據和監督學習。據說英偉達也正在積極開發 SSL。

早在 2000 年代中期，Geoff Hinton、Yoshua Bengio 和我就確信，我們能夠訓練非常大和非常深的神經網路的唯一方法是透過自監督（或無監督）學習。這也是吳恩達開始對深度學習感興趣的時候。他當時的工作也集中在我們現在稱之為自監督的方法上。

IEEE Spectrum：自監督學習如何促成具有常識的 AI 系統？常識能把 AI 系統帶向人類水平的智慧多遠？

LeCun

：我認為，一旦我們弄清楚如何讓機器像人類和動物一樣學習世界是如何運作的，人工智慧就會取得重大進展：這主要是透過觀察，並在觀察中採取行動。我們瞭解世界是如何運作的，因為我們已經瞭解了世界的內部模型，該模型使我們能夠填補缺失的資訊，預測將要發生的事情，並預測我們行動的影響。我們的世界模型使我們能夠感知、解釋、推理、提前計劃和行動。

但機器如何學習世界模型呢？這歸結為兩個問題：我們應該使用什麼學習正規化來訓練世界模型？世界模型應該使用什麼架構？

對於第一個問題，我的答案是 SSL（自監督學習）。一個例子是讓機器觀看影片，暫停影片，然後讓機器學習影片中接下來會發生什麼的表示。在這樣做的過程中，機器可以學習大量關於世界如何運作的背景知識，可能類似於嬰兒和動物在生命的最初幾周和幾個月內的學習方式。

對於第二個問題，我的答案是一種新型的深度宏架構，我稱之為分層聯合嵌入預測架構（H-JEPA）。簡單解釋，JEPA 不是預測影片剪輯的未來幀，而是學習影片剪輯的抽象表示和剪輯的未來，以便後者能夠基於對前者的理解很容易地預測。這可以使用非對比 SSL 方法的一些最新發展來實現，特別是我和我的同事最近提出的一種稱為“VICReg”的方法。

IEEE Spectrum：

幾周前，你回覆了在OpenAI任職的 Ilya Sutskever 的一條推文，他在推文中推測，今天的大型神經網路可能有意識。你的回答是響亮的“不”。在您看來，構建一個有意識的神經網路需要什麼？那個系統會是什麼樣子的？

LeCun

：首先，意識是一個非常模糊的概念。一些哲學家、神經科學家和認知科學家認為這只是一種幻覺，我非常接近這種觀點。

但我對導致意識錯覺的原因有一個猜測。我的假設是，我們的前額葉皮質中有一個單一的世界模型“引擎”。該世界模型可根據當前情況進行配置。我們是帆船的舵手；我們的世界模型模擬了我們船周圍的空氣和水流。我們建了一張木桌；我們的世界模型想象切割木頭和組裝它們的結果，等等。

我們的大腦中需要一個模組，我稱之為“配置器”，它為我們設定目標和子目標，配置我們的世界模型來模擬當前的情況，並啟動我們的感知系統以提取相關資訊並丟棄贅餘資訊。監督配置器的存在可能是讓我們產生意識錯覺的原因。但有趣的是：我們需要這個配置器，因為我們只有一個世界模型引擎。如果我們的大腦足夠大，可以容納許多世界模型，我們就不需要意識。所以，從這個意義上說，意識是我們大腦侷限的結果！

IEEE Spectrum：自監督學習在元宇宙的構建中可以扮演什麼角色？

LeCun

：深度學習在虛擬世界中有很多具體的應用，比如 VR 護目鏡和 AR 眼鏡的運動跟蹤，捕捉和重新合成身體運動和麵部表情等等。

元宇宙中人工智慧驅動的新創意工具有很多機會，可以讓每個人在虛擬世界和現實世界中創造新事物。但元宇宙也有一個“純AI”的應用：虛擬 AI 助手。我們應該有虛擬的 AI 助手，可以在日常生活中幫助我們，回答我們的任何問題，並幫助我們處理每天轟炸我們的海量資訊。為此，我們需要我們的 AI 系統對世界如何運作（無論是物理還是虛擬）有一定的瞭解，有一定的推理和計劃能力，以及一定程度的常識。簡而言之，我們需要弄清楚如何構建可以像人類一樣學習的自主 AI 系統。這需要時間。但是Meta在這條賽道上已經走了很長時間。

參考連結：

1。https：//ai。facebook。com/blog/yann-lecun-advances-in-ai-research

2。https：//spectrum。ieee。org/yann-lecun-ai

雷峰網

Yann LeCun最新發聲：自監督+世界模型，讓 AI 像人類一樣學習與推理

相關文章