由軟到硬: 阿里的算力啟示錄

撰文

| 王 潘

編輯

| 吳先之

計算,是一門古老又複雜的學問。

從數百年前的天文學家用紙筆推演著行星軌道,到世界上第一臺通用計算機“ENIAC”,再到後來的小型機、移動終端,直至當下的雲計算,計算的載體正在不斷地演替。

如果將加速資訊化時代的“ENIAC”,視為計算進化的關鍵節點,那麼在數字經濟的敘事語境之下,屬於算力的時代已然到來——算力,就是未來的生產力。

11月3日,在2022雲棲大會現場,阿里巴巴宣佈自研CPU倚天710已大規模應用,而倚天710,也由此成為了中國首個雲上大規模應用的自研CPU。

由軟到硬: 阿里的算力啟示錄

據悉,倚天710雲實例目前已與阿里雲的飛天作業系統及CIPU融合,在資料庫、大資料、影片編解碼、AI推理等核心場景中的價效比提升超30%,單位算力功耗降低60%。

一直以來,計算的生命在於應用,而云計算作為全新計算體系,既是其天然的規模化落地場景,亦是高效能晶片最優應用場景之一。

而自研CPU大規模部署應用,對阿里這家以電商起家的科技公司來說,可謂其十多年算力攻堅路上的歷史性時刻。

第一部分:起點

阿里算力的起點,源於網際網路紅利爆發前夜,業務規模激增與陳舊的算力基礎的割裂。

時間回到2008年,阿里巴巴正值業務高速發展期:淘寶上線淘寶商城(天貓前身),跨入B2C賽道;淘寶自身也已打響了名號,使用者體量急劇增長。

然而,業務激增不全然是好事。彼時,小型機是企業算力最重要的組成,企業若要獲取算力,要麼線下自建伺服器,要麼租用外部伺服器。

且不談自建伺服器帶來的成本壓力,以及硬碟故障、伺服器宕機、交換機重啟等司空見慣的硬體問題,單論這類集中式計算所能提供的算力,其實遠遠跟不上網際網路業務規模的增長。

以當時的阿里為例,在購物高峰期,每天數百萬使用者同時湧入站點,無時不刻考驗著捉襟見肘的IOE技術架構。“每天早上八點到九點半之間,阿里伺服器的使用率都會飆升到 98%,離爆棚就差兩個百分點。”《阿里雲的這群瘋子》如是寫道。

一旦難以承壓,小則延遲、卡頓,大則伺服器宕機、癱瘓,對使用者心智的傷害逐層遞增,這在那個電商血戰的年代,無疑是災難性的弱點。換言之,想要接軌更廣闊的市場,提升算力是基礎。

只是,當時的中國並沒有算力系統,對國內網際網路企業而言,增加算力幾乎只有擴大采購規模一條路。可阿里偏偏選擇了一條人跡罕至的路——用雲計算來為龐大複雜的業務搭建一套全新的技術架構。

此舉無疑是一步險棋。正如科幻經典《2001太空漫遊》中克拉克第三定律所描述那般:“任何非常先進的技術,初看都與魔法無異”。

彼時,雲計算在國內並無成功的先例,亦不被外界普遍認可,更不必說雲計算業務需要鉅額的研發投入,一旦失敗,甚至還將拖累公司財務情況。但縱使如此,在一把手的推動下,阿里還是毅然決然地跳入了雲計算的河流。

2009年,阿里巴巴啟動飛天雲作業系統的研發,併成立阿里雲,中國企業自研雲計算的故事由此開始書寫。

“飛天”的核心,是用分散式架構替換傳統集中式架構,連線遍佈全世界的伺服器,進而實現算力自由。只不過,文字所記錄下的寥寥幾筆,在技術領域卻如同一道溝壑。

一位業內人士告訴光子星球,分散式系統的複雜程度遠高於傳統業務系統,一旦接入的伺服器數量升至一定數量,系統性能、穩定性和運維等方面的技術挑戰便將呈指數級上升趨勢。

為此,阿里雲研發團隊開始了曠日持久的演算法攻堅路。2013年5月,阿里雲成為了全球首個實現單一叢集5000臺伺服器規模的雲廠商,數月後,規模翻了一番,突破單叢集10000臺的規模。至此,阿里雲早期的算力底座正式落成,傳統線下租用算力的模式逐漸被線上獲取算力所取代。

儘管在現在看來,這不過是阿里雲發展過程中的短暫節點,但只有熟悉、經歷過這段往事的人, 才知悉研發過程中的磕磕絆絆,以及每日每夜的枯燥與痛苦。直至今日,阿里雲棲小鎮仍佇立著一尊雕像,雕像上只有兩個字“5K”。

然而,技術永遠是朝前發展的,這也就意味著,留給當時的“攻堅人”舉杯的時間並不多——隨著雲計算被越來越多企業所接納,與日俱增的雲計算需求時刻敲打著剛緩過勁來的雲計算廠商們。

一個簡單的例子,在當時,虛擬化導致的效能耗損幾乎是行業的鐵律,無論雲廠商們如何針對性最佳化,也始終無法全然發揮硬體效能——眼看算力白白流失,卻束手無策。面對這一困擾行業十餘年的桎梏,阿里雲跳出了思維慣性,選擇打造一個專用硬體來負責晶片不擅長的虛擬化排程工作。

此番嘗試,在當時看來極為“激進”,尤其是軟硬結合的思路,更是與外界對網際網路公司“只擅長軟體研發”的刻板印象相沖突。

由軟到硬: 阿里的算力啟示錄

殊不知,看似激進的嘗試轉化為了極為踏實的成果——神龍架構:基於軟硬結合的設計方式,其兼具虛擬機器彈性和物理機高效能。至此,算力流失的裂隙被徹底封堵,讓雲計算進入了效能0損耗的時代。

只是,漫長的算力攻堅路途,只有喘息,並沒有終點。

尤其是在數字經濟時代,算力已然成為行業水電煤一樣的公共資源,而云計算產業去IOE浪潮後沿用下來的硬體體系,同樣處於新一輪變革的節點。而阿里的技術路徑,決定了這家公司必須去往算力系統更硬核處——晶片。

第二部分:攻堅

對雲計算廠商而言,晶片作為伺服器、資料中心的“拼圖”,重要性不言而喻。

一直以來,雲計算廠商搭建資料中心所需伺服器晶片極度依賴外部採購,然而,隨著雲計算賽道競爭格局加劇,採購晶片的弊端逐漸顯露:

一方面,伺服器晶片領域馬太效應相當明顯,少數晶片巨頭掌握著市場話語權:另一方面,先進製程代工廠訂單往往處於飽和狀態,面對迅速擴張的市場,雲計算廠商們不得不就產能問題與上游晶片巨頭周旋。

此外,晶片製造商所產出的伺服器晶片屬“通用”範疇,並不能很好地與雲廠商各自的技術架構相融——能夠滿足最基礎的算力要求,卻很難提高特定業務及場景的效能。相比之下,自研晶片除了能有效抵禦不確定的外部風險,亦能同自身業務及架構耦合,進而提升算力價效比,降低算力功耗。

在此背景下,主流雲廠商逐漸開始向下定義硬體和晶片,透過全新的硬體體系提升自身的競爭力。當2017年阿里達摩院成立時,前沿晶片技術難題的攻克便成為其核心研究方向之一。

眾所周知,晶片製造領域核心技術壁壘眾多,且極度依賴上下游產業鏈配合,尤其是對“新玩家”而言,且不談如何彌補技術代差,僅是從零開始構建產業鏈關係,將耗費大量資源及時間成本。

2018年,阿里全資收購了大陸唯一擁有自主嵌入式CPU IP core的中天微,並將達摩院晶片產品研發團隊與中天微團隊合併,成立平頭哥半導體。阿里由此踏上了通往最硬核場景的征程。

但正如前述所言,通用晶片領域巨頭林立,僅憑一腔熱血去逾越其技術、專利壁壘,無異於天方夜譚。

此外,通用晶片需要下游客戶反覆測試迭代,可面對“新玩家”的產品,揹負盈利壓力的客戶往往並不願意嘗試。換言之,即便強行著陸,缺乏使用者測試、生態積累的產品亦難以透過走量攤平成本,進而陷入競爭劣勢。

因此,平頭哥務實地選取了雲與晶片結合的路徑,使造芯服務於內部算力技術發展的需要。這背後的邏輯很簡單:既然知道自己需要什麼樣的晶片,那不如自己為自己生產糧食。

阿里巴巴由雲“向下定義”晶片的第一個目標是AI算力。2019年雲棲大會,成立僅僅一年的平頭哥釋出阿里第一顆晶片含光800,這顆針對AI場景深度定製的晶片,進一步提升了AI算力的效率,為阿里雲的企業使用者提供了差異化選擇。當下阿里的搜尋推薦、影片直播等場景,均有含光800的身影。

當然,手握算力攻堅接力棒的平頭哥,心中亦懷揣著“詩和遠方”。據阿里內部人士透露,在含光800研發的後期,平頭哥內部逐漸分化出兩種聲音:一方認為其應該遵循眼下AI專用晶片這條“相對容易的路”,另一派則想要去做難度更高的通用CPU,“就像真正的晶片公司一樣”。

就在這樣的背景下,倚天晶片正式立項。就像09年毅然決然地邁向雲計算時一樣,阿里再度做出了一個艱難而大膽的抉擇。

這背後的困苦與迷茫,絲毫不亞於過去阿里雲研發團隊夜以繼日為“5K”奮鬥的年代。

2021雲棲大會上,阿里首個通用CPU晶片倚天710正式釋出。作為一款針對雲場景設計研發的通用晶片,倚天710效能超過業界標杆20%,能效比則提升超50%。第二年,神龍架構亦經演替,成長為“CIPU”——一款雲資料中心專用處理器,替代CPU來管理和加速計算、儲存和網路資源。

由軟到硬: 阿里的算力啟示錄

由於倚天710在設計之初就兼顧了易用性,前述通用晶片應用落地如期進行——去年10月釋出,一個月後的天貓雙11便已有其身影。

正如開頭所談到,只有抵達造芯 “空氣稀薄地帶”才能觸及的通用CPU,使阿里雲在諸多核心場景能效提升顯著。

而嚐到甜頭的阿里雲,毫不掩飾地告訴外界:未來兩年,阿里雲20%的新增算力將使用自研晶片。阿里雲智慧總裁張建鋒表示:“雲計算的發展進入了全新的階段,未來十年,軟硬體一體化的自研計算體系是雲服務商的立身之本,只有在核心技術和產品的研發上持續創新才能搶佔定義權。”

“雲計算從軟體出發,從雲作業系統出發,阿里巴巴研發了中國唯一自研的雲作業系統飛天。到今天,圍繞雲計算我們重新定義核心、定義硬體。這幾年來,平頭哥圍繞著雲計算的場景定義了倚天710晶片,並且走向廣泛的大規模使用。”同樣在2022雲棲大會上,阿里巴巴集團董事會主席兼執行長張勇回顧阿里多年曆程,說道:“這一系列過程都是阿里巴巴不斷追求先進性的表現。”

第三部分:另一條路

如果說,肩負阿里通用晶片期許的倚天710,是其自研晶片敘事的主線,那麼阿里對RISC-V開源架構及其生態的部署,則是貫穿故事的副線。

RISC-V架構誕生之前,留給晶片設計玩家的選擇並不多,無論是選擇x86架構還是ARM架構,均需支付高額授權費。相比之下,RISC-V架構作為開源架構,其指令集可以自由地用於任何目的,不論是設計、製造RISC-V晶片,還是開發相應的軟體,既無需授權費,也沒有繞不開的專利壁壘。

因此,RISC-V架構被普遍認為是繼x86、ARM架構之後,中國晶片產業的第三條路。在阿里端雲一體的晶片體系中,RISC-V處理器IP是核心攻克方向,面對龐大的IoT需求,靈活的RISC-V尤為有用。只是,相較於前兩者,RISC-V架構並未成熟,技術及應用都面臨著極大挑戰。

這背後的邏輯在於,新技術始終需要“跨越裂谷”,唯有經歷科學、技術、工程、產品、商業化等階段,才能被主流所接受。

而這,與阿里技術迭代的邏輯一脈相承。從咬牙決定做雲計算,到自研造芯,再到前沿科技的發掘,可以看到,阿里所有自研技術的驅動力,都根植於需求——依據社會需求去定義技術問題、鎖定研發方向。

面對潛力巨大的RISC-V架構,阿里沒有停下腳步,畢竟使RISC-V架構擺脫“雷聲大雨點小”的局面,很可能為日後繞過晶片專利壁壘、彎道超車埋下伏筆。

為此,阿里祭出了技術突進及生態並行的打法:技術層面,從前述玄鐵910,再到2022雲棲大會推出的高能效C908,阿里不斷拓寬RISC-V效能邊界,建立起了豐富的RISC-V處理器家族,並陸續落地30多個行業;

生態層面,平頭哥已完成了RISC-V與RTOS、Yocto Linux、Android、統信等國際主流和國產作業系統的深度適配,特別是在RISC-V和安卓生態的打通上起了決定性作用。

如果說晶片研發是在向“確定性”的技術地帶衝刺,那前沿算力的佈局,則是真正為“不確定性”下賭注。

而在後一領域,阿里亦有相應佈局,從研發全球首款基於DRAM的3D鍵合堆疊存算一體晶片,到重注可能重塑當今計算體系的量子計算,阿里一直期望在這條科研“冷板凳”上,找到顛覆傳統計算的潛力。

由軟到硬: 阿里的算力啟示錄

至此,從底層晶片、伺服器到雲作業系統、計算架構,阿里構築出完整的算力體系,讓阿里雲成為國內唯一一家擁有完整自研軟硬體技術體系的雲服務商。

長達十餘年的算力攻堅的成果,也最終轉化為阿里在雲計算深水區中的護城河。當下,雲計算賽道內卷之下,自研核心技術不僅成為了阿里雲的壁壘,也使其業務得以降本提質,進而成為國內首個實現盈利的雲計算廠商。

晶片是磕出來的,科技公司也一樣。從算力攻堅路,再到對前沿技術的追求,新技術架構下的阿里,為自身塗上了科技“底色”,和國際IT巨頭們站在同一個起跑線上。