兩個邏輯看懂亞馬遜雲科技re:Invent大會

兩個邏輯看懂亞馬遜雲科技re:Invent大會

兩個邏輯看懂亞馬遜雲科技re:Invent大會

▎雲科技的發展,背後是兩個基本的邏輯,一個是對傳統IT技術的替代,另一個是適應客戶對於大規模資料處理的強需求。

兩個邏輯看懂亞馬遜雲科技re:Invent大會

鈦媒體編輯丨劉湘明

始於2012年的亞馬遜雲科技每年的 re:Invent 全球大會,已經成為雲計算領域開發者必須關注的活動。一個亞馬遜雲科技的老客戶說:“這是一個特別接地氣的技術實用主義公司,90%以上的創新都是使用者需求反饋,另外不到10%是和使用者交流的時候自己的思考,所以最牛的地方在於推出的技術就是萬眾期待亟待應用的,我去 re:Invent 現場驚訝的是每當產品釋出下面自發的尖叫。”

11月29日亞馬遜雲科技高階副總裁 Peter DeSantis 在本屆 re:Invent 大會關於 Amazon Lambda 最佳化的分享,就是一個很好的例子。Lambda 服務是2014年 Amazon。com 副總裁兼首席技術官 Werner Vogels 博士在 re:Invent 全球大會上釋出的,這項服務重新定義了雲計算的 Serverless 發展理念,一經推出就獲得客戶和行業的廣泛認可,已經是非常成功的一項服務。至今,Amazon Lambda已累計釋出了超過100款新的功能,超過100萬的活躍使用者,同時每月的呼叫請求量超過100萬億次。Peter說,技術團隊還注意到長期以來“冷啟動”(Cold Start)時間一直是Lambda 最佳化需求之一,雖然已經將冷啟動時間從幾秒縮短到不到一秒,現在又繼續推出新的SnapStart來解決這個問題,可將冷啟動時間再縮短90%。

亞馬遜雲科技每年在 re:Invent 全球大會推出眾多新產品和技術,細節之多足以讓人眼花繚亂,但梳理這些技術背後的邏輯,不難發現其實有兩條主線——一條是雲計算帶來計算環境的變化,從而幫助傳統IT產品和技術全面升級換代;另一條則是雲計算的普及滲透,帶來使用者需求的遷移。基於海量資料的分析和深度學習越來越重要,這些新的需求又反作用於雲計算,從而影響新產品技術的研發方向。

瞭解了這兩條邏輯,我們再回頭看亞馬遜雲科技複雜的產品線,就更容易掌握其中的脈絡,更有效地找到自己需要的解決方案。

雲原生吞噬一切

兩個邏輯看懂亞馬遜雲科技re:Invent大會

大會從誕生之初就選擇了 re:Invent(重塑)這個詞,其實已經非常準確地表達了雲技術對IT和業務進行重塑。

從2006年亞馬遜雲科技推出最早的雲服務——針對儲存的 Amazon S3 和針對彈性計算的 Amazon EC2,那個時候的雲計算還是典型的兩棲狀態——雲的概念與傳統IT產品,例如資料庫、儲存、伺服器乃至晶片等都是硬性結合在一起,隨著雲計算的規模迅速擴大和應用深度不斷拓展,這些傳統的IT產品越來越不能適應雲計算所需要的效能、安全、效率、彈性和成本等諸多要求,所以對於傳統IT技術和產品的替代很早就開始了。

傳統IT的基礎設施,都是圍繞著計算和儲存展開的,算力的核心就是晶片,而儲存的關鍵則是資料庫系統,管理軟硬體的是作業系統,連線整個系統的網路背後則是網路協議。在這10多年裡,所有這些技術都在被雲技術所替代。

資料庫產品首當其衝。

在2012年,re:Invent 大會上釋出雲原生資料庫 Amazon DynamoDB,以及業界首個雲原生資料倉庫 Amazon Redshift。在此之前,資料倉庫是一項重資產的技術,只有大企業才負擔得起,而且效果很不理想。Amazon Redshift 的優勢在於規避了軟體在本地安裝時要考慮的相容儲存、計算能力以及最小安裝等問題,一經推出迅速成為亞馬遜雲科技有史以來發展最快的服務,這個記錄一直保持到2014年推出雲原生關係資料庫 Amazon Aurora。Amazon Aurora 全面相容開源資料庫MySQL 及PostgreSQL,它的速度最高可以達到標準 MySQL 的5倍、標準PostgreSQL 的3倍,成本卻只有傳統商業級資料的十分之一。

這種雲原生的趨勢,也很快從軟體蔓延到了為雲而生的硬體創新。2017年,亞馬遜雲科技釋出第三代 Amazon Nitro 系統,在業界首次使用自研專用晶片,將功能從軟體轉移到硬體,把伺服器效能完全透過全新的虛擬化技術解放出來,消除伺服器虛擬化效能損耗,使用者可獲取全部物理伺服器資源。同時,軟體硬化也極大地增加了安全性。如今,Amazon Nitro 架構已經成為 Amazon EC2 所有超過600多種例項的基礎平臺。

兩個邏輯看懂亞馬遜雲科技re:Invent大會

這次大會,Peter釋出了 Nitro v5,電晶體數量比前一代增加了一倍,提供了更高的計算效能,同時帶來50%的DRAM 內容效能提升,2倍的PCle 頻寬提升。相比於前一代產品,Nitro 將顯著改善延遲30%,同時每瓦效能提高40%,PPS 提高60%。

因為規模巨大,所以任何一點細微的效能提升,都能在雲計算網路中產生巨大的效用。在追求極致效率的雲計算生態裡,軟體硬化,為雲最佳化的硬體漸成潮流。在2019年,亞馬遜雲科技釋出基於Arm 架構的自研雲原生處理器Amazon Graviton2,開創了企業級應用大規模使用雲端Arm 架構服務的局面,雲廠商開始向傳統IT的硬體制高點——晶片發起衝鋒。Amazon Graviton2 的推出,標誌著亞馬遜的Arm 架構自研處理器進入規模化應用階段。相比x86 處理器,Arm 處理器架構更精簡、更節能,但此前一直沒能在企業級應用領域取得突破。Amazon Graviton2 的規模應用樹立了Arm 處理器在企業級應用的標杆。對比x86 處理器,基於 Amazon Graviton2 的同規格例項價效比提升可達40%。

自研晶片可以認為是亞馬遜雲科技持續創新的核心引擎,在2021 亞馬遜雲科技re:Invent 全球大會上,亞馬遜雲科技繼續釋出新一代基於Arm 的自研CPU 處理器 Amazon Graviton3,標誌著對於雲原生硬體的研發水平有進入到一個新的高度。與 Amazon Graviton2 相比,Amazon Graviton3 晶片採用5nm 工藝、64核,集成了550億電晶體。與 Graviton2 相比,Graviton3 處理器支援為科學計算、機器學習和媒體編碼工作負載提供高達2倍的浮點運算效能,為加密工作負載速度提升高達2倍的效能,為機器學習工作負載提供高達3倍的效能,同時最高可以實現60%能耗最佳化。本次大會,Peter釋出了專為支援高效能計算工作負載而設計的基於 Arm 的定製 Graviton3E 系列晶片,對依賴向量指令的工作負載的效能提高35%。

而作為粘合軟體和硬體、傳統IT與雲計算最重要的一項技術——虛擬化,也伴隨著雲計算的發展迅速進化著,為了不斷最佳化雲計算環境下的計算效率而持續迭代。前面談到的 Amazon Nitro 系統,已經可以完成從儲存訪問到加密監控和例項配置的所有工作,實際上將伺服器硬體的所有計算,和記憶體資源提供給使用者的例項,從而例項獲得更好的整體效能,專用的 Nitro 卡可實現高速網路,高速 EBS 和 I/O 加速,不必為管理軟體佔用資源,從而壓榨出更多的伺服器資源回饋給客戶。

本次 re:Invent 大會,亞馬遜雲科技將重塑的矛頭指向了網際網路的根本——TCP 協議,這也是個難以想象的事情,可以說,沒有 TCP/IP 協議,就根本不會有云計算的今天。但是針對區域網使用場景而設計的 TCP 協議,在面對超大規模的網路和資料流動時,在一些特定條件下,也開始顯示出一些效率問題,造成通訊的瓶頸。Peter在大會上釋出了 SRD 協議,他說:“我們現在是用資料密集型的,同時多路徑的網路拓撲,這樣的話我們可以避免網路過度的訂閱率,又可以降低成本,同時非常有效地提升了網路的執行能力。”亞馬遜雲科技基於這個協議的ENA Express技術,將流量的 P99 延遲減少了50%,將 P99。9 延遲減少85%(與TCP 相比),同時還將最大單流頻寬從 5Gbps 到增加到了 25Gbps。

至此,可以看到雲對於傳統IT基礎設施的重塑基本上完成了初期覆蓋的階段。

從彈性計算到資料處理

兩個邏輯看懂亞馬遜雲科技re:Invent大會

亞馬遜雲科技執行長Adam Selipsky

本次 re:Invent 大會上,亞馬遜雲科技執行長 Adam Selipsky說:“在今後的五年,我們建立了這些資料,可能會完全超過了數碼時代一直到現在以來所有資料累加在一起的數量,這樣同時也會告訴我們所有的組織都會面臨著無限的機會。”

因為規模和分散式帶來計算環境的變化,是驅動雲計算重構基礎設施的一個重要因素,而計算環境帶來客戶需求的變化,則又構成了驅動雲計算技術繼續演化的另一條主線,那就是資料。

雲計算最初的剛需是彈性計算和儲存,所以最初的使用者更多來自零售和網際網路等業務波動較大的行業,主要解決的是峰值期間算力不足的問題。但很快,大家發現數據在雲上不但方便儲存,而且更加方便分析和處理。於是資料湖的概念迅速流行起來,這個術語由Pentaho公司的創始人兼首席技術官詹姆斯·狄克遜(James Dixon)提出,他對資料湖的解釋是:把你以前在磁帶上擁有的東西倒入到資料湖,然後開始探索。

資料湖也是個雲計算時代的概念,與它對應的是傳統IT時代的資料倉庫、資料集市等概念。有趣的是,在資料倉庫、資料集市等概念下,資料給人的印象是固體的貨物,而在資料湖的概念裡,資料變成了可以流動的液體。這其實也是雲計算和傳統IT觀念最大的分野之一。

人類的大腦,最擅長處理三維空間和不超過7個變數,這樣的思考能力顯然無法應付雲上指數增長的資料。亞馬遜雲科技資料與機器學習副總裁 Swami Sivasubramanian 在本次大會的發言中也談到:“用在現在的資料處理並不是完美的想法。我們需要把資料集中在一起,它們之間會存在不一致性,所以我們需要把它進行自動化。而且資料不像我們的大腦一樣會自動進入,它需要透過通道來進入系統,我們需要成立這樣的機制,讓這些資料能夠為我們所用。最終資料也不是那麼容易分析,把新的各種想法之間聯絡起來是很困難的,這是一個非常複雜的過程。”

也正是在這個背景下,為了更好地處理越來越多的資料,機器學習的春天也到來了。這門學問的流行需要三個因素,其中演算法早已經成熟很多年,而云計算則賦予了它便宜的算力和海量的資料。

我曾經在一家很大規模的化工廠做過調研,他們的總工程師說,工業資料的儲存和處理,他們有幾臺伺服器處理綽綽有餘,價格其實比上雲更便宜,但是如果需要用機器學習來推進工藝流程最佳化,雲計算就是不二的選擇,因為機器學習的門檻實在太高,遠遠超過一個大型工業企業的能力。

就這樣,企業上雲的最大動力從“彈性計算+儲存”,很快變成“智慧+資料”。人工智慧迅速成為企業破解複雜問題,應對不確定時代的救命稻草,而云就成為交付人工智慧的最佳載體。隨著資料戰略成為越來越多企業的核心戰略,比如2020年,BMW 數字化戰略釋出了“以客戶為中心”、“用資料賦能”和“打造適應數字化程序的組織”的三大方向,“客戶”、“資料”和“數字化”三大關鍵詞赫然在列,他們將資料匯入 CDH (Cloud Data Hub) ,並且使用這些資料來監控車輛執行狀況指標,例如檢查控制錯誤以識別整個車系的潛在問題,進而更好地解決問題,甚至將問題解決在萌芽之時。

據亞馬遜雲科技提供的資料,在全球他們已助力超過150萬客戶成為資料驅動型企業。Swami 在發言中提到,亞馬遜領導人意識到,資料經常是跟我們的直覺相反的,但是要完全依賴資料的分析,需要一整套資料策略,包括能夠應對所有未來情況的技術策略,要考慮到未來資料種類、處理效率、可靠性和彈性;以及需要有組織把資料連線起來,第三,還需要好的工具來處理這些資料。

為了適應使用者對於資料儲存、分析,以及隨後的機器學習等全新需求,雲計算廠商必須要圍繞著資料這個核心需求重構甚至創建出很多新的服務來。

也正是在這個大背景下,雲計算中最受歡迎的也都是資料相關的服務,就像亞馬遜雲科技有史以來發展最快的服務第一是雲原生關係資料庫 Amazon Aurora,第二是雲原生數倉 Amazon Redshift。

而機器學習的神奇效能和依然高高在上的使用門檻,也成為雲計算技術創新的強大動力。在2017 亞馬遜雲科技re:Invent 全球大會上,託管式機器學習服務 Amazon SageMaker 面世,可以幫助開發者、資料科學家和業務分析師極大縮短準備資料,並大規模地構建、訓練、部署高質量機器學習模型的時間。不意外的是,SageMaker 也成為亞馬遜雲科技有史以來增長速度最快的服務之一,五年時間,已有數以萬計的客戶利用 Amazon SageMaker 建立了數百萬個模型,引數規模可達千億級別,每月生成數千億的預測結果。2021年,為了進一步推動機器學習的民主化,讓更多使用者能夠接觸到機器學習,亞馬遜雲科技在re:Invent 大會上釋出了無程式碼機器學習工具 Amazon SageMaker Canvas。在 Amazon SageMaker 的幫助下,客戶可以透過最佳化的基礎設施將訓練模型所需時間由數小時縮短至數分鐘。

本次大會,我個人認為最值得關注兩個釋出,是端到端的資料治理工具——Amazon DataZone 和 Zero ETL 技術。DataZone 透過統一的資料分析門戶提供所有資料的個性化檢視,解決跨組織邊界的資料大規模共享、搜尋和發現問題。而 Zero ETL 主要解決的是在不同機器學習模型或不同應用之間提取、轉換和載入(ETF是Extract、Transform、Load 三個詞的縮寫)資料的速度問題,需要結合 SageMaker 以及亞馬遜的雲原生資料庫使用。

在本屆 re:Invent 上,亞馬遜雲科技執行長 Adam Selipsky 和亞馬遜雲科技資料產品掌門人 Swami 在最重要的釋出時段,釋出的技術和服務大部分都與資料和機器學習相關,這其實也代表了某種趨勢——當對傳統IT技術的替代接近尾聲的時候,針對資料創新的技術需求井噴才剛剛開始。

快速演化的雲計算未來

而在兩個趨勢的背後,一個新問題又逐漸浮現出來。那就是短期內太多新技術和新需求的湧現,給使用者帶來極高的學習和實施門檻,這也是現在所謂“技術焦慮症”和“技術躺平派”出現的原因。所以未來如何降低雲技術使用和部署的成本,實現技術普惠,也將是一個全新的挑戰和機會。這個挑戰,甚至比後臺技術的競爭更加激烈,因為它距離客戶更近,客戶一旦廣泛接受,更容易形成事實的後臺技術標準。

亞馬遜雲科技對於這個挑戰,給出的答案就是 Serverless。

兩個邏輯看懂亞馬遜雲科技re:Invent大會

“Serverless無伺服器”術語最早出現在2012 年左右的一篇文章裡,作者 Ken Fromm 對它的解釋是:“Serverless無伺服器”一詞並不意味著不再涉及伺服器,它只是意味著開發人員不再需要考慮那麼多的物理容量或其他基礎設施資源管理責任。透過消除後端基礎設施的複雜性,無伺服器讓開發人員將注意力從伺服器級別轉移到任務級別。

2014年釋出的 Amazon Lambda是業界首個 Serverless 函式計算服務,它讓開發者可以執行幾乎任何型別的應用程式或後端服務程式碼,無需預置或管理伺服器,從而更專注自己的業務。Amazon Lambda 的推出,相當於對於雲計算的資源和架構再次進行虛擬化和抽象,是雲計算發展到一定階段對自己的又一次革命,進一步把技術複雜性留給了後臺,讓使用者更專心於業務問題的解決。

Serverless 開發是在雲上實現生產想法的最快途徑——它最大限度地提高了靈活性,同時降低了總體擁有成本,在re:Invent 2022上,亞馬遜雲科技執行長 Adam Selipsky 宣佈了 Amazon OpenSearch Serverless(Preview),標誌著亞馬遜雲科技已經在資料分析PaaS服務領域實現了資料倉庫、大資料平臺、流式資料分析的無伺服器化,將整個資料 Serverless能力拓展到了全棧。而 Amazon。com 副總裁兼首席技術官 Werner Vogels 博士釋出的 Application Composer,更是透過無程式碼的方式把這個學習曲線降至最低,實現人人可開發的Serverless。

雲計算的滲透就像天平一樣需要保持平衡——後臺架構和資料技術發展越快,基於 Serverless 的技術普惠化就越重要。可以預見,Serverless 將是未來幾年,雲計算領域最值得關注的一個方向。在這個方向上,所有選手都必須全力以赴,誰也停不下來。

就像 Werner Vogels 博士在他的發言中所說的那樣:你只能要麼演變,要麼死去。

*溫馨提示:喜歡鈦媒體公眾號的小夥伴注意啦!根據公眾號推送新規,請將鈦媒體設為“星標”,這樣才能第一時間收到推送訊息,已設定的小夥伴還需要重新設定“星標”哦

——————-華麗的分割線——————

下載鈦媒體App,領先一步,更深一度。

兩個邏輯看懂亞馬遜雲科技re:Invent大會

下載【鈦媒體App】,領先一步,更深一度。

萬水千山總是情,點個在看行不行