資料儲存,如何解決能耗問題和孤島現狀?

文/陳根

在資訊化時代裡,作為人們獲取資訊、汲取知識的素材和源泉,資料已經成為社會生產和生活既重要又具體的資源。當然,要讓資料全面、充分地發揮出其價值,一個看似簡單卻必要的前提是:資料需要被妥善保管在可靠、可信、可管理的平臺中,能夠被隨時隨地且方便地存取。

可以說,儲存是利用資料的基礎,是資料處理、資料探勘、資料價值等實現的前提,資料儲存的重要性不言而喻。然而,資料作為當前社會最寶貴的資源之一,如何做好各類資料的長期儲存管理,依然是個有待解決的問題。

一方面,伴隨著各類資訊化應用的迅猛發展,資料量正在呈指數級增長,大量資料吞吐和運算,帶來不可忽視的能耗問題;另一方面,由於不同主體對資訊化的不同需求,各類資料依然被封存在不同的系統中,孤島林立,不可避免地帶來資源的浪費。

當前,我們已身處於儲存變革的風暴眼中,加快推動資料資源共享和開發應用,更好地儲存、管理和使用資料是資料儲存的當務之急。

資料儲存,如何解決能耗問題和孤島現狀?

儲存技術日新月異

不可否認,人類在過去200年裡取得的儲存技術的進步比在之前2000年裡取得的還要多。

1932年,奧地利出現了早期計算機的磁鼓記憶體。一個三維模擬的磁鼓儲存器形成一個陣列,相當於一個硬碟,由此而生的磁滾筒儲存成功地運用在IBM 650超級計算機中,並於1953年釋出。IBM 650長為16英寸,直徑4英寸,鼓旋轉速度為750千赫,可以儲存高達8。5 KB的資料。

磁鼓儲存器在1950至60年代用作計算機的主要外儲存器。它利用電磁感應原理進行數字資訊的記錄與再生,由作為資訊載體的磁鼓筒、磁頭,讀寫及譯碼電路和控制電路等主要部分組成。不過,磁鼓是利用鋁鼓筒表面塗覆的磁性材料來儲存資料的。鼓筒旋轉速度很高,因此存取速度快。它採用飽和磁記錄,從固定式磁頭髮展到浮動式磁頭,從採用磁膠發展到採用電鍍的連續磁介質。

這些,都為後來的儲存器打下了基礎。1956年,世界上的第一款硬碟終於由IBM設計完成。這款名為IBM350 RAMAC的硬碟產品體積十分龐大,但容量僅為5MB,總共使用了50張24英寸的碟片。

1973年,IBM公司製造出第一臺採用“溫徹斯特”技術的硬碟。自此,硬碟技術的發展有了正確的結構基礎。它的容量為60MB,轉速略低於3000RPM,採用4張14英寸碟片,儲存密度為每平方英寸1。7MB。1991年,IBM生產的3。5英寸的硬碟使用了MR磁頭,使硬碟的容量首次達到了1GB,硬碟容量由此進入了GB數量級的發展新階段。

數字資料儲存的引入改變了我們生產、操作和儲存資訊的方式。顯然,相比起書面儲存,數字儲存有更低的成本和更高的效益。當前,數字資訊已經滲透到我們生活和社會的方方面面,以至於近些年資訊生產量的增長似乎勢不可擋。數字資訊的膨脹帶了巨大的儲存需求,也推動了儲存產業進行自發的更新。

一方面,新的儲存產品形態和技術架構開始普及。一是快閃記憶體和固態硬碟(SSD)價格持續降低,成為更多人的選擇;二是儲存技術也在快速發展,新的介面、協議、架構開始出現,使儲存裝置的頻寬、效能和儲存容量得到極大提升,為更高效能的伺服器設計和更大規模的資料中心應用做好了準備。

另一方面,新的儲存系統以及建立在其上的各種儲存架構理念開始出現。除了傳統的儲存陣列之外,全快閃記憶體陣列、混合儲存等儲存系統開始湧現,從不同的角度滿足大規模儲存和上層應用對於資料的快速讀取需要;融合儲存、超融合儲存、軟體定義儲存等各種理念,各自都能看到許多廠商的背後支援。

此外,在軟體技術和硬體發展的推動下,雲計算技術和產業日趨成熟,給包括儲存在內的傳統硬體產業帶來巨大的衝擊。總的來說,儲存技術的發展支撐著日益擴大的資料應用的需求,使資料不斷昇華為資訊和知識,並再一次被重新投入到新一輪的各類社會經濟活動中,創造出更大的價值。

資料儲存,如何解決能耗問題和孤島現狀?

能耗問題和資料孤島

資料儲存的重要性不言而喻。然而,資料作為當前社會最寶貴的資源之一,在資料儲存技術不斷更新的背景下,卻依然面臨各類資料的長期儲存管理不善的問題——在大量資料吞吐和運算帶來不可忽視的能耗問題的另一邊,資料孤島問題突出,資源浪費難以避免。

在2進位制程式碼中,數字資訊以1和0的形式儲存,也稱為位元。8位元構成1位元組。然而,全世界在2018年建立、捕獲、複製和消耗的資料總量就已經達到33澤位元組(ZB),而1澤位元組整整有8x1021位元。2020年,這一數字增長到59 ZB,預計到2025年將達到令人難以想象的175 ZB。

更直觀地說,假設每一個位元都是一枚硬幣,大約3毫米厚。由一摞硬幣組成的1ZB將有2550光年高,可以到達最近的恆星系統半人馬座阿爾法星600次。目前,我們每年產生的資料量是這個數字的59倍,複合增長率估計在61%左右。

為滿足日益增長的數字資料儲存需求,每兩年就會有約100個新的超大規模資料中心建成。根據工信部印發的《新型資料中心發展三年行動計劃(2021-2023年)》,到2023年底,全國資料中心機架規模年均增速保持在20%左右,總算力超過200EFLOPS,高階算力佔比達到10%。

大量資料吞吐和運算,不可避免地增加用電量,這將排放大量二氧化碳,以及二氧化硫、氮氧化物等主要環境汙染物。2018年,中國資料中心總用電量為1608億千瓦時,佔全社會用電量2。35%,用電相關排放量為9855萬噸二氧化碳,成為名副其實的“耗能大戶”。按照當前速度發展,預計到2023年,資料中心能耗將相當於2。6個三峽電站的發電量,碳排放量將達1。63億噸。

面對不可忽視的能耗問題,建設一體化大資料中心、破解高能耗難題,找準破局關鍵點尤為重要。然而,事實是,由於不同主體對資訊化的不同需求,各類資料依然被封存在不同的系統中,孤島林立,不可避免地造成了資源的浪費。

數字資訊通常儲存在三種地方:一是全球各地的終端,包括所有物聯網裝置、個人電腦、智慧手機和所有其他資訊儲存裝置。二是邊緣位置,包括基礎設施如手機發射塔和機構伺服器,以及服務處如大學、政府辦公室、銀行和工廠。三是儲存大部分資料的核心位置——傳統資料伺服器和雲資料中心。

資料儲存,如何解決能耗問題和孤島現狀?

然而,在設計資訊系統架構時,由於沒有一套參照的標準。因此,不同的主體的不同的選擇,使得各類資料依然被封存在不同的系統中。以政府為例,根據政府採購網的採購公告,僅過去半年就有11431條相關採購,各省的各種單位都有,採購金額從幾十萬到幾百萬不等,比如:

中國教育圖書進出口有限公司私有云儲存擴容採購專案230萬;重慶大學全快閃記憶體儲及伺服器採購專案243萬;中央廣播電視總檯私有云儲存裝置全包代維專案150萬;廣州中山大學第一附屬醫院資料中心伺服器與儲存擴容升級專案601萬;廣東工貿職業技術學院儲存容量擴容專案 30萬等等。

這帶來的後果,首先是每個單位都有自己的機房、伺服器和管理員,造成管理成本上的浪費;再就是當每個單位都使用自己的儲存格式、資料庫設計、操作軟體,將不利於資料通用和對外開放,而大量資料吞吐和運算,又不可避免地增加用電量,側面帶來能耗上的浪費。

政府尚且如此,更不用說以商業為目的企業。因為企業在不同發展時段對資訊化有著不同需求,在搭建基礎設施與軟體系統時本就有側重。再加上有限的預算與部署難度,使得很多企業資訊化系統之間都互不相通。

往往每個事業部都有各自儲存、各自定義的資料。各部門資料就像一個個孤島一樣無法和企業內部其他資料進行連線互動。存在資料孤島的企業,所有資料被封存在各系統中,讓完整的業務鏈上孤島林立,資訊的共享、反饋難。資料之間缺乏關聯性,資料庫彼此無法相容。

合理規劃打破孤島

如何解決能耗問題和資料孤島,更好地儲存、管理和使用資料是資料儲存的當務之急。

顯然,社會對資料儲存和使用的認識有待提高。當前,隨著全球雲計算產業的深刻變化,其產生了越來越多的新型資料庫,這些資料庫一方面依靠儲存技術來儲存海量資料,另一方面又給儲存服務提出了新的訴求,影響著它的發展。但是,全社會對資料儲存的認識並未及時更新。比如,現階段政府部門雖然大力倡導大資料發展戰略,但是許多資料儲存仍然沿襲傳統分析流程和方法。

資料儲存,如何解決能耗問題和孤島現狀?

一方面,從能耗角度來看,資料儲存需要合理規劃佈局,統籌叢集發展。供需失衡、能源佈局失配,是我國資料中心的突出問題。這需要全國大資料中心的一體化佈局,合理應用我國能源分佈特點,結合當地能源條件。目前,我國資料中心存量機櫃數量機櫃總數約360餘萬架,其中熱資料集聚在京津冀、長三角、珠三角三大經濟區,冷資料集聚於西部資源富足地區。

此外,還應進一步挖掘資料中心的節能減排潛力,提升能源利用效率、降低能耗;加大對基礎設施的整合排程,推動老舊基礎設施轉型升級,靈活運用高密度整合高效電子資訊裝置、液冷等節能技術,及可再生能源。

另一方面,對於資料分散的現狀而言,“各打各的鑼、各唱各的戲”是導致政府部門資訊孤島、重複建設問題的重要原因。目前,中央層面建立了國家電子政務統籌協調機制,釐清了中央有關部門在電子政務建設、管理、執行和標準化方面的職能和職責,避免了部門之間職責交叉重疊。

然而,由於國家電子政務統籌協調工作職能多次調整,各地數字政府建設水平參差不齊,使得地方數字政府建設統籌工作的情況依然複雜,各地做法也不盡相同。從整體來看,地方統籌協調不暢,網路、平臺、應用等資源建設管理缺乏有效配合的現象仍舊客觀存在。因此,想要打破政府部門的“孤島”現象,還需要持續的深入的調整和改革。

在企業方面,失去對資料的控制權是企業對開放資料的最大擔憂。基於此,隱私計算作為一種由兩個或多個參與方聯合計算的技術和系統,參與方可以在不洩露各自資料的前提下透過協作對他們的資料進行聯合機器學習和聯合分析。

隱私計算的參與方既可以是同一機構的不同部門,也可以是不同的機構。在隱私計算框架下,參與方的資料不出本地,在保護資料安全的同時實現多源資料跨域合作,可以破解資料保護與融合應用難題。

儲存是利用資料的基礎,只有看清了這一點,我們才能更加遊刃有餘地改造和最佳化儲存架構,並使之成為資料價值挖掘的有利工具和平臺。