中國天眼的資料是如何儲存的?

原標題:中國天眼的資料是如何儲存的

作者:寧佳彥

[ 中國天眼採用了60餘臺高密度節點AS13000G5-M60,單節點容量接近一個PB,節省了資料中心物理空間,運營成本節省了65%。 ]

如果開啟“天眼”,可以看到怎樣神奇的畫面?

由中國科學院國家天文臺李迪教授和王培博士領導的國際研究小組在《自然》雜誌最新的一篇論文顯示,FAST累計發現1652次快速射電暴,超過以往文獻記載數量總和。從2011年3月25日“中國天眼”開工建設再到2020年透過國家驗收,投入正式執行。這不僅僅是天文科學的進步,也是建設數字基礎架構的標誌性事件。那麼,它海量的資料是怎麼儲存的?

高儲存需求

中國科學院國家天文臺FAST資料中心組組長黃夢林經歷了資料中心從無到有。

她告訴第一財經,2005年前後,FAST先跟當地的大學合作建了早期科學資料中心,“那時候的技術肯定沒有現在這麼發達,建一個2PB的叢集得擺三個機櫃”。等到FAST在2016年建成,被稱作資料中心的現場,其實是集裝箱,帶有實驗的性質。“真正開始考慮資料中心要做大規模的時候,是在2019年試執行”。

天眼蒐集的資料可是大得驚人,每秒採集的資料量最多可達38G,每年新增資料量達到10PB,靈活、可彈性擴充套件的資料基礎設施成為中國天眼的剛需,首先要解決的就是儲存問題。

“一個是容量要大,因為我們機房面積有限,所以需要高密度儲存。而且需要穩定性,因為我們的資料量大,要是異地備份需要的成本就更高。我們現在存資料,希望它的穩定性非常好,非常高,保證我們只有一份資料但是也不會丟。” 黃夢林說。

在建設自己的資料中心之前,FAST還曾經租用過別人的機房。但是解決問題的響應速度不好跟上,而且成本也在水漲船高。“我們也要考慮硬體和軟體的結合和以後的服務、運維方面,是一家公司協調起來更簡單,可能工作起來效率會更高,就是這樣。” 黃夢林說。也正是基於這樣的考慮,FAST專案開始招標建立自己的資料中心。

“我們看到使用者在使用的時候,剛開始這麼大的一個叢集,也是面臨一種新的場景,總歸是會有需要,問題的解決處理,這個時候本土化的廠商是非常重要的。”浪潮資訊首席架構師葉毓睿介紹,FAST的資料是非結構化資料,對儲存的考驗很大,一方面是儲存的擴充套件性,另一方面,當資料到達一定量的時候,運維管理的挑戰也會凸現出來,“管理人員還是有限的,但那麼多的儲存怎麼樣更好地管理,我們有一些相應的手段”。

“裝得下”也要“用得好”

天文研究是典型的大資料場景,資料儲存不僅需要讓中國天眼“裝得下”資料,更要成為全球科學家天文大資料研究的加速引擎,讓科學家們“用得好”。

黃夢林介紹,接收下來的資料都會經過預處理,這是個自動的流程。對於進一步的資料處理,根據天文研究專案負責人的意願來決定,如果專案負責人有需要,資料中心也可以提供處理。如果不做要求,FAST就直接提供觀測資料。

為了滿足這些需求,浪潮儲存以高效能節點提升天文大資料儲存、處理和分析的效率,以高密度節點“海納”天文級資料,基於智慧IO均衡、智慧資源排程、智慧元資料管理等軟體棧演算法讓百萬級IO均衡落盤且路徑更短,從而實現資料在不同層級儲存之間能夠根據天文業務需求實現資料自由流動。

具體來說,浪潮儲存基於超大規模分散式儲存平臺,在一個儲存平臺內部署高效能和高密度兩種節點,提供53PB容量、100G聚合頻寬和AIOps智慧管理,為中國天眼FAST的IT基礎設施建設提供了支撐,完成了計算效能超2000萬億次/秒、頻寬達100GB/秒,冷熱資料分層儲存可以容量達53PB的自有資料中心平臺建設。中國天眼採用了60餘臺高密度節點AS13000G5-M60,單節點容量接近一個PB,節省了資料中心物理空間,運營成本節省了65%。

要想用得好,前路亦有挑戰。以AI為例,資料的採集、模型的訓練、應用的推理還有長期的存檔讓整個儲存行業都在面臨挑戰:資料吞吐能力,也就是每秒的運算元要求很高,儲存介質也有變化,甚至有可能利用記憶體的池化去應對更高的儲存需求。這導致整個IT的基礎架構都在根據場景的需求不斷衍生、迭代。

“在分散式儲存裡其實還有很多可探索的空間,像天眼是我們看到的其中一種。”葉毓睿說,隨著需求增長,需要有更多的算力, “其實就是朝著一切皆計算機的方向去發展”。