華為雲:解碼人類基因的奧秘,Kubernetes是隱身“英雄”

在科學的視角中,一切事物都妙趣橫生,包括人類本身。

一直以來,我是一個與牛奶“絕緣”的人,就是人們常說的乳糖不耐受。為什麼我和別人不一樣?直到有一天,我得知這是由於基因所致的乳糖代謝能力差,就像有些人酒量好、有些人喝咖啡無法入睡……對於同一種食物有著不同的反應,看似生活中的平凡小事,背後都隱藏著精巧的基因學密碼。

DNA的奇妙之旅

人類是真核生物,共有23對染色體,包含22對長染色體和一對性染色體。如果這些DNA做統一的處理,在性細胞裡有31度的鹼基對,而二萬多二萬五千對的基因決定了人類的身高、體重、相貌等特徵,還決定了對牛奶等食物是否敏感、以及對藥物和疾病的易感性,甚至於頭髮的多少也和基因有一定的關係。DNA提取出來了以後,鹼基就像樂高拼圖一樣,組成了我們的基因序列。DNA作為人類生命的編碼,就像是計算機的二進位制編碼決定著程式一樣。

人類對“解碼”自己充滿著好奇心。2003年,耗資30億美元的人類基因組計劃完成,代表著人類基因草圖繪畫的完成,成為一個里程碑事件,在此之後,單人全基因組測序成本不斷下降,個人消費級的基因檢測從數千美元下降到一百美元以內。

隨後,針對消費市場的基因檢測公司與企業的數量呈現爆發式增長,總部位於陝西西安、2016年成立的圖靈生物是全國五千家向用戶提供基因檢測服務的公司之一。

那麼,基因測序究竟是什麼?這個行業面臨的挑戰和機會是什麼?又和當今科技行業流行的雲原生,容器、Kubernetes產生哪些化學反應?圖靈生物CTO王超向筆者解答了以上的疑問。

華為雲:解碼人類基因的奧秘,Kubernetes是隱身“英雄”

圖靈生物CTO 王超

實際上,基因測序和計算機技術是相輔相成的。據王超介紹,當從口腔上皮細胞提取出DNA之後,接下來是核酸提取和建庫的過程,然後就會“上機”。資料形成原始資料,全基因大概是150G,外顯子是60-70G的大小,晶片會提取需要的大約15M資料進行檢測。資料提取後進入到分析階段,首先檢測這些資料的質量合格與否,其次進行擴充套件的使用,再次,分析基因群和人體中的某一個表現的關聯性,比如乳糖不耐、花粉敏感……透過組建眾多的資料庫,對基因進行進一步解讀。

從HPC到Kubernetes

對於大多數基因檢測企業來說,資料的處理過程都是依靠HPC來完成的。王超介紹說,在此前,圖靈生物的測序中心旁邊,建立了私有的資料中心,採用HPC的方式,透過共享的儲存和叢集來完成基因的存取和分析工作。而隨著業務的增加和資料量的激增,會導致資源管理遇到非常大的挑戰,尤其是儲存和計算;此外,還存在著維護大量“碎片化”工具的挑戰,“每天5000多個工具是非常原始化的,這些工具分散在基因組、轉入組、蛋白質組等,這些工具有開源的、也有閉源的,開發的語言也不一樣,包括R語音、比較底層的C++等,如何將這些工具安裝部署、如何串聯起來管理、甚至日常打補丁等基礎維護都面臨很多困難和挑戰。”王超說。

於是,圖靈生物技術團隊在研究和調研的過程中,發現容器和 Kubernetes和基因測序是可以完美切合的“天生一對”。因為如果採用容器化的方式進行打包和封裝,那麼管理、升級都非常方便,而且用 Kubernetes進行管理,資源的排程和維護都會變得簡單,對於環境的擴容非常有利。

找到了完美的方案,就如長夜漫漫後的曙光一樣讓人興奮。但隨後,便被“陰霾”所籠罩。圖靈生物的技術團隊對於容器技術比較陌生,由於已經習慣了HPC的環境,要轉到雲原生和容器的環境,存在著門檻:不僅要學習 Kubernetes等關於容器的專案,還要了解如何在新的環境下寫基因應用,這個過程將會付出相當大的學習成本。此外,在基因測序的過程中,流程管理非常複雜,想要把 Kubernetes放在基因測序的工作流程中,中間也存在一定的鴻溝。

“如果有一種方式可以將一切簡化,那就好了。”王超說,而正在困擾的時候,華為雲走進了他們的視野。

GCS基因容器:更省、更快、更輕鬆

在2018華為全聯接大會上,華為雲推出了以Kubernetes為基礎的

GCS

基因容器服務,它是專門為基因計算設計容器產品,將基因測序和容器技術完美結合在一起。基因容器基於輕量級的容器技術,結合大資料、深度學習演算法,為測序廠商提供了靈活可定製的測序流程、秒級可伸縮的高可靠資源和便捷一站式使用者體驗。

華為雲:解碼人類基因的奧秘,Kubernetes是隱身“英雄”

華為雲BU PaaS產品部總經理 廖振欽

據筆者瞭解,GCS基因容器是華為雲在Kubernetes封裝了一層關於基因測序的抽象,讓基因行業可以迅速部署和使用容器技術,幫助基因行業的使用者提高資源利用率,輕鬆應對波峰波谷,降低環境搭建的複雜性。

具體來說,GCS基因容器可以讓基因計算“更省、更快、更輕鬆”:

首先,叢集自動擴縮容保證永遠資源最小消耗、任務投放密度更高保證資源得到最大利用、提供一站式服務保證運維成本低,讓企業省錢。

其次,容器的高併發度帶來的效能提升,減少了計算時間;其支援Deepvarient、Spark等深度學習工具,提高計算效率;同時基因容器也會支援更多AI工具,加速測序程序。。。。意味著“更快”。

再次,基因容器基於容器思想帶入測序領域,實現全測序軟體容器化,軟體免安裝免升級,一鍵節點維護,日誌、監控一目瞭然,使得維護複雜度呈指數級下降,讓企業更輕鬆。

在應用GCS、從HPC遷移到了 Kubernetes後,圖靈生物快速彌補了行業短板,從而能夠專注在基因測序技術的創新領域上,“快”人一步,逐漸成為了行業領軍者。

從GCS到 KubeGene的開放進化論

華為雲:解碼人類基因的奧秘,Kubernetes是隱身“英雄”

雖然一直保持著低調,但華為雲實際上是Kubernetes領域的早期踐行者。早在2015年,就首次加入了Kubernetes社群,並作為創始會員之一參與發起了CNCF基金會;2016年,國內第一家釋出基於K8S的容器服務CCE;2017年第一批成為全球K8S認證的服務提供商,並且CCE也首批通過了K8S的一致性認證。

三年來,華為在基金會領域持續積極貢獻:在Kubernetes領域,華為先後大顆粒貢獻了叢集聯邦、高階排程策略、IPVS負載均衡,容器儲存快照等專案。並透過CloudNativeLives直播、參與組織各類技術峰會和雲原生技術沙龍、發表技術文章等的形式,持續貢獻力量構助力構建國內雲原生生態。目前,華為雲在CNCF基金會,全球貢獻3000+ PR,全球排名第三,國內排名第一。

Kubernetes和Cloud Native的技術不是完美的,對於使用者來說,挑戰在於存在一定的複雜性,門檻比較高。“對於做容器遷移的企業來說,即使十個人左右的團隊都覺得非常吃力,而更多的企業則更難投入這麼多人力來做這方面的研究工作。 華為雲是要把 Kubernetes的技術做成一個服務,按照雲服務的方式提供,賦能給各行業的企業使用者,讓他們更方便使用雲原生技術。華為雲在2016年推出了基於K8S容器的CCE服務,今年推出了CCI服務,更進一步降低了門檻。”華為雲BU PaaS產品部總經理廖振欽介紹道。

在不久前的KubeCon + CloudNativeCon 2018(以下簡稱KubeCon) 大會上,華為雲宣佈將GCS開源:基於容器技術的一站式基因測序計算框架KubeGene,希望藉助社群和生態的力量,讓KubeGene發揮更大的價值,降低行業開發者學習雲原生和容器的技術門檻。

有強勁容器技術的支撐,再結合基因測序場景所出現的具體的痛點,華為雲在雲原生技術生態構建和行業使能上必然將越來越發揮出更多效用,而人類也正在離全方位解碼自己的目標越來越近。