馬堅實驗室開發單細胞三維基因組機器學習方法

馬堅實驗室開發單細胞三維基因組機器學習方法

責編 | 兮

隨著染色體構象捕獲技術 (Hi-C) 等高通量實驗技術的發展,染色質在真核生物細胞核內的多尺度的三維基因組特徵(例如A/B區室 (A/B compartment), 亞區室 (subcompartments), 拓撲關聯結構域 (TAD) 和染色質環 (chromatin loop))得以被不斷揭示。這些不同尺度的三維基因組特徵整體上與重要細胞功能 (譬如基因表達和遺傳物質複製) 緊密相關。然而在單細胞層面,我們對這些三維基因組特徵的變化及其潛在的影響仍知之甚少。

新興的單細胞染色體構象捕獲技術 (scHi-C) 的出現使得我們能夠在單細胞層面理解三維基因組的功能特性。然而,能夠充分利用高維但稀疏的scHi-C資料分析細胞與細胞間三維基因組變化的系統性計算方法嚴重不足。

馬堅實驗室開發單細胞三維基因組機器學習方法

2021年10月11日,美國卡內基梅隆大學計算機學院計算生物系的

馬堅

實驗室 (第一作者為博士研究生

張若弛

,第二作者為博士研究生

周天茗

) 在

Nature Biotechnology

發表了題為

Multiscale and integrative single-cell Hi-C analysis with Higashi

的長文。

文章詳細介紹了一種全新的基於超圖表徵學習

(hypergraph representation learning)

的機器學習方法來進行多尺度和綜合性的scHi-C分析。

馬堅實驗室開發單細胞三維基因組機器學習方法

這個名為Higashi的機器學習演算法透過將scHi-C資料表示為超圖,首次把單細胞資料嵌入問題 (scHi-C embedding) 和資料補缺問題 (imputation) 納入了一個統一的計算框架。具體而言,單細胞資料嵌入問題被轉換為超圖嵌入問題 (hypergraph embedding),而資料補缺問題變為超邊預測問題 (hyperedge prediction)。

馬堅實驗室開發單細胞三維基因組機器學習方法

這個研究首先將Higashi應用於多個有已知細胞型別標註的scHi-C資料集和基於超分辨顯微成像的模擬資料集,並與現有的scHi-C嵌入方法和資料補缺方法進行了全面比較。結果顯示,Higashi能更有效和準確的完成單細胞資料嵌入和資料補缺。

更有意義的是,研究小組又將Higashi應用於人腦前額葉皮層組織的單細胞資料集 (sn-m3c-seq) 並充分展示了Higashi在複雜組織上僅使用染色質三維結構特徵發現亞細胞型別的強大能力。透過使用Higashi生成的單細胞嵌入向量和增強補缺的scHi-C接觸圖 (contact map), 研究小組發現了細胞間A/B區室和拓撲關聯結構域的異質性和其對細胞特異性生物功能的影響。

作為迄今為止最系統的針對scHi-C的計算方法,Higashi能夠極大提高對scHi-C資料的分析,對研究三維基因組結構的時空動態性及其在不同生物學過程中的影響大有裨益。

關於馬堅實驗室

馬堅是美國卡內基梅隆大學計算機學院Ray and Stephanie Lane計算生物講席教授。他的實驗室主要開發機器學習方法來研究基因組以及細胞的結構和功能。目前正招收博士後:https://www。cs。cmu。edu/~jianma/

原文連結:

https://www.nature.com/articles/s41587-021-01034-y

馬堅實驗室開發單細胞三維基因組機器學習方法

馬堅實驗室開發單細胞三維基因組機器學習方法