發(fā)布時間:2017-02-28作者:諾為爾基因瀏覽次數(shù):4292
ConStrains:一種可以將宏基因組中微生物種類鑒定到菌株的新算法
目前大多數(shù)常用的宏基因組微生物多樣性檢測工具,只能將微生物鑒定到種(species)的水平,但這往往是不夠的,因為同一細菌、真菌或病毒的不同株型,可能在功能上存在較大的差異。比如說,人腸道微生物中,相對無害的大腸桿菌和腸出血性大腸桿菌在物種水平上看起來很相似,但后者因為攜帶毒力因子,可以引起嚴重腹瀉。要對宏基因組中微生物菌群有透徹的了解,就非常有必要了解同一種微生物不同菌株之間的差異,有的時候這比了解不同微生物物種之間的差異更為重要。目前已有的一些可以不通過純培養(yǎng)將微生物鑒定到菌株水平的方法,都各自存在一些局限。比如說單細胞測序需要耗費大量精力進行細胞分離及懸浮,不適合大規(guī)模檢測;HiC技術(shù)需要額外進行基于染色體交聯(lián)的建庫和測序;PathoScope、Sigma等計算方法,又強烈依賴于所研究菌株的參考基因組序列...
ConStrains(名字來源于Conspecific Strains,取“同一物種不同菌株”之意)算法,采用的是一種新的分析策略。微生物的不同菌株,其基因組中總有部分基因是高度保守的,這些基因的集合就叫“核心基因組”。不同菌株的核心基因組之間,也會存在單核苷酸多態(tài)性(SNP)。ConStrains算法的關(guān)鍵,就是通過檢測核心基因組中各SNP位點各種堿基出現(xiàn)的頻率,來推測不同菌株的豐度差異,以及某些特定基因的基因型。由于該算法只用到菌株之間共有的基因組部分,因此只需要知道所研究微生物物種的一個參考基因組就可以,不需要所有菌株的基因組。至于測序深度,一般每個樣本測到10X以上就足夠了。
通過模擬數(shù)據(jù)和數(shù)據(jù)庫中實際宏基因組數(shù)據(jù)的檢驗,ConStrains都取得了較為滿意的結(jié)果。其中一組涉及嬰兒腸道微生物宏基因組的研究,對9個嬰兒個體從出生到三歲共54個樣本進行了分析,發(fā)現(xiàn)其中主要微生物物種雖然總體水平基本保持穩(wěn)定,但菌株的豐度組成其實是在不斷變化之中的,例如主要微生物——長雙歧桿菌就是如此。這是以前沒有發(fā)現(xiàn)的,可能和嬰兒腸道從最初的適應乳汁/奶粉中糖類吸收到斷奶后的變化有關(guān)。
ConStrains算法用python編寫,采用全自動化流程,作為開源軟件,所有從事宏基因組研究及微生物多樣性檢測的信息分析人員都可以下載使用。本論文第一作者,也是該算法主要開發(fā)者,是在美國麻省理工學院-哈佛大學聯(lián)合成立的Broad Institute及麻省總醫(yī)院任職的華人科學家羅程偉(音譯)。
原文檢索:
Luo,C., et al. ConStrains identifies microbial strains in metagenomic datasets. Nature Biotechnology.DOI: 10.1038/nbt.3319 (2015).