導航:首頁 > 生物信息 > 生物n50是什麼

生物n50是什麼

發布時間:2022-09-14 01:53:07

『壹』 入門必看—輕松掌握Contig Binning分析

境或人體微生物中廣泛存在著菌株水平的差異,這些菌株個體水平的基因差異決定了其功能執行上的顯著不同。宏基因組測序是對人體或自然環境樣品進行菌株水平研究的唯一途徑[1]。而環境樣品驚人的復雜性為菌株重建帶來了極大的挑戰,各種新的實驗方法、測序策略和技術工具應運而生,基於宏基因組進行種水平乃至菌株水平研究的分析方法也日漸完善[2]。

Binning的含義是分箱、聚類,指從微生物群體序列中將不同個體的序列(reads或contigs等)分離開來的過程。簡單來說就是把宏基因組數據中來自同一菌株的序列聚到一起,得到一個菌株的基因組。根據基於聚類的序列類型的不同,分為reads binning,contig binning 和 genes binning。近年來高分文章(表1)中多使用Contig Binning,即將組成相似或豐度一致的Contigs聚類到同一物種從而完成單菌的草圖組裝,進一步解析菌株的功能特性。

表1 近年來 Contig Binning 高分文獻

1. Contig Binning 原理

利用核酸組成信息( Nucleotide composition )進行 binning :來自同一菌株的序列,其核酸組成是相似的,於是可以根據核酸組成信息來進行binning,例如根據核酸使用頻率(通常是四核苷酸頻率),GC含量和必需的單拷貝基因等。

利用基因豐度( Nucleotide abundance ) 變化 :研究發現來自同一個菌株的基因在不同的樣品中 ( 不同時間或不同病理程度 ) 的豐度分布模式是相似的。因此可以根據豐度信息來進行binning,即在不同樣品中的豐度變化模式。

同時利用核酸組成信息及基因豐度變化 :即核酸組成與豐度(NCA-Nucleotide composition and abundance)。NCA策略,既能保證binning效果,也能相對節約計算資源,因此目前主流軟體多為NCA演算法[3]。

2. 常用的 Contig Binning 軟體

下圖[3]對常見的一些NCA-based contig binning軟體進行了比較。其中MetaBAT[4]是歷史引用量最高,且2019年又推出了MetaBAT2[5]。下面利用真實宏基因組數據對使用較為廣泛的MaxBin[6],CONCOCT[7],及MetaBAT2軟體進行測試比較。

基於相同的contigs進行binning,三個軟體資源消耗分別如下表2,CONCOCT軟體binning速度快,MetaBAT2相對來說消耗時間較長。

表2 不同軟體資源消耗比較

基於15個樣本,統計各軟體binning結果。並利用 CheckM[13]軟體來評估 binning 的質量,綜合考慮 binners 的完整度,污染度及大小等方面。表3基於 CheckM 對各軟體 binning 結果評估,並統計污染度<10%時,完整度>95%,>70%,>50%的 binners 的個數。發現MetaBAT2 獲得的 binners 結果較好。

表3 基於 CheckM 對各軟體的 binning 結果進行評估

綜上,CONCOCT軟體binning速度快,並且得到的binner結果也相對較好,MetaBAT2相對來說消耗時間略長,但得到的binning結果最好。但是由於環境中物種多樣性十分豐富,使用一個軟體binning可能會丟掉一些物種,如果時間及資源允許,我們可以使用多個軟體進行binning,得到結果之後利用ANI>95%(ANI被定義為兩個微生物基因組同源片段之間平均的鹼基相似度,在近緣物種之間有較高的區分度)去重復。

3. Binning 結果優化

得到高質量的 binners 之後,還可將其進行優化,通常的方法是將樣本的高質量reads 比對回各 binners,再通過 SOAPdenovo[8],Spades [9]等軟體重新組裝。但是如果環境的復雜度很高,mapping得到的reads可能並不都來源於同一個物種,這種情況會嚴重影響重新組裝的效果,可能重新組裝後得到的結果比之前更差。另外,mapping及重新組裝消耗時間、內存、存儲等資源很大。

因此,我們嘗試通過 三代 meta 對二代 contig binning 結果進行優化,其過程是利用基因組延伸軟體(sspace[10]、pScarf[11]、OPERA-LG[12]等)和三代 reads 對二代 binning 結果進行延伸。延伸後的 binners(表4)在包含序列數,N50,組裝總長度,最長 scaftigs 都有明顯提升。

表4 延伸後 binners 參數指標

以N50為例,延伸前後N50長度如下圖所示,可以看到延伸後N50長度得到明顯提升。

4. 高質量 Binners 分析

最終得到高質量的Binners即MAG(metagenome assembled genomes)之後,既可以基於單個MAG進行單菌基因組草圖分析,也可以統計MAG豐度進行分組或樣本層面的分析。

Contig Binning是研究微生物群落結構及功能的新方法,利用三代宏基因組數據優化,不僅能提升物種組裝完整度,同時還能提升物種注釋的准確度,挖掘更多的低豐度物種。

參考文獻:

[1] Marx V, Microbiology: the road to strain-level identification[J]. Nature methods, 2016. 13(5): p. 401-404.

[2] Donati C, et al., Uncovering oral Neisseria tropism and persistence using metagenomic sequencing[J]. Nature microbiology, 2016. 1: p. 16070.

[3] Sangwan N, Xia F, Gilbert J A. Recovering complete and draft population genomes from metagenome datasets[J]. Microbiome, 2016, 4(1):8.

[4] Kang, Dongwan D, Froula, et al. MetaBAT, an efficient tool for accurately reconstructing single genomes from complex microbial communities[J]. United States: N. p., 2015. doi:10.7717/peerj.1165.

[5] Kang DD, Li F, Kirton E, Thomas A, Egan R, An H, Wang Z. MetaBAT 2: an adaptive binning algorithm for robust and efficient genome reconstruction from metagenome assemblies[J]. PeerJ. 2019 Jul 26;7:e7359.

[6] Wu Y W, Tang Y H, Tringe S G, et al. MaxBin: an automated binning method to recover indivial genomes from metagenomes using an expectation-maximization algorithm[J]. Microbiome, 2014, 2.

[7] Johannes Alneberg, Brynjar Smári Bjarnason, Ino de Bruijn, et al. Binning metagenomic contigs by coverage and composition[J]. Nature Methods, 2014, doi: 10.1038/nmeth.3103.

[8] Luo R, Liu B, Xie Y, et al. SOAPdenovo2: an empirically improved memory-efficient short-read de novo assembler[J]. Gigascience, 2012 ,1(1):18. doi: 10.1186/2047-217X-1-18. 

[9] Bankevich A, Nurk S, Antipov D, et al.. SPAdes: A New Genome Assembly Algorithm and Its Applications to Single-Cell Sequencing[J]. Journal of Computational Biology, 2012.

[10] Boetzer M, Pirovano W. SSPACE-LongRead: scaffolding bacterial draft genomes using long read sequence information[J]. BMC Bioinformatics, 2014, 15, 211.

[11] Cao MD, Nguyen HS, et al. Scaffolding and Completing Genome Assemblies in Real-time with Nanopore Sequencing[J]. Nature Communications, 2017, Article number: 14515. doi:[10.1038/ncomms14515].

[12] Gao S, Bertrand D, Chia BKH, et al. OPERA-LG: efficient and exact scaffolding of large, repeat-rich eukaryotic genomes with performance guarantees[J]. Genome Biology, 2016, 17, 102.

[13] Parks DH, Imelfort M, Skennerton CT, et al.. CheckM: assessing the quality of microbial genomes recovered from isolates, single cells, and metagenomes[J]. Genome Research, 2015, 25(7):1043-55. doi: 10.1101/gr.186072.114. 

『貳』 ncbi上基因組統計結果中的l50代表什麼意思

l50不同於n50;簡單來講,l50側重條數統計,n50偏重長度統計。

下面是wiki給出詳細解釋:

詳細請參考:

https://en.wikipedia.org/wiki/N50,_L50,_and_related_statistics

『叄』 植物的基因序列

植物基因組通常具有較高的重復序列,且很多為多倍體,因此組裝植物基因組具有一定的挑戰性。雙子葉模式植物擬南芥、單子葉模式植物水稻基因組序列分別在2000年、2005年公布,它們都是基於BAC克隆及sanger法測序的方法獲得的,至今在植物基因組序列中其質量依然是最好的。

二代測序技術的出現及發展,極大地加快了植物基因組的研究進程,已經有超過200種植物獲得了基因組序列,但是由於二代測序讀長短,大部分的基因組組裝結果都不高,含有數千個scaffolds;雖然基因區相對完整,但是富含轉座元件的區域都裝得比較碎,且明顯低估了這些區域的比例,僅有少部分組裝到了染色體水平。

近年來,隨著三代PacBio、Oxford Nanopore測序技術的發展,可以獲得較長的DNA片段,採用一定的組裝軟體,較為容易獲得高質量的組裝結果,尤其是在提高序列的完整性及重復序列組裝方面有了很大的改善。不過到目前為止,依然只有少數植物基因組組裝的完整性較好,contig N50>5Mb的只有6個;另外即使是基於長讀長reads得到較長的contigN50(>1Mb),要想獲得染色體水平的序列依然是不太容易的。



下面,小編通過Nature Plant一篇文獻「Chromosome-scale assemblies of plant genomes using nanopore long reads and optical maps」了解下如何通過採用三代測序加上optical maps、Illumina二代數據及遺傳圖譜的策略獲得染色體級別的植物基因組序列吧。

組裝結果
文章研究了三個物種,分別為雙子葉芸薹屬的B. rapa(yellow sarson,Z1),B.oleracea(broccoli, HDEM)及單子葉芭蕉屬的Musa schizocarpa(banana),這3個物種B.rapa Chiifu、B. oleracea To1000、Musa acuminate Pahang-HD曾採用short-reads策略獲得了基因組序列,不過序列多為片段化(contig N50<50kb)。

『肆』 杜康酒窖齡N50和U50是什麼意思,什麼區別

濃香型白酒由糧食變為美酒,這一過程主要在窖池中完成,窖池是發酵的容器。濃香型白酒窖池由弱酸性黃泥粘土建造的。「千年老窖,萬年糟」,濃香型白酒每釀一次酒會留下1/4老酒糟,添加3/4糧食。1/4老酒糟中富含豐富的有益微生物和香味物質,由此周而復始不停釀造。由於泥土做成的窖池凹凸不平,窖泥中會附著很多有益微生物。
窖齡老酒才好
泥窖釀酒,是中國人的一大發明。從現代生物技術角度看,泥窖釀酒是集糖化發酵、酯化等多種生化反應於一體的釀酒過程,而泥窖本身是多種微生物的載體,是多種微生物固定化培養基,沒有半衰期,效果越來越好的生化反應容器,窖齡越長!
這個問題問的有水平,窖池是傳統固態發酵的低於地面的一個長方形凹坑,一般長三米,寬一米五,五百年前就有,後來因時間變遷,戰火紛擾,很多窖池無所影蹤了,但是國內仍然有一些窖池得以保存發掘,老窖池因長期使用,泥土中各種互生的維生物已經存在,對酒料的發酵有強大的催生作用,老窖池一個月,可能頂的上新窖池一年,所喲老窖池出來的酒微生物更為復雜,口感更佳,有些新窖池通過老師傅的處理,用爛水果,河泥等催化也有類似的效果,但是仍然不如真正的百年窖池,通常養一個窖池需要二三十年。但是,真正老窖池原漿很難買到的。不懂再問,採納優先。

『伍』 高通量測序基因組拼接技術指標中的Contig N50和Scaffold N50是什麼意思

對一條染色體進行測序,將測序得到的reads進行拼接,能夠完全拼接起來,中間沒有gap的序列稱為contig。 如果中間有gap,但是gap的 長度我們知道,這樣的序列就叫做scaffold。

將測序得到的所有contig和scaffold從大到小進行排列,當其長度達到染色體長度的一半時,這一條contig和scaffold的長度就叫做Contig N50和Scaffold N50。這兩個數值主要用來評估序列組裝的質量的,值越大,組裝效果越好,測序效率也就越好了。

『陸』 基因組裝的時候參數N50的大小反映什麼問題是不是n50越大,說明序列拼接約成功,或者原始數據越可靠

N50是gene sequencing的一個最常用的指標。它是將contigs長度由大到小排列,當長度累加到所測基因總長的50%時那個contigs的長度,以此類推,也有N60,N70,N80等等。不過有時也不僅僅是congtigs,偶爾在文章中也有scafflods的N50,它們的原理是一樣的。N50的值越大,表明測序的質量越好。
最近才學習的,希望對你有幫助!

閱讀全文

與生物n50是什麼相關的資料

熱點內容
word中化學式的數字怎麼打出來 瀏覽:743
乙酸乙酯化學式怎麼算 瀏覽:1408
沈陽初中的數學是什麼版本的 瀏覽:1355
華為手機家人共享如何查看地理位置 瀏覽:1047
一氧化碳還原氧化鋁化學方程式怎麼配平 瀏覽:889
數學c什麼意思是什麼意思是什麼 瀏覽:1413
中考初中地理如何補 瀏覽:1305
360瀏覽器歷史在哪裡下載迅雷下載 瀏覽:705
數學奧數卡怎麼辦 瀏覽:1393
如何回答地理是什麼 瀏覽:1028
win7如何刪除電腦文件瀏覽歷史 瀏覽:1060
大學物理實驗干什麼用的到 瀏覽:1489
二年級上冊數學框框怎麼填 瀏覽:1704
西安瑞禧生物科技有限公司怎麼樣 瀏覽:986
武大的分析化學怎麼樣 瀏覽:1252
ige電化學發光偏高怎麼辦 瀏覽:1341
學而思初中英語和語文怎麼樣 瀏覽:1656
下列哪個水飛薊素化學結構 瀏覽:1427
化學理學哪些專業好 瀏覽:1490
數學中的棱的意思是什麼 瀏覽:1062