‘壹’ 入门必看—轻松掌握Contig Binning分析
境或人体微生物中广泛存在着菌株水平的差异,这些菌株个体水平的基因差异决定了其功能执行上的显着不同。宏基因组测序是对人体或自然环境样品进行菌株水平研究的唯一途径[1]。而环境样品惊人的复杂性为菌株重建带来了极大的挑战,各种新的实验方法、测序策略和技术工具应运而生,基于宏基因组进行种水平乃至菌株水平研究的分析方法也日渐完善[2]。
Binning的含义是分箱、聚类,指从微生物群体序列中将不同个体的序列(reads或contigs等)分离开来的过程。简单来说就是把宏基因组数据中来自同一菌株的序列聚到一起,得到一个菌株的基因组。根据基于聚类的序列类型的不同,分为reads binning,contig binning 和 genes binning。近年来高分文章(表1)中多使用Contig Binning,即将组成相似或丰度一致的Contigs聚类到同一物种从而完成单菌的草图组装,进一步解析菌株的功能特性。
表1 近年来 Contig Binning 高分文献
1. Contig Binning 原理
利用核酸组成信息( Nucleotide composition )进行 binning :来自同一菌株的序列,其核酸组成是相似的,于是可以根据核酸组成信息来进行binning,例如根据核酸使用频率(通常是四核苷酸频率),GC含量和必需的单拷贝基因等。
利用基因丰度( Nucleotide abundance ) 变化 :研究发现来自同一个菌株的基因在不同的样品中 ( 不同时间或不同病理程度 ) 的丰度分布模式是相似的。因此可以根据丰度信息来进行binning,即在不同样品中的丰度变化模式。
同时利用核酸组成信息及基因丰度变化 :即核酸组成与丰度(NCA-Nucleotide composition and abundance)。NCA策略,既能保证binning效果,也能相对节约计算资源,因此目前主流软件多为NCA算法[3]。
2. 常用的 Contig Binning 软件
下图[3]对常见的一些NCA-based contig binning软件进行了比较。其中MetaBAT[4]是历史引用量最高,且2019年又推出了MetaBAT2[5]。下面利用真实宏基因组数据对使用较为广泛的MaxBin[6],CONCOCT[7],及MetaBAT2软件进行测试比较。
基于相同的contigs进行binning,三个软件资源消耗分别如下表2,CONCOCT软件binning速度快,MetaBAT2相对来说消耗时间较长。
表2 不同软件资源消耗比较
基于15个样本,统计各软件binning结果。并利用 CheckM[13]软件来评估 binning 的质量,综合考虑 binners 的完整度,污染度及大小等方面。表3基于 CheckM 对各软件 binning 结果评估,并统计污染度<10%时,完整度>95%,>70%,>50%的 binners 的个数。发现MetaBAT2 获得的 binners 结果较好。
表3 基于 CheckM 对各软件的 binning 结果进行评估
综上,CONCOCT软件binning速度快,并且得到的binner结果也相对较好,MetaBAT2相对来说消耗时间略长,但得到的binning结果最好。但是由于环境中物种多样性十分丰富,使用一个软件binning可能会丢掉一些物种,如果时间及资源允许,我们可以使用多个软件进行binning,得到结果之后利用ANI>95%(ANI被定义为两个微生物基因组同源片段之间平均的碱基相似度,在近缘物种之间有较高的区分度)去重复。
3. Binning 结果优化
得到高质量的 binners 之后,还可将其进行优化,通常的方法是将样本的高质量reads 比对回各 binners,再通过 SOAPdenovo[8],Spades [9]等软件重新组装。但是如果环境的复杂度很高,mapping得到的reads可能并不都来源于同一个物种,这种情况会严重影响重新组装的效果,可能重新组装后得到的结果比之前更差。另外,mapping及重新组装消耗时间、内存、存储等资源很大。
因此,我们尝试通过 三代 meta 对二代 contig binning 结果进行优化,其过程是利用基因组延伸软件(sspace[10]、pScarf[11]、OPERA-LG[12]等)和三代 reads 对二代 binning 结果进行延伸。延伸后的 binners(表4)在包含序列数,N50,组装总长度,最长 scaftigs 都有明显提升。
表4 延伸后 binners 参数指标
以N50为例,延伸前后N50长度如下图所示,可以看到延伸后N50长度得到明显提升。
4. 高质量 Binners 分析
最终得到高质量的Binners即MAG(metagenome assembled genomes)之后,既可以基于单个MAG进行单菌基因组草图分析,也可以统计MAG丰度进行分组或样本层面的分析。
Contig Binning是研究微生物群落结构及功能的新方法,利用三代宏基因组数据优化,不仅能提升物种组装完整度,同时还能提升物种注释的准确度,挖掘更多的低丰度物种。
参考文献:
[1] Marx V, Microbiology: the road to strain-level identification[J]. Nature methods, 2016. 13(5): p. 401-404.
[2] Donati C, et al., Uncovering oral Neisseria tropism and persistence using metagenomic sequencing[J]. Nature microbiology, 2016. 1: p. 16070.
[3] Sangwan N, Xia F, Gilbert J A. Recovering complete and draft population genomes from metagenome datasets[J]. Microbiome, 2016, 4(1):8.
[4] Kang, Dongwan D, Froula, et al. MetaBAT, an efficient tool for accurately reconstructing single genomes from complex microbial communities[J]. United States: N. p., 2015. doi:10.7717/peerj.1165.
[5] Kang DD, Li F, Kirton E, Thomas A, Egan R, An H, Wang Z. MetaBAT 2: an adaptive binning algorithm for robust and efficient genome reconstruction from metagenome assemblies[J]. PeerJ. 2019 Jul 26;7:e7359.
[6] Wu Y W, Tang Y H, Tringe S G, et al. MaxBin: an automated binning method to recover indivial genomes from metagenomes using an expectation-maximization algorithm[J]. Microbiome, 2014, 2.
[7] Johannes Alneberg, Brynjar Smári Bjarnason, Ino de Bruijn, et al. Binning metagenomic contigs by coverage and composition[J]. Nature Methods, 2014, doi: 10.1038/nmeth.3103.
[8] Luo R, Liu B, Xie Y, et al. SOAPdenovo2: an empirically improved memory-efficient short-read de novo assembler[J]. Gigascience, 2012 ,1(1):18. doi: 10.1186/2047-217X-1-18.
[9] Bankevich A, Nurk S, Antipov D, et al.. SPAdes: A New Genome Assembly Algorithm and Its Applications to Single-Cell Sequencing[J]. Journal of Computational Biology, 2012.
[10] Boetzer M, Pirovano W. SSPACE-LongRead: scaffolding bacterial draft genomes using long read sequence information[J]. BMC Bioinformatics, 2014, 15, 211.
[11] Cao MD, Nguyen HS, et al. Scaffolding and Completing Genome Assemblies in Real-time with Nanopore Sequencing[J]. Nature Communications, 2017, Article number: 14515. doi:[10.1038/ncomms14515].
[12] Gao S, Bertrand D, Chia BKH, et al. OPERA-LG: efficient and exact scaffolding of large, repeat-rich eukaryotic genomes with performance guarantees[J]. Genome Biology, 2016, 17, 102.
[13] Parks DH, Imelfort M, Skennerton CT, et al.. CheckM: assessing the quality of microbial genomes recovered from isolates, single cells, and metagenomes[J]. Genome Research, 2015, 25(7):1043-55. doi: 10.1101/gr.186072.114.
‘贰’ ncbi上基因组统计结果中的l50代表什么意思
l50不同于n50;简单来讲,l50侧重条数统计,n50偏重长度统计。
下面是wiki给出详细解释:
详细请参考:
https://en.wikipedia.org/wiki/N50,_L50,_and_related_statistics
‘叁’ 植物的基因序列
植物基因组通常具有较高的重复序列,且很多为多倍体,因此组装植物基因组具有一定的挑战性。双子叶模式植物拟南芥、单子叶模式植物水稻基因组序列分别在2000年、2005年公布,它们都是基于BAC克隆及sanger法测序的方法获得的,至今在植物基因组序列中其质量依然是最好的。
二代测序技术的出现及发展,极大地加快了植物基因组的研究进程,已经有超过200种植物获得了基因组序列,但是由于二代测序读长短,大部分的基因组组装结果都不高,含有数千个scaffolds;虽然基因区相对完整,但是富含转座元件的区域都装得比较碎,且明显低估了这些区域的比例,仅有少部分组装到了染色体水平。
近年来,随着三代PacBio、Oxford Nanopore测序技术的发展,可以获得较长的DNA片段,采用一定的组装软件,较为容易获得高质量的组装结果,尤其是在提高序列的完整性及重复序列组装方面有了很大的改善。不过到目前为止,依然只有少数植物基因组组装的完整性较好,contig N50>5Mb的只有6个;另外即使是基于长读长reads得到较长的contigN50(>1Mb),要想获得染色体水平的序列依然是不太容易的。
下面,小编通过Nature Plant一篇文献“Chromosome-scale assemblies of plant genomes using nanopore long reads and optical maps”了解下如何通过采用三代测序加上optical maps、Illumina二代数据及遗传图谱的策略获得染色体级别的植物基因组序列吧。
组装结果
文章研究了三个物种,分别为双子叶芸薹属的B. rapa(yellow sarson,Z1),B.oleracea(broccoli, HDEM)及单子叶芭蕉属的Musa schizocarpa(banana),这3个物种B.rapa Chiifu、B. oleracea To1000、Musa acuminate Pahang-HD曾采用short-reads策略获得了基因组序列,不过序列多为片段化(contig N50<50kb)。
‘肆’ 杜康酒窖龄N50和U50是什么意思,什么区别
浓香型白酒由粮食变为美酒,这一过程主要在窖池中完成,窖池是发酵的容器。浓香型白酒窖池由弱酸性黄泥粘土建造的。“千年老窖,万年糟”,浓香型白酒每酿一次酒会留下1/4老酒糟,添加3/4粮食。1/4老酒糟中富含丰富的有益微生物和香味物质,由此周而复始不停酿造。由于泥土做成的窖池凹凸不平,窖泥中会附着很多有益微生物。
窖龄老酒才好
泥窖酿酒,是中国人的一大发明。从现代生物技术角度看,泥窖酿酒是集糖化发酵、酯化等多种生化反应于一体的酿酒过程,而泥窖本身是多种微生物的载体,是多种微生物固定化培养基,没有半衰期,效果越来越好的生化反应容器,窖龄越长!
这个问题问的有水平,窖池是传统固态发酵的低于地面的一个长方形凹坑,一般长三米,宽一米五,五百年前就有,后来因时间变迁,战火纷扰,很多窖池无所影踪了,但是国内仍然有一些窖池得以保存发掘,老窖池因长期使用,泥土中各种互生的维生物已经存在,对酒料的发酵有强大的催生作用,老窖池一个月,可能顶的上新窖池一年,所哟老窖池出来的酒微生物更为复杂,口感更佳,有些新窖池通过老师傅的处理,用烂水果,河泥等催化也有类似的效果,但是仍然不如真正的百年窖池,通常养一个窖池需要二三十年。但是,真正老窖池原浆很难买到的。不懂再问,采纳优先。
‘伍’ 高通量测序基因组拼接技术指标中的Contig N50和Scaffold N50是什么意思
对一条染色体进行测序,将测序得到的reads进行拼接,能够完全拼接起来,中间没有gap的序列称为contig。 如果中间有gap,但是gap的 长度我们知道,这样的序列就叫做scaffold。
将测序得到的所有contig和scaffold从大到小进行排列,当其长度达到染色体长度的一半时,这一条contig和scaffold的长度就叫做Contig N50和Scaffold N50。这两个数值主要用来评估序列组装的质量的,值越大,组装效果越好,测序效率也就越好了。
‘陆’ 基因组装的时候参数N50的大小反映什么问题是不是n50越大,说明序列拼接约成功,或者原始数据越可靠
N50是gene sequencing的一个最常用的指标。它是将contigs长度由大到小排列,当长度累加到所测基因总长的50%时那个contigs的长度,以此类推,也有N60,N70,N80等等。不过有时也不仅仅是congtigs,偶尔在文章中也有scafflods的N50,它们的原理是一样的。N50的值越大,表明测序的质量越好。
最近才学习的,希望对你有帮助!