⑴ 如何来设定转录组测序中的生物学重复
如何来设定转录组测序中的生物学重复
1.区分生物学重复与技术重复
生物学重复:指样本重复,比如3只小鼠,同时做一种处理,就是三个生物学重复。
技术重复:一般是三次实验,比如对一块组织,提了三次RNA,做三次real time。
2.设置生物学重复的意义
由于新一代测序技术的优越性以及高成本,曾一度忽略了“生物学重复”的重要性。但生物学重复对于测序实验的设计以及实验数据的解读和分析都非常重要。
设置生物学重复:
能够消除组内误差:生物学重复可以测量变异程度
增强结果的可靠性:测序的样本数越多,越能够降低背景差异
检测离群样本:异常样本的存在,会严重影响测序结果的准确性,通过计算样本间的相关性可以发现异常样本,将其排除。
案例一:
注:COX4NB和RASGRP1基因在生物学重复样本中表达值的散点图:
左边红色,COX4NB基因表达值的散点图
右边蓝色,RASGRP1基因达值的散点图
上面一行,测序数据的散点图
下面一行:芯片数据的散点图
COX4NB在生物学重复样本中表达差异非常小;但在同样情况下,RASGRP1的生物学差异很大。结果意味着:不同实验组间 COX4NB的表达水平的变化存在研究意义;而同样情况下RASGRP1的检测数据可能不能说明问题。
由此可知,设计的实验如果没有生物学重复,或者生物学重复的数量不够,就不能得到有统计意义的实验结果;获得的差异表达的基因很可能仅仅是少数个体差异的表现,并不能反映疾病或者某种特定生理状态的群体本质特征。
3.生物学重复设置几个合适?
您是不是有同样的问题:转录组测序是否必须进行生物学重复啊,是否要3个重复,是否可以用3个样品的RNA等量混合代替生物学重复,如果不重复能否发文章…..?一方面是有限的经费,一方面是编辑的质疑;实在很难抉择呀~~~
目前没有生物学重复的实验发文章比较困难,尤其是IF≥5的杂志。如果确实受限于研究经费,无法设置生物学重复。文章投出之后,遭编辑质疑。那就得结合强有力的实验数据做支撑,比如定量实验,FISH荧光原位杂交,或者是northern 杂交等,用实验数据说服编辑。重复设置原则上越多越好,然而考虑到现实条件,重复设置≥3。一般不建议设置两个重复,因为如果两者结果不一致,我们无法确定以哪个数据为参考。
注:3个生物学重复,不等同于将3个样品的RNA等量混合后测序。3个样品等量混合测序,相当于将3个样本的基因表达量取了平均值,其实就是相当于取了一个样本,由此得到的差异基因同样不可信,不能反应群体生物学现象。
4.生物学重复分析结果展示
以公司做项目的经验来看,原核生物以及真菌生物学重复的效果>植物>动物,这是由于动植物个体差异较大所导致。所以动植物在选取生物学重复时,应按照严格的筛选条件进行取样,方可得到理想结果。
⑵ 由生物学重复引发出来的思考
太长不看系列
技术重复:一个样本重复多次
生物学重复:同一批次每个生物重复一次(多次)
当生物学重复之间存在相关性,需要考虑有效样本数(effective sample size)
effective genome size和effective sample size不一样,不要混为一谈
废话超多系列
首先我们区分一下生物学重复和技术重复,有的人可能不屑一顾,和我的反应一样。但是别着急,答应我先区分下面两种情况属于什么重复,答对了再嘲讽我好么?
现在有一只小鼠A,我们对它的肌肉组织取样,连续三次检测其基因表达水平
现在有一只小鼠A,我们连续三次对它的肌肉组织取样,然后分别对该样品进行测序
文字不方便理解的话,可以看下面的图示:
事实上,这两种重复都是属于技术重复,因为它们都是针对的一只小鼠做的实验(一个生物)。但是这两种技术重复的侧重点有些许不同。
第一种技术重复,重点是RNA-seq检测方法的准确度。比如当你发现了一个新的检测基因表达量的方法,就需要用这种重复 来验证该方法的准确度
第二种技术重复,重点是检测这个 小鼠本身的基因表达水平, 而非检测方法。
那么,什么是生物学重复呢?比如我有一群小鼠,我挑选其中三只,做相同处理,然后分别取样检测基因表达水平:
这是因为,我们的每一次测量都来自于不同的小鼠(生物)。除此之外,我们还可以知道,生物学重复研究的重点从个体转移到了这类群体。
既然有了重复(有了不同的样本),我们接下来需要考虑的就是样本数的问题:
如果我们对检测基因表达水平的方法感兴趣,那我们的样本数与技术重复相关:
下面的情况,样本数为3(三个技术重复):凯拍搜
假如我们对于蓝色小鼠这一族群感兴趣:
下面的情况,样本数为3:
下面的情况,样本数依然为3,这是因为技术重复不影响我们关注的重点(技术重复关注的是个体或者是方法的准确度)
假如我们对小鼠的某一族群感兴趣,我们对三种颜色的小鼠都检测一下基因表达:
但是,如果蓝色小鼠有一个双胞胎弟弟,那么此时的样本数是多少呢?是3还是4呢?
事实上,样本数介于3和4之间。这个时候,样本数不再是简单的加和,而是要考虑有效样本数(effective sample size)。计算公式如下:
此时我们需要关注这两只蓝色小鼠的相关性,若相关系数为0.7,则这俩双胞胎所代表的样本数为2/(1+(2-1)*0.7)=2/(1+0.7)=1.18
若相关系数为0.1,则这俩双胞胎所代表的样本数为2/(1+(2-1)*0.1)=2/(1+0.1)=1.82
由此可知,两个双胞胎小鼠的相关性越低,所代表的样本数越大。相关性越大,则所代表的样本数越小。甚至若二者完全相同,我们可以把盯历他们看作是一个(把他们看作是技术重复,不影响样本数)
写在后面的话
需要注意的是,很多人使用过deeptools,里面涉及到一个effectiv genome size的定义。该定义贺兆与effective sample size完全不同,千万不要混淆。
effective genome size 相当于是去除了基因组中为N的那些碱基之后的长度。
⑶ 生物遗传学中的重复,错位等是什么意思
简单通俗地说
缺失和运姿,是染色体上唤绝有一段悄巧没了,变少了
重复,是同源染色体上的基因到这条染色体上,使基因重复,变多了
倒位,是一条染色体上基因的位置变了,但不多也不少
易位,是其它非同源染色体上的基因接在了这条染色体上,变多了,可不是重复
⑷ 转载---[转录组] 转录组专题——关于样本重复性问题小技巧
目前,转录组测序仍是应用最广的高通量测序技术之一,很多研究课题是关于基因表达潜在的机制,并已经发现了一些现象,但分子机制还不清楚。而做转录组测序特别适合用于分子机制探究,可以获得样本中几乎所有的mRNA信息。关于转录组领域的研究,应用范围极为广泛。如可研究同一个体不同组织之间的基因表达差异;或者不同的外界处理条件下(病毒、光照、紫外、干旱、高温和高盐胁迫等),对基因表达的影响。
在我们正式进行转录组数据分析之前,需要先对组内生物学重复(一般设置3个生物学重复)进行样本关系分析,判断组内重复性效果的好坏,是否有离群样本。应广大研究者之需,本期针对大家比较关心的样本重复性问题进行探讨,力争为各位老师在科研之路上带来帮助。
在进行问题讨论之前,首先我们对可能会困扰大家的关于什么是生物学重复和技术学重复的问题进行区分。
①生物学重复: 指同一处理下不同的生物学样品。由于遗传和环境等因素的影响会引起生物体的个体差异,因此需要采用生物重复的实验设计方法来降低该差异。一般的实验设计中,都会包括实验组和对照组。如下图A实验组包含3只小鼠,那么这3只小鼠,经过相同的实验处理,分别测组织的RNA-seq,即为一组生物学重复。
②技术重复: 简单来说就是对同一生物体样品进行重复地检测。如下图B、C,都属于技术重复。对于第一种技术重复,重点是检测RNA-seq方法的准确度。比如当发现了一个新的检测基因表达量的方法,就需要用这种重复来验证(图1 B);第二种技术重复重点是这个小鼠本身的基因表达水平(图1 C)。
图1 生物学重复和技术重复
那么接下来,我们正式切入主题,针对样本重复性问题进行探讨。
‘1. 生物学重复必须要设置吗?’
答:需要。生物学实验中,生物体往往存在异质性,常常需要设置重复,以此确保不是个体的偶然变异对结果产生的影响[1]。若不设置组内生物学重复,在投稿时也会受到审稿人的质疑。我们无法判断组内差异所占的比例有多大,可能获得的差异表达基因仅仅是少数个体差异的表现,并不能反映是真正处理效应导致的差异。设置生物学重复可以评估组内误差,降低背景差异,检测离群样本,增强结果的可靠性。
Tips
组间差异是由组内差异和处理效应共同导致的[2]。组内差异包括采样个体间的差异、实验操作误差等等,这些差异是我们在实验时要尽可能降低的。而组内误差主要由生物学误差和技术误差引起的。
图2 组间差异和组内差异
‘2. 每个处理推荐多少个生物学重复呢?’
答:不同的实验样品,由于外界因素导致的个体之间的差异或实验操作导致的误差可能不同。因此,针对不同的样品所推荐的组内生物学重复也有所差别[3]。
① 对于动植物样品,建议3~5个生物学重复,对生物学样品之间做相关性检验,提高实验结果的可信度;
② 对于细胞样品,生物学重复之间的差异性相对较小,建议3个以上生物学重复;
③ 对于临床样品,由于供试者的基因型、生活方式、生活环境、年龄、性别可能存在较大差异,可能需要更多的生物学重复,一般10个生物学重复以上[4]。
Tips
在转录组测序时,一般不建议设置两个重复。因为如果两个重复样品结果不一致,无法确定以哪个数据为参考。
‘3. 用于判断组内重复性好坏的常用工具有哪些?’
答:在实际分析过程中确认组内重复性的好坏方法有很多,可进行样本的PCA,可计算两两样本的相关系数,或者绘制样本聚类图、重复性散点图多种方式综合判断。在实际分析中,通常结合PCA和相关性系数综合判断样本是否离群。
① PCA:详见Question 4;
② 相关系数:通常计算两个样品之间的Pearson或Spearman相关系数判断组内重复性情况。相关系数越接近1,样品间相似度越高。一般情况下,组内生物学样本相关系数大于组间样本,则表明组内重复性较好;
③ 样本聚类树:可用于判断在不同实验条件下的表达模式。依据样品的表达谱进行聚类,样品之间重复性较好时通常会聚在同一分支下。如果组内样本重复性较差可能会呈现无规则的聚类形式;
④ 重复性散点图:展示组内样本的重复性情况。图中偏离对角线的点越少,样品间的相关性越高,重复性越好。
图3 Omicsmart中样本关系分析图形
‘4. PCA是什么?怎么看?’
答:主成分分析(Principal Component Analysis,PCA)是一种线性降维算法。用方差(Variance)来衡量数据的差异性,将高维数据用某几个综合指标来表示。将原本鉴定到的所有基因的表达量重新线性组合,形成一组新的综合变量,同时根据所分析的问题从中选取2-3个综合变量,使它们尽可能多地反映原有变量的信息,从而达到降维的目的。如PC1(Principal Component 1)和PC2(Principal Component 2)为降维后获得的两个主成分因子,可分别从数据差异性最大和次大的方向提取出来。
在样本关系分析过程中,PCA可以让我们非常直观地看出各个样本之间的相似性。关于转录组测序,我们可能获得上万个基因的表达信息,那么利用PCA可将样本所包含的上万个维度的信息(上万个基因的表达量),降维至某些维度的综合指标(主成分)表示。一般选取PC1和PC2,来解释样本间的重复性好坏与组间样本的差异度。如下图PCA散点图,组内样本呈现相互聚集,说明组内的重复性比较好。
图4 Omicsmart在线报告PCA图
Tips
在文章中,也会看到三维的PCA图。这时选取了PC1,PC2,PC3去解释样本间的距离。PC1+PC2(+PC3)越大,对方差解释度越大,越具有说服力。
‘5. 相关性系数分析时,相关系数达到多少可认为组内重复性效果好?’
答:一般情况下,计算相关性系数时,对于生物学重复(如采样时个体差异)之间的相关系数依据经验建议在0.7以上较好;对于技术重复(实验操作、实验仪器等)之间的相关系数依据项目经验来说在0.85以上比较合理。
Tips
关于相关系数如何计算,可能还存在不少的困惑。我们在这里也解释一下。对于转录组数据,可以利用样本的表达谱来计算样本间的相关性,通过计算相关系数r来评估每组样本的生物重复性。最常用的度量是Pearson和Spearman相关系数。
那么在实际分析中,这两种计算方式应该如何选择呢?
我们首先简单了解二者的区别。对于Pearson相关系数很简单,主要用来衡量两个数据集的线性相关程度。而Spearman相关系数它不关心两个数据集是否线性相关,所关注的是单调相关。所以Spearman相关系数也称为等级相关或者秩相关(即rank)。从下图中我们可以更好的理解,如果对数据进行线性变换(y=ax+b;a≠0),两者相关系数的绝对值都不会发生变化(图5 A);如果对数据进行单调但不是线性的变换,比如最常见的log scale,Spearman相关系数的绝对值也不会发生变化[5](图5 B)。这时我们就可以知道,两者的前提假设就不同,Pearson相关假设数据集在同一条直线上,而Spearman只要求单调递增或者递减,所以Pearson的统计效力一般情况下比Spearman要高。但是更重要的是,我们需要根据实际情况选择正确的假设。比如,某个实验做了3次生物学重复,那有理由假设这3次重复线性相关。而如果是一个基因和另一个受到调控的基因的表达水平,或者某个基因顺式作用元件的染色质开放程度,和这个基因表达水平之间的关系就可能需要假设单调相关。
图5 Pearson和Spearman相关系数
关于两者的特点也有所不同,若想要深入学习二者的算法特征,可回顾往期文章 《相关系数第一弹:哪哪都能看到的皮尔森相关》 和 《相关系数第二弹:斯皮尔曼相关》 ,都有详细的解释哟。
‘ 6. PCA和相关系数的算法,哪个更能判断样本的重复性?为什么?’
答:相关系数。因为PCA为把对样品贡献大的信息保留,所描述的是整体所有组的特征;而相关系数直接呈现的是两组样品之间的相关程度。若相关系数越高,表明两组样品之间的相关程度越高,即重复性越好。
‘7. 样本离群了,还能用于分析吗?’
答:首先判断离群程度,若离群程度较小,则可以尝试设置阈值,缩小基因范围,再次重新进行相关性分析判断样本是否离群。若离群程度很大,对后续差异分析的结果造成了很大的影响,那么可以考虑将该样本剔除,再进行后续差异分析等等。
Tips
转录组测序通常要求设置3个生物学重复样本,如果样本足够多,建议比预期实验设计多送1~2个样本测序,以便后续某个样品与组内其它样本出现离群情况,直接剔除离群样本,省时省力。若测序样本较少,无法剔除样本,也可以考虑对同一批次的备份样本再次测序,后续再重新分析。
以上就是今天的关于样本关系分析问题,在此也向广大研究者征集相关问题,如有疑问,欢迎下方留言。或者也可登录基迪奥OmicShare论坛,搜索和讨论更多相关知识。
论坛网址:
https://www.omicshare.com/forum/
▼参考文献▼
[1] Robles, José A et al. Efficient experimental design and analysis strategies for the detection of differential expression using RNA-Sequencing. BMC genomics vol, 13 484. 17 Sep. 2012, doi:10.1186/1471-2164-13-484
[2] Hansen, K., Wu, Z., Irizarry, R. et al. Sequencing technology does not eliminate biological variability. Nat Biotechnol. 29, 572–573. 2011, https://doi.org/10.1038/nbt.1910
[3] Todd E V, Black M A, Gemmell N J. The power and promise of RNA-seq in ecology and evolution[J]. Molecular ecology, 2016, 25(6): 1224-1241
[4] Liu Y, Zhou J, White K P. RNA-seq differential expression studies: more sequence or more replication?[J]. Bioinformatics, 2013, 30(3): 301-304
[5] Trost B, Moir CA, Gillespie ZE, et al. Concordance between RNA-sequencing data and DNA microarray data in transcriptome analysis of proliferative and quiescent fibroblasts. R Soc Open Sci. 2015, 2(9):150402. doi:10.1098/rsos.150402
⑸ 【一文读懂生物学重复与技术重复】
在RNA-Seq等测序设计中,生物学重复和技术重复,是非常需要注意的问题。
那么问题就来了,生物学重复和技术重复,到底是什么?它们是如何影响我们的实验设计的。
生物学重复 (biological replicate):可以理解为我们对一个群体进行研究,但是我们不会对整个群体进行检测(考虑到成本和工作量的问题,我们肯定也不会采取这种地毯式的方法),只是抽取群体中的一部分进行检测,用样本来代表总体。
这边样本个数,实际上就是生物学重复数。
技术重复 (technical replicate):对一个样本的数值进行多次测定。
下表给出常见实验对应重复类型:
Replication这篇文章以测定小鼠肝脏细胞中的某一个gene的表达量为例,展示了什么是生物学重复和技术重复以及如何权衡这两者之间的关系。
分别给出3种类型的重复,分别为:
(1)animal水平的重复
(2)cell水平的重复
(3)技术重复
由上图可以得到,3种不同种类的重复,所计算出来的表达量方差是不一样的,但gene表达量的总方差,可以有下列公式计算得到:
接下来,将总体的重复次数限定,即在满足 的前提条件下,对Var(X)进行计算。
1、当 和 均为1, 为48的情况下,计算出来的Var(X)如下图标记:
这种情况下,只反映了由于cell样品重复和技术重复所引起的基因表达量误差。当n_{A}=1(动物样品数为1),即无法计算由于animal样品数变化,所带来的基因表达量误差。
因此在上述情况下, 就被低估了。
2、当 和 均为1, 为48的情况下
计算得到的基因表达量误差完全是由于技术重复所引起的。因此,如果我们将这种情况下的误差,认定为由生物重复所引起的,就造成了假阳性。
同样地,每一种重复对于真实基因表达量的方差贡献也不是相同的。
因为cell重复和测定技术重复,并是一个独立变量。技术重复本质上是对同一份样品进行测定,数据在这种情况下的变异,完全是由于人为或机器造成的,而cell重复在本质上可以认为与animal样品之间存在相关性,因此也不是独立的。
3、从 的角度,来选择replicate
【标注】 越小,代表对 估计越准确
可以看到的是,当增大animal重复数时, 趋于一个稳定值,该样本对总体的估计达到了一个较为准确的水平,同时 的值也接近于0。
4、从统计检验的角度,来选择replicate
使用two-sample t检验,来判断cell样品的gene表达量方差、动物样品表达量均值之间是否存在显着差异。
下图很明显的一个结果就是,随着 的增加,统计检验的效能得到提升,假阳性也在降低(同时也得权衡 和 )
对于一组数据来说, 研究对象的生物重复比技术重复更能够反映总体 ,因此在进行实验设计时,最好将实验/测序资源倾向这边,而不是技术重复(除非对技术重复所诱发的影响感兴趣)
[1] 刘小乐老师-哈佛计算生物学与生物信息学
[2] Blainey P, Krzywinski M, Altman N. Points of significance: replication[J]. Nature methods, 2014, 11(9): 879.