1. 轉載---[轉錄組] 轉錄組專題——關於樣本重復性問題小技巧
目前,轉錄組測序仍是應用最廣的高通量測序技術之一,很多研究課題是關於基因表達潛在的機制,並已經發現了一些現象,但分子機制還不清楚。而做轉錄組測序特別適合用於分子機制探究,可以獲得樣本中幾乎所有的mRNA信息。關於轉錄組領域的研究,應用范圍極為廣泛。如可研究同一個體不同組織之間的基因表達差異;或者不同的外界處理條件下(病毒、光照、紫外、乾旱、高溫和高鹽脅迫等),對基因表達的影響。
在我們正式進行轉錄組數據分析之前,需要先對組內生物學重復(一般設置3個生物學重復)進行樣本關系分析,判斷組內重復性效果的好壞,是否有離群樣本。應廣大研究者之需,本期針對大家比較關心的樣本重復性問題進行探討,力爭為各位老師在科研之路上帶來幫助。
在進行問題討論之前,首先我們對可能會困擾大家的關於什麼是生物學重復和技術學重復的問題進行區分。
①生物學重復: 指同一處理下不同的生物學樣品。由於遺傳和環境等因素的影響會引起生物體的個體差異,因此需要採用生物重復的實驗設計方法來降低該差異。一般的實驗設計中,都會包括實驗組和對照組。如下圖A實驗組包含3隻小鼠,那麼這3隻小鼠,經過相同的實驗處理,分別測組織的RNA-seq,即為一組生物學重復。
②技術重復: 簡單來說就是對同一生物體樣品進行重復地檢測。如下圖B、C,都屬於技術重復。對於第一種技術重復,重點是檢測RNA-seq方法的准確度。比如當發現了一個新的檢測基因表達量的方法,就需要用這種重復來驗證(圖1 B);第二種技術重復重點是這個小鼠本身的基因表達水平(圖1 C)。
圖1 生物學重復和技術重復
那麼接下來,我們正式切入主題,針對樣本重復性問題進行探討。
『1. 生物學重復必須要設置嗎?』
答:需要。生物學實驗中,生物體往往存在異質性,常常需要設置重復,以此確保不是個體的偶然變異對結果產生的影響[1]。若不設置組內生物學重復,在投稿時也會受到審稿人的質疑。我們無法判斷組內差異所佔的比例有多大,可能獲得的差異表達基因僅僅是少數個體差異的表現,並不能反映是真正處理效應導致的差異。設置生物學重復可以評估組內誤差,降低背景差異,檢測離群樣本,增強結果的可靠性。
Tips
組間差異是由組內差異和處理效應共同導致的[2]。組內差異包括采樣個體間的差異、實驗操作誤差等等,這些差異是我們在實驗時要盡可能降低的。而組內誤差主要由生物學誤差和技術誤差引起的。
圖2 組間差異和組內差異
『2. 每個處理推薦多少個生物學重復呢?』
答:不同的實驗樣品,由於外界因素導致的個體之間的差異或實驗操作導致的誤差可能不同。因此,針對不同的樣品所推薦的組內生物學重復也有所差別[3]。
① 對於動植物樣品,建議3~5個生物學重復,對生物學樣品之間做相關性檢驗,提高實驗結果的可信度;
② 對於細胞樣品,生物學重復之間的差異性相對較小,建議3個以上生物學重復;
③ 對於臨床樣品,由於供試者的基因型、生活方式、生活環境、年齡、性別可能存在較大差異,可能需要更多的生物學重復,一般10個生物學重復以上[4]。
Tips
在轉錄組測序時,一般不建議設置兩個重復。因為如果兩個重復樣品結果不一致,無法確定以哪個數據為參考。
『3. 用於判斷組內重復性好壞的常用工具有哪些?』
答:在實際分析過程中確認組內重復性的好壞方法有很多,可進行樣本的PCA,可計算兩兩樣本的相關系數,或者繪制樣本聚類圖、重復性散點圖多種方式綜合判斷。在實際分析中,通常結合PCA和相關性系數綜合判斷樣本是否離群。
① PCA:詳見Question 4;
② 相關系數:通常計算兩個樣品之間的Pearson或Spearman相關系數判斷組內重復性情況。相關系數越接近1,樣品間相似度越高。一般情況下,組內生物學樣本相關系數大於組間樣本,則表明組內重復性較好;
③ 樣本聚類樹:可用於判斷在不同實驗條件下的表達模式。依據樣品的表達譜進行聚類,樣品之間重復性較好時通常會聚在同一分支下。如果組內樣本重復性較差可能會呈現無規則的聚類形式;
④ 重復性散點圖:展示組內樣本的重復性情況。圖中偏離對角線的點越少,樣品間的相關性越高,重復性越好。
圖3 Omicsmart中樣本關系分析圖形
『4. PCA是什麼?怎麼看?』
答:主成分分析(Principal Component Analysis,PCA)是一種線性降維演算法。用方差(Variance)來衡量數據的差異性,將高維數據用某幾個綜合指標來表示。將原本鑒定到的所有基因的表達量重新線性組合,形成一組新的綜合變數,同時根據所分析的問題從中選取2-3個綜合變數,使它們盡可能多地反映原有變數的信息,從而達到降維的目的。如PC1(Principal Component 1)和PC2(Principal Component 2)為降維後獲得的兩個主成分因子,可分別從數據差異性最大和次大的方向提取出來。
在樣本關系分析過程中,PCA可以讓我們非常直觀地看出各個樣本之間的相似性。關於轉錄組測序,我們可能獲得上萬個基因的表達信息,那麼利用PCA可將樣本所包含的上萬個維度的信息(上萬個基因的表達量),降維至某些維度的綜合指標(主成分)表示。一般選取PC1和PC2,來解釋樣本間的重復性好壞與組間樣本的差異度。如下圖PCA散點圖,組內樣本呈現相互聚集,說明組內的重復性比較好。
圖4 Omicsmart在線報告PCA圖
Tips
在文章中,也會看到三維的PCA圖。這時選取了PC1,PC2,PC3去解釋樣本間的距離。PC1+PC2(+PC3)越大,對方差解釋度越大,越具有說服力。
『5. 相關性系數分析時,相關系數達到多少可認為組內重復性效果好?』
答:一般情況下,計算相關性系數時,對於生物學重復(如采樣時個體差異)之間的相關系數依據經驗建議在0.7以上較好;對於技術重復(實驗操作、實驗儀器等)之間的相關系數依據項目經驗來說在0.85以上比較合理。
Tips
關於相關系數如何計算,可能還存在不少的困惑。我們在這里也解釋一下。對於轉錄組數據,可以利用樣本的表達譜來計算樣本間的相關性,通過計算相關系數r來評估每組樣本的生物重復性。最常用的度量是Pearson和Spearman相關系數。
那麼在實際分析中,這兩種計算方式應該如何選擇呢?
我們首先簡單了解二者的區別。對於Pearson相關系數很簡單,主要用來衡量兩個數據集的線性相關程度。而Spearman相關系數它不關心兩個數據集是否線性相關,所關注的是單調相關。所以Spearman相關系數也稱為等級相關或者秩相關(即rank)。從下圖中我們可以更好的理解,如果對數據進行線性變換(y=ax+b;a≠0),兩者相關系數的絕對值都不會發生變化(圖5 A);如果對數據進行單調但不是線性的變換,比如最常見的log scale,Spearman相關系數的絕對值也不會發生變化[5](圖5 B)。這時我們就可以知道,兩者的前提假設就不同,Pearson相關假設數據集在同一條直線上,而Spearman只要求單調遞增或者遞減,所以Pearson的統計效力一般情況下比Spearman要高。但是更重要的是,我們需要根據實際情況選擇正確的假設。比如,某個實驗做了3次生物學重復,那有理由假設這3次重復線性相關。而如果是一個基因和另一個受到調控的基因的表達水平,或者某個基因順式作用元件的染色質開放程度,和這個基因表達水平之間的關系就可能需要假設單調相關。
圖5 Pearson和Spearman相關系數
關於兩者的特點也有所不同,若想要深入學習二者的演算法特徵,可回顧往期文章 《相關系數第一彈:哪哪都能看到的皮爾森相關》 和 《相關系數第二彈:斯皮爾曼相關》 ,都有詳細的解釋喲。
『 6. PCA和相關系數的演算法,哪個更能判斷樣本的重復性?為什麼?』
答:相關系數。因為PCA為把對樣品貢獻大的信息保留,所描述的是整體所有組的特徵;而相關系數直接呈現的是兩組樣品之間的相關程度。若相關系數越高,表明兩組樣品之間的相關程度越高,即重復性越好。
『7. 樣本離群了,還能用於分析嗎?』
答:首先判斷離群程度,若離群程度較小,則可以嘗試設置閾值,縮小基因范圍,再次重新進行相關性分析判斷樣本是否離群。若離群程度很大,對後續差異分析的結果造成了很大的影響,那麼可以考慮將該樣本剔除,再進行後續差異分析等等。
Tips
轉錄組測序通常要求設置3個生物學重復樣本,如果樣本足夠多,建議比預期實驗設計多送1~2個樣本測序,以便後續某個樣品與組內其它樣本出現離群情況,直接剔除離群樣本,省時省力。若測序樣本較少,無法剔除樣本,也可以考慮對同一批次的備份樣本再次測序,後續再重新分析。
以上就是今天的關於樣本關系分析問題,在此也向廣大研究者徵集相關問題,如有疑問,歡迎下方留言。或者也可登錄基迪奧OmicShare論壇,搜索和討論更多相關知識。
論壇網址:
https://www.omicshare.com/forum/
▼參考文獻▼
[1] Robles, José A et al. Efficient experimental design and analysis strategies for the detection of differential expression using RNA-Sequencing. BMC genomics vol, 13 484. 17 Sep. 2012, doi:10.1186/1471-2164-13-484
[2] Hansen, K., Wu, Z., Irizarry, R. et al. Sequencing technology does not eliminate biological variability. Nat Biotechnol. 29, 572–573. 2011, https://doi.org/10.1038/nbt.1910
[3] Todd E V, Black M A, Gemmell N J. The power and promise of RNA-seq in ecology and evolution[J]. Molecular ecology, 2016, 25(6): 1224-1241
[4] Liu Y, Zhou J, White K P. RNA-seq differential expression studies: more sequence or more replication?[J]. Bioinformatics, 2013, 30(3): 301-304
[5] Trost B, Moir CA, Gillespie ZE, et al. Concordance between RNA-sequencing data and DNA microarray data in transcriptome analysis of proliferative and quiescent fibroblasts. R Soc Open Sci. 2015, 2(9):150402. doi:10.1098/rsos.150402
2. 第6篇:重復樣本的處理——IDR
ATAC-seq/ChIP-Seq中重復樣本的處理
ATAC-Seq要求必須有2次或更多次生物學重復(十分珍貴或者稀有樣本除外,但必須做至少2次技術重復)。理論上重復樣本的peaks應該有高度的一致性,實際情況並不完全與預期一致。如何評價重復樣本的重復性的好壞?如何得到一致性的peaks?
1. 用Bedtools進行簡單的overlap合並重復樣本
2. 用IDR(Irreprocibility Discovery Rate)的方法獲得高重復性的peaks
如何得到兩個重復樣本間一致性的peaks? 一種簡單粗暴的方法就是用 bedtools 計算peaks的overlaps。
用法: bedtools intersect [OPTIONS] -a <bed/gff/vcf/bam> -b <bed/gff/vcf/bam>
其他常用參數解釋和圖解如下:
評估重復樣本間peaks一致性的另一種方法是IDR。IDR是通過比較一對經過排序的regions/peaks 的列表,然後計算反映其重復性的值。
IDR在 ENCODE 和modENCODE項目中被廣泛使用,也是 ChIP-seq指南和標准 中的一部分。
使用IDR的注意事項:
--samples :narrowPeak的輸入文件(重復樣本)
--input-file-type :輸入文件格式包括narrowPeak,broadPeak,bed
--rank p.value :以p-value排序
--output-file : 輸出文件路徑
--plot :輸出IDR度量值的結果
輸出文件解讀:
詳細內容可參考: https://github.com/nboley/idr#output-file-format
(1)sample-idr
sample-idr是common peaks的結果輸出文件,格式與輸入文件格式類似,只是多了幾列信息。前10列是標準的narrowPeak格式文件,包含重復樣本整合後的peaks信息。
其他列信息如下:
wc -l *-idr 計算下common peaks的個數,接著可再計算下與總peaks的比率。
如果想看IDR<0.05的,可以通過第5列信息過濾:
awk '{if($5 >= 540) print $0}' sample-idr | wc -l
(2)sample-idr.log
log文件會給出peaks通過IDR < 0.05的比率,如下圖所示
左上: Rep1 peak ranks vs Rep2 peak ranks, 沒有通過特定IDR閾值的peaks顯示為紅色。
右上:Rep1 log10 peak scores vs Rep2 log10 peak scores,沒有通過特定IDR閾值的peaks顯示為紅色。
下面兩個圖: Peak rank vs IDR scores,箱線圖展示了IDR值的分布,默認情況下,IDR值的閾值為-1E-6。
哈佛深度NGS數據分析課程
06-Handling replicates in ChIP-Seq
3. 【一文讀懂生物學重復與技術重復】
在RNA-Seq等測序設計中,生物學重復和技術重復,是非常需要注意的問題。
那麼問題就來了,生物學重復和技術重復,到底是什麼?它們是如何影響我們的實驗設計的。
生物學重復 (biological replicate):可以理解為我們對一個群體進行研究,但是我們不會對整個群體進行檢測(考慮到成本和工作量的問題,我們肯定也不會採取這種地毯式的方法),只是抽取群體中的一部分進行檢測,用樣本來代表總體。
這邊樣本個數,實際上就是生物學重復數。
技術重復 (technical replicate):對一個樣本的數值進行多次測定。
下表給出常見實驗對應重復類型:
Replication這篇文章以測定小鼠肝臟細胞中的某一個gene的表達量為例,展示了什麼是生物學重復和技術重復以及如何權衡這兩者之間的關系。
分別給出3種類型的重復,分別為:
(1)animal水平的重復
(2)cell水平的重復
(3)技術重復
由上圖可以得到,3種不同種類的重復,所計算出來的表達量方差是不一樣的,但gene表達量的總方差,可以有下列公式計算得到:
接下來,將總體的重復次數限定,即在滿足 的前提條件下,對Var(X)進行計算。
1、當 和 均為1, 為48的情況下,計算出來的Var(X)如下圖標記:
這種情況下,只反映了由於cell樣品重復和技術重復所引起的基因表達量誤差。當n_{A}=1(動物樣品數為1),即無法計算由於animal樣品數變化,所帶來的基因表達量誤差。
因此在上述情況下, 就被低估了。
2、當 和 均為1, 為48的情況下
計算得到的基因表達量誤差完全是由於技術重復所引起的。因此,如果我們將這種情況下的誤差,認定為由生物重復所引起的,就造成了假陽性。
同樣地,每一種重復對於真實基因表達量的方差貢獻也不是相同的。
因為cell重復和測定技術重復,並是一個獨立變數。技術重復本質上是對同一份樣品進行測定,數據在這種情況下的變異,完全是由於人為或機器造成的,而cell重復在本質上可以認為與animal樣品之間存在相關性,因此也不是獨立的。
3、從 的角度,來選擇replicate
【標注】 越小,代表對 估計越准確
可以看到的是,當增大animal重復數時, 趨於一個穩定值,該樣本對總體的估計達到了一個較為准確的水平,同時 的值也接近於0。
4、從統計檢驗的角度,來選擇replicate
使用two-sample t檢驗,來判斷cell樣品的gene表達量方差、動物樣品表達量均值之間是否存在顯著差異。
下圖很明顯的一個結果就是,隨著 的增加,統計檢驗的效能得到提升,假陽性也在降低(同時也得權衡 和 )
對於一組數據來說, 研究對象的生物重復比技術重復更能夠反映總體 ,因此在進行實驗設計時,最好將實驗/測序資源傾向這邊,而不是技術重復(除非對技術重復所誘發的影響感興趣)
[1] 劉小樂老師-哈佛計算生物學與生物信息學
[2] Blainey P, Krzywinski M, Altman N. Points of significance: replication[J]. Nature methods, 2014, 11(9): 879.
4. 如何計算三個生物學重復 degseq 差異基因表達量 倍數關系
如何來設定轉錄組測序中的生物學重復1.區分生物學重復與技術重復生物學重復:指樣本重復,比如3隻小鼠,同時做一種處理,就是三個生物學重復。技術重復:一般是三次實驗,比如對一塊組織,提了三次RNA,做三次realtime。2.設置生物學重復的意義由於新一代測序技術的優越性以及高成本,曾一度忽略了「生物學重復」的重要性。但生物學重復對於測序實驗的設計以及實驗數據的解讀和分析都非常重要。設置生物學重復:能夠消除組內誤差:生物學重復可以測量變異程度增強結果的可靠性:測序的樣本數越多,越能夠降低背景差異檢測離群樣本:異常樣本的存在,會嚴重影響測序結果的准確性,通過計算樣本間的相關性可以發現異常樣本,將其排除。案例一:註:COX4NB和RASGRP1基因在生物學重復樣本中表達值的散點圖:左邊紅色,COX4NB基因表達值的散點圖右邊藍色,RASGRP1基因達值的散點圖上面一行,測序數據的散點圖下面一行:晶元數據的散點圖COX4NB在生物學重復樣本中表達差異非常小;但在同樣情況下,RASGRP1的生物學差異很大。結果意味著:不同實驗組間COX4NB的表達水平的變化存在研究意義;而同樣情況下RASGRP1的檢測數據可能不能說明問題。由此可知,設計的實驗如果沒有生物學重復,或者生物學重復的數量不夠,就不能得到有統計意義的實驗結果;獲得的差異表達的基因很可能僅僅是少數個體差異的表現,並不能反映疾病或者某種特定生理狀態的群體本質特徵。3.生物學重復設置幾個合適?您是不是有同樣的問題:轉錄組測序是否必須進行生物學重復啊,是否要3個重復,是否可以用3個樣品的RNA等量混合代替生物學重復,如果不重復能否發文章…..?一方面是有限的經費,一方面是編輯的質疑;實在很難抉擇呀~~~目前沒有生物學重復的實驗發文章比較困難,尤其是IF≥5的雜志。如果確實受限於研究經費,無法設置生物學重復。文章投出之後,遭編輯質疑。那就得結合強有力的實驗數據做支撐,比如定量實驗,FISH熒光原位雜交,或者是northern雜交等,用實驗數據說服編輯。重復設置原則上越多越好,然而考慮到現實條件,重復設置≥3。一般不建議設置兩個重復,因為如果兩者結果不一致,我們無法確定以哪個數據為參考。註:3個生物學重復,不等同於將3個樣品的RNA等量混合後測序。3個樣品等量混合測序,相當於將3個樣本的基因表達量取了平均值,其實就是相當於取了一個樣本,由此得到的差異基因同樣不可信,不能反應群體生物學現象。4.生物學重復分析結果展示以公司做項目的經驗來看,原核生物以及真菌生物學重復的效果>植物>動物,這是由於動植物個體差異較大所導致。所以動植物在選取生物學重復時,應按照嚴格的篩選條件進行取樣,方可得到理想結果。