㈠ 如何來設定轉錄組測序中的生物學重復
如何來設定轉錄組測序中的生物學重復
1.區分生物學重復與技術重復
生物學重復:指樣本重復,比如3隻小鼠,同時做一種處理,就是三個生物學重復。
技術重復:一般是三次實驗,比如對一塊組織,提了三次RNA,做三次real time。
2.設置生物學重復的意義
由於新一代測序技術的優越性以及高成本,曾一度忽略了「生物學重復」的重要性。但生物學重復對於測序實驗的設計以及實驗數據的解讀和分析都非常重要。
設置生物學重復:
能夠消除組內誤差:生物學重復可以測量變異程度
增強結果的可靠性:測序的樣本數越多,越能夠降低背景差異
檢測離群樣本:異常樣本的存在,會嚴重影響測序結果的准確性,通過計算樣本間的相關性可以發現異常樣本,將其排除。
案例一:
註:COX4NB和RASGRP1基因在生物學重復樣本中表達值的散點圖:
左邊紅色,COX4NB基因表達值的散點圖
右邊藍色,RASGRP1基因達值的散點圖
上面一行,測序數據的散點圖
下面一行:晶元數據的散點圖
COX4NB在生物學重復樣本中表達差異非常小;但在同樣情況下,RASGRP1的生物學差異很大。結果意味著:不同實驗組間 COX4NB的表達水平的變化存在研究意義;而同樣情況下RASGRP1的檢測數據可能不能說明問題。
由此可知,設計的實驗如果沒有生物學重復,或者生物學重復的數量不夠,就不能得到有統計意義的實驗結果;獲得的差異表達的基因很可能僅僅是少數個體差異的表現,並不能反映疾病或者某種特定生理狀態的群體本質特徵。
3.生物學重復設置幾個合適?
您是不是有同樣的問題:轉錄組測序是否必須進行生物學重復啊,是否要3個重復,是否可以用3個樣品的RNA等量混合代替生物學重復,如果不重復能否發文章…..?一方面是有限的經費,一方面是編輯的質疑;實在很難抉擇呀~~~
目前沒有生物學重復的實驗發文章比較困難,尤其是IF≥5的雜志。如果確實受限於研究經費,無法設置生物學重復。文章投出之後,遭編輯質疑。那就得結合強有力的實驗數據做支撐,比如定量實驗,FISH熒光原位雜交,或者是northern 雜交等,用實驗數據說服編輯。重復設置原則上越多越好,然而考慮到現實條件,重復設置≥3。一般不建議設置兩個重復,因為如果兩者結果不一致,我們無法確定以哪個數據為參考。
註:3個生物學重復,不等同於將3個樣品的RNA等量混合後測序。3個樣品等量混合測序,相當於將3個樣本的基因表達量取了平均值,其實就是相當於取了一個樣本,由此得到的差異基因同樣不可信,不能反應群體生物學現象。
4.生物學重復分析結果展示
以公司做項目的經驗來看,原核生物以及真菌生物學重復的效果>植物>動物,這是由於動植物個體差異較大所導致。所以動植物在選取生物學重復時,應按照嚴格的篩選條件進行取樣,方可得到理想結果。
㈡ 【一文讀懂生物學重復與技術重復】
在RNA-Seq等測序設計中,生物學重復和技術重復,是非常需要注意的問題。
那麼問題就來了,生物學重復和技術重復,到底是什麼?它們是如何影響我們的實驗設計的。
生物學重復 (biological replicate):可以理解為我們對一個群體進行研究,但是我們不會對整個群體進行檢測(考慮到成本和工作量的問題,我們肯定也不會採取這種地毯式的方法),只是抽取群體中的一部分進行檢測,用樣本來代表總體。
這邊樣本個數,實際上就是生物學重復數。
技術重復 (technical replicate):對一個樣本的數值進行多次測定。
下表給出常見實驗對應重復類型:
Replication這篇文章以測定小鼠肝臟細胞中的某一個gene的表達量為例,展示了什麼是生物學重復和技術重復以及如何權衡這兩者之間的關系。
分別給出3種類型的重復,分別為:
(1)animal水平的重復
(2)cell水平的重復
(3)技術重復
由上圖可以得到,3種不同種類的重復,所計算出來的表達量方差是不一樣的,但gene表達量的總方差,可以有下列公式計算得到:
接下來,將總體的重復次數限定,即在滿足 的前提條件下,對Var(X)進行計算。
1、當 和 均為1, 為48的情況下,計算出來的Var(X)如下圖標記:
這種情況下,只反映了由於cell樣品重復和技術重復所引起的基因表達量誤差。當n_{A}=1(動物樣品數為1),即無法計算由於animal樣品數變化,所帶來的基因表達量誤差。
因此在上述情況下, 就被低估了。
2、當 和 均為1, 為48的情況下
計算得到的基因表達量誤差完全是由於技術重復所引起的。因此,如果我們將這種情況下的誤差,認定為由生物重復所引起的,就造成了假陽性。
同樣地,每一種重復對於真實基因表達量的方差貢獻也不是相同的。
因為cell重復和測定技術重復,並是一個獨立變數。技術重復本質上是對同一份樣品進行測定,數據在這種情況下的變異,完全是由於人為或機器造成的,而cell重復在本質上可以認為與animal樣品之間存在相關性,因此也不是獨立的。
3、從 的角度,來選擇replicate
【標注】 越小,代表對 估計越准確
可以看到的是,當增大animal重復數時, 趨於一個穩定值,該樣本對總體的估計達到了一個較為准確的水平,同時 的值也接近於0。
4、從統計檢驗的角度,來選擇replicate
使用two-sample t檢驗,來判斷cell樣品的gene表達量方差、動物樣品表達量均值之間是否存在顯著差異。
下圖很明顯的一個結果就是,隨著 的增加,統計檢驗的效能得到提升,假陽性也在降低(同時也得權衡 和 )
對於一組數據來說, 研究對象的生物重復比技術重復更能夠反映總體 ,因此在進行實驗設計時,最好將實驗/測序資源傾向這邊,而不是技術重復(除非對技術重復所誘發的影響感興趣)
[1] 劉小樂老師-哈佛計算生物學與生物信息學
[2] Blainey P, Krzywinski M, Altman N. Points of significance: replication[J]. Nature methods, 2014, 11(9): 879.