『壹』 生物信息學的常用縮寫都有哪些
DNA序列分析——ORF Finder
NCBI(www.ncbi.nlm.nih.gov)-GenBank資料庫
資料庫相似性搜索——核酸序列與核酸資料庫比較(BLASTN)
蛋白質序列與資料庫中蛋白質序列比較(BLASTP)
基因組資料庫:英國ArkDB、美國GDB和TDB、歐洲EMBL、AceDB(線蟲資料庫)、SGD(酵母資料庫)、核酸序列資料庫GenBank
蛋白質結構資料庫:PDB
『貳』 什麼是相似性
相似性:序列間相似性的量度。
同源性:兩條序列有一個共同的進化祖先,那麼它們是同源的。
同源性是序列同源或者不同源的一種論斷,而相似性或者一致性是一個序列相關的量化,是兩個不同的概念。
PAM矩陣模塊負值大小與序列相似性的關系是負向還是正向?pam值越大,則相似性越低,關系為負向.
生物信息學能解決什麼問題?即研究對象和應用對象。
生物信息學:運用計算機技術和信息技術開發新的演算法和統計方法,對生物實驗數據進行分析,確定數據所含的生物學意義,並開發新的數據分析工具以實現對各種信息的獲取和管理的學科。
DNA序列,CDNA序列,NCDNA序列,RNA序列,蛋白質序列等等各種。
什麼是blast?簡述其應用。blast:基於數據相似性的資料庫搜索程序.應用:1.確定直系同源序列或旁系同源序列。2.確定哪些蛋白質和基因在特定的物種中出現。3.確定一個DNA或者蛋白質序列身份。4.發現新基因。
什麼是分子進化樹?常用的建樹方法有哪些?舉例常用的建樹軟體。
進化樹又名系統樹進化樹,用來表示物種間親緣關系遠近的樹狀結構圖在進化樹中,各個分類單元(物種)依據進化關系的遠近,被安放在樹狀圖表上的不同位置。根據蛋白質的序列或者結構差異關系可以構建分子進化樹或者種系進化樹,
常用的軟體:MEGA、PHYL JIP、PAUP、PHYML、PAML、Tree-puzzle、MrBayes
什麼是NGS?自己查閱相關資料,簡述二代測序和三代測序的基本原理。
我的答案:
NGS:下一代測序技術。以能一次並行對幾十萬到幾百萬條DNA分子進行序列測定和一般讀長較短等為標志。第二代測序:Illumina/Solexa Genome Analyzer測序的基本原理是邊合成邊測序。在Sanger等測序方法的基礎上,通過技術創新,用不同顏色的熒游標記四種不同的dNTP,當DNA聚合酶合成互補鏈時,每添加一種dNTP就會釋放出不同的熒光,根據捕捉的熒光信號並經過特定的計算機軟體處理,從而獲得待測DNA的序列信息。第三代測序技術原理主要分為兩大技術陣營:第一大陣營是單分子熒光測序,代表性的技術為美國螺旋生物(Helicos)的SMS技術和美國太平洋生物(Pacific Bioscience)的SMRT技術。脫氧核苷酸用熒游標記,顯微鏡可以實時記錄熒光的強度變化。當熒游標記的脫氧核苷酸被摻入DNA鏈的時候,它的熒光就同時能在DNA鏈上探測到。當它與DNA鏈形成化學鍵的時候,它的熒光基團就被DNA聚合酶切除,熒光消失。這種熒游標記的脫氧核苷酸不會影響DNA聚合酶的活性,並且在熒光被切除之後,合成的DNA鏈和天然的DNA鏈完全一樣。第二大陣營為納米孔測序,代表性的公司為英國牛津納米孔公司。新型納米孔測序法(nanopore sequencing)是採用電泳技術,藉助電泳驅動單個分子逐一通過納米孔 來實現測序的。由於納米孔的直徑非常細小,僅允許單個核酸聚合物通過,而ATCG單個鹼基的帶電性質不一樣,通過電信號的差異就能檢測出通過的鹼基類別,從而實現測序。
ProtParam可以進行蛋白質基本的物理化學參數的計算。ProtScale可以進行氨基酸親/疏水性的分析。TMpred可用於對蛋白質跨膜區預測、定位,該方法基於統計學結果,通過權重矩陣打分進行預測分析。SignalP可以預測多種生物體(包括革蘭氏陽性原核生物、革蘭氏陰性原核生物及真核生物)的氨基酸序列信號肽剪切位點的出現和定位。COILS:預測捲曲螺旋的在線工具。PROSITE ;通過對蛋白質家族中同源序列多重序列比對得到區別於其他蛋白質家族的保守性序列模式。InterProScan:蛋白質結構域和功能位點的集成資料庫,它將SWISS-PROT、TrEMBL、PROTSITE、PRINTS、PFAM、ProDom等資料庫提供的蛋白質序列中的各種局域模式,如結構域、基序等信息統一起來,提供了較為全面的分析數據。blastp:進行蛋白質序列同源性分析
我的答案:
分為4類。①只考慮單個氨基酸形成不同二級結構的傾向,並預測蛋白質二級結構②基於氨基酸片段(通常11-21個殘基長度),考慮中心殘基形成不同二級結構的傾向,並預測蛋白質二級結構③在基於氨基酸片段預測的基礎上,結合了蛋白質序列的進化信息及長程作用信息等④將幾種預測方法綜合進行預測
什麼是復雜疾病?其具有哪些遺傳特性?
復雜疾病:絕大多數疾病的發生與遺傳、環境、生活方式和年齡等多種因素有關,因而被稱為復雜疾病。遺傳特性:1.在家系中的傳遞不符合孟德爾規律,而且疾病基因型與表型之間存在多因素致病、多基因多層次調控以及臨床表型復雜等特徵。 2.復雜疾病的遺傳易感性不一定是對疾病表型本身的直接影響,而可能是通過影響疾病的中間性狀的間接後果。這些基因之間沒有顯性和隱性的區別,而是共顯性;但是每個基因對表型只用較小或微小的影響,只用若干個基因共同作用,才可對表型產生明顯影響。
『叄』 BLAST有什麼用為什麼要BLAST
應該有用途,僅個人所言 ,不太清楚此言的准確性。BLAST是NCBI中進行序列查找或比對的一個功能,通過序列的BLAST,我們答橋凱可以找到自己所擴的片段與已測序的片段的一致性,以此推斷自己所擴的片段的具體功能,進行序列比消培對,還可以發現所擴片段清喚的來源生物與其他的生物的親緣關系
『肆』 blast 抗性篩選 什麼意思
Blast的運行方式是先用目標序列建資料庫(這種資料庫稱為database,裡面的每一條序列稱為subject),然後用待查序列(query)在database中搜索,每一條query與database中的每一條subject都要進行雙序列比對,從而得出全部比對結果。
Blast是一個繼承的程序包,通過調用不同的比對模塊,blast實現了物種可能的序列比對方式:
blastp:蛋白序列與蛋白庫做比對。
blastx:核酸序列對蛋白庫的比對,先將核酸序列翻譯成蛋白序列(根據相位可以翻譯成6種可能的蛋白序列),然後再與蛋白庫作比對。
blastn:核酸序列對核算庫的比對。
tblastn:蛋白序列對核算庫的比對,將庫中的核酸序列翻譯成蛋白序列,然後進行比對。
tblastx:核酸序列對核算庫在蛋白級別的比對,將庫和待查序列都翻譯成蛋白序列,然後對蛋白序列進行比對。
Blast提供了核酸和蛋白序列之間所有可能的比對方式,同時具有較快的比對速度和較高的比對精度,因此在常規雙序列比對分析中應用最為廣泛,可以毫不誇張的說,blast是做比對基因組學乃至整個生物信息學研究所必須掌握的一種比對工具。
使用:
blast的運行分為兩個步驟:第一,建立目標序列的資料庫;第二,做blast比對。
1、運行建庫程序formatdb:
建庫的工程是建立目標序列的索引文件,所以程序是formatdb。程序允許的輸入格式是FASTA或者ASN.1格式,通常我們使用的FASTA格式的序列作為輸入。用於建庫的FAST序列是db.seq, formatdb的基本命令是:
formatdb –i db.seq [-options]
常用參數:
-p (T/F): -p參數的意義是選鬧羨擇建庫的類型,「T」表示蛋白液鏈拍庫,「F」表示核算庫,預設值為「T」
-o(T/F): -o參數的意義是判斷是否分析序列名並建立序列名索引。「T」表示建立序列名索引,「F」表示不建立序列索引。預設值為「F」。
程序輸出:
如果建立的是核算庫,輸出為db.seq.nhr、db.seq.nin、db.seq.nsq,三個文件,如果選擇了「-o T」,還會同時輸出db.seq.nsd、db.seq.nsi、db.seq.nni、db.seq.nnd四個文件,一共七個。
蛋白庫和核算庫的輸出類似,相應的輸出文件為:db.seq.nhr、db.seq.nin、db.seq.nsq和db.seq.nsd、db.seq.nsi、db.seq.nni、db.seq.nnd七個文件。
除了這個結果喚神,程序還會輸出LOG文件(默認為formatdb.log),裡面記錄了運行時間、版本號、序列數量等信息。
幾點需要注意的問題:
1)、建庫以後,做blast比對的輸入文件就是建庫所得的文件db.seq.n**或者db.seq.p**,而不是原始的FASTA序列,也就是說,建庫以後,原始序列文件是可以刪除的。
2)、如果命令行中選擇了「-o T」,並且目標序列中好友gi號重復的序列名時,程序會停止建庫並報錯。
就是說庫文件中不能出現重復的序列(標志是,跟具體的序列沒有關系)。
3)、如果輸入序列不符合FASTA格式或者ASN.1格式,程序會自動退出,並報錯。
[formatdb] ERROR: Could not open db.
4)、核酸序列可以用於建核算庫和蛋白庫,但是蛋白序列不能用於建核算庫,這個是顯然的,密碼子的問題哦!
其他參數介紹:
-l : 「-l 文件名」用來改變LOG文件的命名
-n : 「-n 文件名」可以自定義生成的庫文件命名
-a : 輸入文件為ASN.1格式
2、運行比對程序blastall:
Blast的主程序是blastall。程序的輸入文件是query序列(- i參數)而和庫文件(-d 參數),比對類型的選擇(- p參數)和輸出文件(- o 參數)由用戶指定。其中「-p」參數有5中取值:
-p blastp:蛋白序列與蛋白庫做比對。
-p blastx:核酸序列對蛋白庫的比對。
-p blastn:核酸序列對核酸庫的比對。
-p tblastn:蛋白序列對核酸庫的比對。
-p tblastx:核酸序列對核酸庫在蛋白級別的比對。
這些元素就構成了 blast 的基本運行命令(以 blastn 為例):
blastall -i query.fa -d database -o blast.out -p blastn
其中如果"-o"參數預設,則結果輸出方式為屏幕輸出。
參數:
僅僅運行blast的基本運行命令,得到的結果往往不能清晰准確的表示出有用的信息。最大的問題就是有太多的冗餘,很多很短的比對都會出現在輸出結果中,導致結果雜亂無章。為了處理雜亂無章的比對結果,滿足各種比對需求,blast設置了很多參數來限制比對的范圍和輸出的形式。一下多數結果以blastn距離,如不做特殊說明,這些參數適合於所有比對方式。
-e 參數
-e(value)參數是用來過濾比對較差的結果的,用「-e」參數指定一個實數,blast會過濾掉期望值大於這個數的比對結果(就是說這個值越小比對結果就越好)。
blastall -i query.fa -d database -o blast.out -p blastn -e 1e-10
通常情況下,對於不同物種之間的比對,期望值設在1e-5左右即可;而對於同源性較高的物種或者同種的比對,可以適度將期望值調的更小來過濾垃圾結果。比對同一物種cDNA和染色體的比對,參數可用1e-10或更高。
-F 參數
-F(T/F)參數是用來屏蔽簡單重復和低復雜度序列的。如果選「T」,程序在比對過程中會屏蔽掉query中的簡單重復和低復雜度序列;選「F」則不會屏蔽。預設值為「T」。
比較兩個結果,我們看出使用預設參數的比對結果損失了一部分信息,得到的統計結果也
出現失真,期望值和 identity 都沒有反映出真實情況。有時較長的重復序列甚至會導致比對終止。加了"-F F"就保證了比對結果的完整性。通常在大規模、低精度的比對中,往往用預設參數,這樣能避免程序把過多的時間浪費在無意義的簡單重復上,提高運行速度;而在小規模、高精度的比對中,需要加上參數"-F F",保證比對的精確度和完整性。
-m 參數:
「-e」參數能夠做到篩選適當的比對結果,但是即使如此,blast的輸出結果仍然非常龐大並且難以處理。為了精簡輸出、節省存儲空間、實現更多功能並使結果易於處理,blast 提供了參數「-m (integer)」來設定輸出格式,可供選擇的值為 0~11 之間的整數,預設為 0。下面就通過實例逐個解析「-m」參數能夠實現的輸出功能。
-m 8 : 列表格式的比對結果。從做導游割裂的意義一次是:query名/subject名/identify/比對長度/錯配數/空位數/query比對起始坐標/query比對終止坐標/subject比對起始坐標/subject比對終止坐標/期望值/比對得分
在 m8 格式中通過 subject 的比對起止位置可以判斷出序列的比對方向。判斷方法就是:query和subject的起始和終止坐標是否一致增減。
『伍』 求生物學blast翻譯,主要就是blast hit是什麼意思啊
是比對的意思。察臘這段話的意思:在你比對的所有結果中,最高的不超過10%的相似度,結果A. mellifera gene 的表達敗絕滑序宏猜列標簽應該是與你的片段序列同源
『陸』 詳細介紹雙序列比對、blast 以及多序列比對的區別,以及均適用於哪些場 景
序列比對是將兩個或多個序列排列在一起,標明其相似之處。使用間隔表示未比對上,比對上的相同或相似的符號排列在同一列上。序列比對是生物信息學以及基因組學與進化的基礎之一,其基本思想是:在生物學中普遍存在的序列決定結構、結構決定功能的規律,通過將核酸序列或者蛋白質序列的一級結構看成由基本字元構成的字元串,通過序列比對我們可以找到相似的序列並由此發現生物序列中的功能、結構和進化信息。
全局比對:全局比對是指將參與比對的兩條序列裡面的所有字元進行比對。全局比對在全局范圍內對兩條序列進行比對打分,找出最佳比對,主要被用來尋找關系密切的序列。其可以用來鑒別或證明新序列與已知序列家族的同源性,是進行分子進化分析的重要前提。其代表是Needleman-Wunsch演算法。
局部比對:與全局比對不同,局部比對不必對兩個完整的序列進行比對,而是在每個序列中使用某些局部區域片段進行比對。其產生的需求在於、人們發現有的蛋白序列雖然在序列整體上表現出較大的差異性,但是在某些局部區域能獨立的發揮相同的功能,序列相當保守。這時候依靠全局比對明顯不能得到這些局部相似序列的。其次,在真核生物的基因中,內含子片段表現出了極大變異性,外顯子區域卻較為保守,這時候全局比對表現出了其局限性,無法找出這些局部相似性序列。其代表是Smith-Waterman局部比對演算法。
雙重序列比對:雙序列比對是指對兩條序列M和N進行比對,找到其相似性關系,這種尋找生物序列相似性關系的過程被稱為雙序列比對。其演算法可以主要分成基於全局比對的Needleman-Wunsch演算法和基於局部比對的Smith-Waterman局部比對演算法
多重序列比對:多序列比對是雙序列比對推廣,即把兩個以上字元序列對齊,逐列比較其字元的異同,使得每一列字元盡可能一致,以發現其共同的結構特徵的方法稱為多序列比對。多序列比對演算法可以分成漸進法和同步法。其可以發現不同的序列之間的相似部分,從而推斷它們在結構和功能上的相似關系,主要用於分子進化關系,預測蛋白質的二級結構和三級結構、估計蛋白質折疊類型的總數,基因組序列分析等。
基因組比對:是多序列比對的一種特例,指對基因組范圍內的序列信息進行比對的過程。通過對不同親緣關系物種的基因組序列進行比較,能夠鑒定出編碼序列、非編碼調控序列及給定物種獨有的序列。而基因組范圍之內的序列比對,可以了解不同物在核苷酸組成、同線性關系和基因順序方面的異同,進而得到基因分析預測與定位、生物系統發生進化關系等方面的信息。
BLAST:BLAST[1](Basic Local Alignment Search Tool)是在在1990年由Altschul等人提出的雙序列局部比對演算法,是一套在蛋白質資料庫或DNA資料庫中進行相似性比較的分析工具。BLAST是一種啟發式演算法,用於在大型資料庫中尋找比對序列,是一種在局部比對基礎上的近似比對演算法,可以在保持較高精度的情況下大大減少程序運行的時間。
演算法思想描述:
雙重序列比對主要分成以Needleman-Wunsch演算法為代表的全局比對和以Smith-Waterman局部比對演算法為代表的局部比對,BLAST是局部比對的一種推廣。多重比對演算法可以主要分成動態規劃演算法、隨機演算法、迭代法和漸進比對演算法。
(1)雙重序列比對:
Needleman-Wunsch演算法:該演算法是基於動態規劃思想的全局比對的基本演算法,動態規劃的比對演算法的比對過程可以用一個以序列S為列,T為行的(m+1)×(n+1)的二維矩陣來表示,用
sigma表示置換矩陣。
在計算完矩陣後,從矩陣的右下角單元到左上單元回溯最佳路徑(用箭頭表示),根據最佳路徑給出兩序列的比對結果。其中,斜箭頭表示2個殘基匹配,水平箭頭表示在序列S的相應位置插入一個空位,垂直方向的箭頭表示在序列T的相應位置插入一個空位。
Smith-Waterman演算法:該演算法是一種用來尋找並比較具有局部相似性區域的動態規劃演算法,這種演算法適用於親緣關系較遠、整體上不具有相似性而在一些較小的區域上存在局部相似性的兩個序列。該演算法的基本思想是:使用迭代方法計算出兩個序列的相似分值,存在一個得分矩陣M中,然後根據這個得分矩陣,通過動態規劃的方法回溯找到最優的比對序列。與全局比對相比,這種演算法的改變是把矩陣單元值為負者一律取為0,這是因為分值為負的比對喪失了比對的生物學意義,因此把得分為負值的子序列丟棄。
BLAST: BLAST演算法的基本思想是通過產生數量更少的但質量更好的增強點來提高比對的速度。演算法的原理主要分為以下五步:(1)過濾:首先過濾掉低復雜度區域,即含有大量重復的序列;(2)Seeding:將Query序列中每k個字組合成一個表,即將一個序列拆分成多個連續的『seed words』(通常蛋白質k=3,核酸k=11);(3)比對:列出我們所關心的所有可能的字組,再配合置換矩陣給出高分值的字組並組織成快速搜索樹結構或者哈希索引,因此此步驟可以快速搜索出大數據集中的所有匹配序列,找到每個seed words在參考序列中的位置;(4)延伸:當找到seed words的位置後,接下來需要將seed word延伸成長片段,延伸過程中,得分值也在變化,當得分值小於閾值時即停止延伸,最後得到的片段成為高分片段對,HSP(High-scoring segment pair);(5)顯著性分析,最後我們使用如下公式計算E值,E值衡量了在隨機情況下,資料庫存在的比當前匹配分數更好的比對的數目,因此可以用該值作為指標評價HSP比對序列的可信度。
其中,m是資料庫長度,n是query的長度,S是HSP分數,其他兩個參數是修正系數。
(2)多重序列比對
動態規劃演算法:其基本思想是將一個二維的動態規劃矩陣擴展到三維或者多維,多序列比對的積分是n個序列中兩兩進行比對所得積分之和。矩陣的維度反映了參與比對的序列數。這種方法對計算資源要求比較高[6]。
隨機演算法:主要包括遺傳演算法和模擬退火演算法,遺傳演算法是一類借鑒生物界進化規律演化來的全局意義上的自適應隨機搜索方法。當用遺傳演算法進行生物序列分析時,每一代包含固定數量的個體,這些個體用他們的適應度來評價。變異則模擬了生物進化過程中的偶然殘基突變現象。對產生的新一代群體進行重新評價、選擇、交叉、變異,如此循環往復,使群體中最優個體的適應度不斷提高,直到達到一個閾值,演算法結束。模擬退火的基本思想是用一物質系統的退火過程來模擬優化問題的尋優方法,當物質系統達到最小能量狀態時,優化問題的目標函數也相應地達到了全局最優解。這兩種方法都是對構造好的目標函數進行最優解搜索,但實際比對效果並不好[6,7]。
迭代法:迭代法的代表是Muscle[8], Muscle是一個新的漸進比對和迭代比對的綜合演算法,主要由兩部分構成,第一部分是迭代漸進比對:第一次漸進比對的目的是快速產生一個多序列比對而不強調准確率,以此為基礎再對漸進比對進行改良。經過兩次漸進比對,形成一個相對准確的多序列比對;第二部分是迭代比對:該過程類似於Prrp演算法[9],即通過不斷的迭代,逐步優化最終比對結果。其主要特點包括:使用kmer counting進行快速的距離測量,使用一個新的圖譜比對打分函數進行漸進比對,使用依賴於數的有限分隔進行細化。
漸進比對演算法:該演算法以Feng和Doolittle提出的最為經典[10]。漸進比對演算法的基本思想是迭代地利用兩序列動態規劃比對演算法,先由兩個序列的比對開始,逐漸添加新序列,直到所有序列都加入為止。但是不同的添加順序會產生不同的比對結果。確定合適的比對順序是漸進比對演算法的一個關鍵問題。通常,整個序列的比對應該從最相似的兩個序列開始,由近至遠逐步完成。作為全局多序列比對的漸進比對演算法有個基本的前提假設:所有要比對的序列是同源的,即由共同的祖先序列經過一系列的突變積累,並經自然選擇遺傳下來的,分化越晚的序列之間相似程度就越高。因此,在漸進比對過程中,應該對近期的進化事件比遠期的進化事件給予更大的關注。由於同源序列是進化相關的,因此可以按著序列的進化順序,即沿著系統發育樹(指導樹)的分支,由近至遠將序列或已比對序列按雙序列比對演算法逐步進行比對,重復這一過程直到所有序列都己添加到這個比對中為止[10]。其三個步驟為:(1)利用雙序列比對方法對所有的序列進行兩兩比對,得到相似性分值;(2)利用相似性矩陣(或距離矩陣)產生輔助導向樹;(3)根據導向樹進行漸進比對。漸進比對演算法是最常用、簡單又有效的啟發式多序列比對方法,它所需時間較短、所佔內存較小,其演算法很多,主要有CLUSTAL W, T-Coffee和DiAlign等,其中 CLUSTAL W應用最廣泛。
應用:
類型+應用
雙重序列對比:判斷兩個序列的同源性和一致性。(1)全局多序列比對可以鑒別或證明新序列與己有序列家族的同源性;幫助預測新蛋白質序列的二級和二級結構,是進行分子進化分析的重要前提。適合序列相似性較高,序列長度近似時的比對;(2)局部比對考慮序列部分區域的相似性。局部多序列比對可以用來刻畫蛋白質家族和超家族。適合於未知兩個序列相似程度的,可能存在一些片段極其相似而另一些片段相異的序列比對情況。
多重序列比對:多重比對經常用來研究序列間的進化關系,構建進化樹;探究序列間的保守性。主要用於分子進化關系,預測蛋白質的二級結構和三級結構、估計蛋白質折疊類型的總數,基因組序列分析等。
基因組比對:通過對不同親緣關系物種的基因組序列進行比較,能夠鑒定出編碼序列、非編碼調控序列及給定物種獨有的序列。而基因組范圍之內的序列比對,可以了解不同物在核苷酸組成、同線性關系和基因順序方面的異同,進而得到基因分析預測與定位、生物系統發生進化關系等方面的信息。
其中,BLAST作為最重要的比對工具,意義特殊,拿出來單獨討論。BLAST可以分成Basic BLAST和 Specialized BLAST, BLAST包括常規的nucleotide blast, Protein blast和Translating blast;Specialize blast可以對特殊生物或特殊研究領域的序列資料庫進行檢索。
『柒』 生物信息學中blast是什麼意思
blast
n. 爆炸鍵團孫; 一陣(疾風等); (吹奏樂器、哨子、汽車或絕喇叭等突然發出的) 響聲; 突如其來的強勁氣流;
vt. 擊毀,摧毀; 尖響; 裁判高聲吹哨; 枯萎:使枯萎;
vi. 爆稿鏈炸; 吼叫; 枯萎:枯萎; 攻擊:嚴厲批評或猛烈攻擊;
[例句]There is a risk that toxic chemicals might be blasted into the atmosphere.
爆炸後有毒化學物質可能會進入大氣層。
生物信息學中應該是枯萎的意思。