① 如何運用生物信息學方法篩選mrna差異基因
1、使用寡核苷酸磁珠選擇帶有polyA尾的mRNA
2、構建cDNA 文庫,測序
3、將測序reads比對到參考基因組
4、轉錄組重建
5、轉錄本表達定量
6、差異表達分析:edgeR、DEseq
② 生物信息學有哪些方面的應用
1,測序與序列比對(Sequence Alignment)
測序是生物信息學的基礎和主要數據來源,可以是人類數據也可以是其他的數據。序列比對的基本問題是比較兩個或兩個以上符號序列的相似性或不相似性.從生物學的初衷來看,這一問題包含了以下幾個意義:從相互重疊的序列片斷中重構DNA的完整序列.在各種試驗條件下從探測數據(probe data)中決定物理和基因圖存貯,遍歷和比較資料庫中的DNA序列比較兩個或多個序列的相似性在資料庫中搜索相關序列和子序列尋找核苷酸(nucleotides)的連續產生模式找出蛋白質和DNA序列中的信息成分序列比對考慮了DNA序列的生物學特性,如序列局部發生的插入,刪除(前兩種簡稱為indel)和替代,序列的目標函數獲得序列之間突變集最小距離加權和或最大相似性和,對齊的方法包括全局對齊,局部對齊,代溝懲罰等.兩個序列比對常採用動態規劃演算法,這種演算法在序列長度較小時適用,然而對於海量基因序列(如人的DNA序列高達109bp),這一方法就不太適用,甚至採用演算法復雜性為線性的也難以奏效.因此,啟發式方法的引入勢在必然,著名的BALST和FASTA演算法及相應的改進方法均是從此前提出發的.
2, 蛋白質結構比對和預測
基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性.蛋白質的結構與功能是密切相關的,一般認為,具有相似功能的蛋白質結構一般相似.蛋白質是由氨基酸組成的長鏈,長度從50到1000~3000AA(Amino Acids),蛋白質具有多種功能,如酶,物質的存貯和運輸,信號傳遞,抗體等等.氨基酸的序列內在的決定了蛋白質的3維結構.一般認為,蛋白質有四級不同的結構.研究蛋白質結構和預測的理由是:醫葯上可以理解生物的功能,尋找dockingdrugs的目標,農業上獲得更好的農作物的基因工程,工業上有利用酶的合成.直接對蛋白質結構進行比對的原因是由於蛋白質的3維結構比其一級結構在進化中更穩定的保留,同時也包含了較AA序列更多的信息.蛋白質3維結構研究的前提假設是內在的氨基酸序列與3維結構一一對應(不一定全真),物理上可用最小能量來解釋.從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構.同源建模(homology modeling)和指認(Threading)方法屬於這一范疇.同源建模用於尋找具有高度相似性的蛋白質結構(超過30%氨基酸相同),後者則用於比較進化族中不同的蛋白質結構.然而,蛋白結構預測研究現狀還遠遠不能滿足實際需要.
3, 基因識別,非編碼區分析研究.
基因識別的基本問題是給定基因組序列後,正確識別基因的范圍和在基因組序列中的精確位置.非編碼區由內含子組成(introns),一般在形成蛋白質後被丟棄,但從實驗中,如果去除非編碼區,又不能完成基因的復制.顯然,DNA序列作為一種遺傳語言,既包含在編碼區,又隱含在非編碼序列中.分析非編碼區DNA序列目前沒有一般性的指導方法.在人類基因組中,並非所有的序列均被編碼,即是某種蛋白質的模板,已完成編碼部分僅占人類基因總序列的3~5%,顯然,手工的搜索如此大的基因序列是難以想像的.偵測密碼區的方法包括測量密碼區密碼子(codon)的頻率,一階和二階馬爾可夫鏈,ORF(Open Reading Frames),啟動子(promoter)識別,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子進化和比較基因組學
分子進化是利用不同物種中同一基因序列的異同來研究生物的進化,構建進化樹.既可以用DNA序列也可以用其編碼的氨基酸序列來做,甚至於可通過相關蛋白質的結構比對來研究分子進化,其前提假定是相似種族在基因上具有相似性.通過比較可以在基因組層面上發現哪些是不同種族中共同的,哪些是不同的.早期研究方法常採用外在的因素,如大小,膚色,肢體的數量等等作為進化的依據.近年來較多模式生物基因組測序任務的完成,人們可從整個基因組的角度來研究分子進化.在匹配不同種族的基因時,一般須處理三種情況:Orthologous: 不同種族,相同功能的基因;Paralogous: 相同種族,不同功能的基因;Xenologs: 有機體間採用其他方式傳遞的基因,如被病毒注入的基因.這一領域常採用的方法是構造進化樹,通過基於特徵(即DNA序列或蛋白質中的氨基酸的鹼基的特定位置)和基於距離(對齊的分數)的方法和一些傳統的聚類方法(如UPGMA)來實現.
5, 序列重疊群(Contigs)裝配
根據現行的測序技術,每次反應只能測出500 或更多一些鹼基對的序列,如人類基因的測量就採用了短槍(shortgun)方法,這就要求把大量的較短的序列全體構成了重疊群(Contigs).逐步把它們拼接起來形成序列更長的重疊群,直至得到完整序列的過程稱為重疊群裝配.從演算法層次來看,序列的重疊群是一個NP-完全問題.
6, 遺傳密碼的起源
通常對遺傳密碼的研究認為,密碼子與氨基酸之間的關系是生物進化歷史上一次偶然的事件而造成的,並被固定在現代生物的共同祖先里,一直延續至今.不同於這種"凍結"理論,有人曾分別提出過選擇優化,化學和歷史等三種學說來解釋遺傳密碼.隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源和檢驗上述理論的真偽提供了新的素材.
7, 基於結構的葯物設計
人類基因工程的目的之一是要了解人體內約10萬種蛋白質的結構,功能,相互作用以及與各種人類疾病之間的關系,尋求各種治療和預防方法,包括葯物治療.基於生物大分子結構及小分子結構的葯物設計是生物信息學中的極為重要的研究領域.為了抑制某些酶或蛋白質的活性,在已知其蛋白質3級結構的基礎上,可以利用分子對齊演算法,在計算機上設計抑制劑分子,作為候選葯物.這一領域目的是發現新的基因葯物,有著巨大的經濟效益.
8.生物系統的建模和模擬
隨著大規模實驗技術的發展和數據累積,從全局和系統水平研究和分析生物學系統,揭示其發展規律已經成為後基因組時代的另外一個研究 熱點-系統生物學。目前來看,其研究內容包括生物系統的模擬(Curr Opin Rheumatol,2007,463-70),系統穩定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系統魯棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)為代表的建模語言在迅速發展之中,以布爾網路 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、隨機過程(Neural Comput,2007,3262-92)、離散動態事件系統等(Bioinformatics,2007,336-43)方法在系統分析中已經得到應 用。很多模型的建立借鑒了電路和其它物理系統建模的方法,很多研究試圖從信息流、熵和能量流等宏觀分析思想來解決系統的復雜性問題(Anal Quant Cytol Histol,2007,296-308)。當然,建立生物系統的理論模型還需要很長時間的努力,現在實驗觀測數據雖然在海量增加,但是生物系統的模型辨 識所需要的數據遠遠超過了目前數據的產出能力。例如,對於時間序列的晶元數據,采樣點的數量還不足以使用傳統的時間序列建模方法,巨大的實驗代價是目前系 統建模主要困難。系統描述和建模方法也需要開創性的發展。
9.生物信息學技術方法的研究
生物信息學不僅僅是生物學知識的簡單整理和、數學、物理學、信息科學等學科知識的簡單應用。海量數據和復雜的背景導致機器學習、統 計數據分析和系統描述等方法需要在生物信息學所面臨的背景之中迅速發展。巨大的計算量、復雜的雜訊模式、海量的時變數據給傳統的統計分析帶來了巨大的困難, 需要像非參數統計(BMC Bioinformatics,2007,339)、聚類分析(Qual Life Res,2007,1655-63)等更加靈活的數據分析技術。高維數據的分析需要偏最小二乘(partial least squares,PLS)等特徵空間的壓縮技術。在計算機演算法的開發中,需要充分考慮演算法的時間和空間復雜度,使用並行計算、網格計算等技術來拓展演算法的 可實現性。
10, 生物圖像
沒有血緣關系的人,為什麼長得那麼像呢?
外貌是像點組成的,像點愈重合兩人長得愈像,那兩個沒有血緣關系的人像點為什麼重合?
有什麼生物學基礎?基因是不是相似?我不知道,希望專家解答。
11, 其他
如基因表達譜分析,代謝網路分析;基因晶元設計和蛋白質組學數據分析等,逐漸成為生物信息學中新興的重要研究領域;在學科方面,由生物信息學衍生的學科包括結構基因組學,功能基因組學,比較基因組學,蛋白質學,葯物基因組學,中葯基因組學,腫瘤基因組學,分子流行病學和環境基因組學,成為系統生物學的重要研究方法.從現在的發展不難看出,基因工程已經進入了後基因組時代.我們也有應對與生物信息學密切相關的如機器學習,和數學中可能存在的誤導有一個清楚的認識.
③ 一個物種的全基因組測序後,你應該怎麼使用生物信息學的方法對其進行研究請從基因的功能研究,進化等多
首先進行基因分類,比如說編碼性基因佔多大比例,非編碼性基因又佔多少比例;轉錄差虧因子佔多少比例,蛋白激酶類基因又佔多少比例等等。
然後將該物種基因組與其它已測稿慶山序基因組進行比較,包括大鍵中小、同源度等等。
你可以下載一篇報道某種物種已完成測序的文獻,看文獻中怎麼分析。這種文獻應該有很多。
④ 如何利用生物信息學篩選靶蛋白的抑制劑
如何利用生物信息學篩選靶蛋白的抑制劑
基因組包含了構成和維持一個生活有機體所必備的基本信息,由細胞內進行的多種分子生物學反應將這些信息轉化為真正的生命現象。基因組的一部分編碼蛋白質和RNA,其它部分調控這些大分子的表達。表達的蛋白質及RNA折疊成高度專一的三維結構,在體內的特定位置上實現其功能。這些過程的大量細節都是在分子生物學研究的實驗室里揭示出來的,所形成的大量數據,存儲於資料庫中。生物信息學試圖從這些數據中提取新的生物學信息和知識,是一門深深植根於全面深入的實驗事實和數據的理論生物學。從目前生物信息學的研究情況來看,國際上公認的生物信息學的研究內容,大致包括以下幾個方面: 生物信息的收集、存儲、管理與提供。包括建立國際基本生物信息庫和生物信息傳輸的國際聯網系統;建立生物信息數據質量的評估與檢測系統;生物信息的在線服務;生物信息可視化和專家系統。 基因祥游組序列信息的提取和分析。包括基因的發現與鑒定,如利用國際EST 資料庫 (dbEST) 和各自實驗室測定的相應數據,經過大規模 並行計算發現新基因和新SNPs以及各種功能位點;基因組中非編碼區的信息結構分析,提出理論模型,闡明該區域的重要生物學功能;進行模式生物完整基因組的信息結構分析和比較研究;利用生物信息研究遺傳密碼起源、基因組結構的演化、基因組空間結構與DNA折疊的關系以及基因組信息與生物進化關系等生物學的重大問題。 功能基因組相關信息分析。包括與大規模基因表達譜分析相關的演算法、軟體研究,基因表達調控網路的研究;與基因組信息相關的核酸、蛋白質空間結構的預測和模擬,以及蛋白質功能預測的研究。 生物大分子結構模擬和葯物設計。包括RNA(核糖核酸)的結構模擬和反義RNA的分子設計;蛋白質空間結構模擬和分子設計;具有不同功能域的復合蛋白質以及連接肽的設計;生物活性分子的電謹胡銷子結構計算和設計;納米生物材料的模擬與設計;基於酶和功能蛋白質結構、細胞表面受體結構的葯物設計;基於DNA結構的葯物設計等。 生物信息分析的技術與方法研究。包括發展有效的能支持大尺度作圖與測序需要的軟體、資料庫以及若干資料庫工具,諸如電子網路等遠程通訊工具;改進現有的理論分析方法,如統計方法、模式識別方法、隱馬爾科夫過程方法、分維方法、神經網路方法、復雜性分析方法、密碼學方法、多序列比較方法等;創建一切適用於基因組信息分析的新方法、新技術。包括引入復雜系統分析技術、信息系統分析技術等;建立嚴格的多序列比較方法;發展與應用密碼學方法以及其他演算法和分析技術,用於解釋基因組的信息,探索DNA序列及其空間結構信息的新表徵;發展研究基因組完整信息結構和信息網路的研究方法等;發展生物大分子空間結構模擬、電子結構模擬和葯物設計的新方法與新技術。 應用與發展研究。匯集與疾病相關的人類基因信息,發展患者樣品序列信息檢測技術和基於序列信息選擇表達載體、引物的技術,建立與動植物良種繁育相關的資料庫以及與大分子設計和葯物設計相關的資料庫。 總的來說近期生物信息學將在以下幾方面迅速發展:大規模基因組測序中的信息分析;新基因和新SNPs(單核苷酸多態性)的發現與鑒定;完整的比較基因組研究;做啟大規模基因功能表達譜的分析;生物大分子的結構模擬與葯物設計。而其長遠任務是非編碼區信息結構分析和遺傳密碼起源與生物進化的研究。讀懂人類基因組,發現人類遺傳語言的根本規律,從而闡明若干生物學中的重大自然哲學問題,像生命的起源與進化等。 以下就若干方面再做一定的介紹 1. 資料庫 據保守估計,目前世界上平均每一分鍾就有一個序列增加到核酸序列資料庫中,能夠從飛速增長的序列數據更高效的提取信息,建立生物信息中心,通過互聯網實現全球范圍內的信息共享成為必然。歐美各國及日本等西方國家相繼成立了生物信息資源和研究中心,如美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)、位於英國的歐洲生物信息研究所(European Bioinformatics Institute,EBI)、位於瑞士日內瓦的蛋白質專家分析系統(The Expert Protein Analysis System,ExPaSy)、日本國立遺傳學研究院(National Institute Genetics,簡稱NIG)等。以西歐各國為主的歐洲分子生物學網路組織European Molecular Biology network (EMBnet),成立於1988年,是目前國際上最大的分子生物信息研究、開發和服務機構。它把歐洲乃至世界各國的生物信息中心聯系在一起,實現信息共享,並合作進行開發、研究、培訓。 2. 基因組 在後基因組時代,生物信息學家不僅有大量的序列和基因而且有越來越多的完整基因組。有了這些資料人們就能對若乾重大生物學問題進行分
⑤ 如何利用生物信息資料庫開展試驗研究 舉例
近年來大量生物學實驗的數據積累,形成了當前數以百計的生物信息資料庫。它扮旅們各自按一定的目標收集和整理生物學實驗數據,並提供相關的數據查詢、數據處理的服務。隨著網際網路的普及,這些資料庫大多可以通過網路來訪問,或者通過網路下載。
一般而言,這些生物信息資料庫可以分為一級資料庫洞鬧和二級資料庫。一級資料庫的數據都直接來源於實驗獲得的原始數據,只經過簡單的歸類整納缺罩理和注釋;二級資料庫是在一級資料庫、實驗數據和理論分析的基礎上針對特定目標衍生而來,是對生物學知識和信息的進一步整理。國際上著名的一級核酸資料庫有Genbank資料庫、EMBL核酸庫和DDBJ庫等;蛋白質序列資料庫有SWISS-PROT、PIR等;蛋白質結構庫有PDB等。國際上二級生物學資料庫非常多,它們因針對不同的研究內容和需要而各具特色,如人類基因組圖譜庫GDB、轉錄因子和結合位點庫TRANSFAC、蛋白質結構家族分類庫SCOP等等。
下面將順序簡要介紹一些著名和有特色的生物信息資料庫。
⑥ 生物信息學有哪些方面的應用
生物信息學是一門利用計算機技術研究生物系統之規律的學科。
目前的生物信息學基本上只是分子生物學與信息技術(尤其是網際網路技術)的結合體。生物信息學的研究材料和結果就是各種各樣的生物學數據,其研究工具是計算機,研究方法包括對生物學數據的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計算、模擬)。
生物信息學的主要研究方向: 基因組學 - 蛋白質組學 - 系統生物學 - 比較基因組學,1989年在美國舉辦生物化學系統論與生物數學的計算機模型國際會議,生物信息學發展到了計算生物學、計算系統生物學的時代。
生物信息學目前主要應用於:
1,序列比對;
2, 蛋白質結構比對和預測;
3, 基因識別,非編碼區分析研究.;
4, 分子進化和比較基因組學;
5, 序列重疊群(Contigs)裝配;
6, 遺傳密碼的起源;
7, 基於結構的葯物設計;
8.生物系統的建模和模擬;
9.生物信息學技術方法的研究;
10, 生物圖像;
如果你有意獻身於科研事業,為人類未來的發展做出自己的貢獻,這門學科還是有很大的發展前景的,如果想畢業找工作,估計會很難
⑦ 怎樣利用生物信息學方法進行數據挖掘
生物信息學中數學佔了很大的比重。統計學,包括多元統計學,是生物信息學的數學基礎之一;概率論與隨機過程理論,如隱馬爾科夫鏈模型(HMM),在生物信息學中有重要應用;其他如用於序列比對的運籌學;蛋白質空間結構預測和分子對接研究中採用的最優化理論;研究DNA超螺旋結構的拓撲學;研究遺傳密碼和DNA序列的對稱性方面的群論等等.總之,各種數學理論或多或少在生物學研究中起到了相應的作用.但並非所有的數學方法在引入生物信息學中都能普遍成立的,以下以統計學和度量空間為例來說明. Simond在人類的認知一書中指出,人在解決問題時,一般並不去尋找最優的方法,而只要求找到一個滿意的方法.因為即使是解決最簡單的問題,要想得到次數最少,效能最高的解決方法也是非常困難的.最優方法和滿意方法之間的困難程度相差很大,後者不依賴於問題的空間,不需要進行全部搜索,而只要能達到解決的程度就可以了.正如前所述,面對大規模的序列和蛋白質結構數據集,要獲得全局結果,往往是即使演算法復雜度為線性時也不能夠得到好的結果,因此,要通過變換解空間或不依賴於問題的解空間獲得滿意解,生物信息學仍需要人工智慧和認知科學對人腦的進一步認識,並從中得到更好的啟發式方法.
問題規模不同的處理:Marvin Minsky在人工智慧研究中曾指出:小規模數據量的處理向大規模數據量推廣時,往往並非演算法上的改進能做到的,更多的是要做本質性的變化.這好比一個人爬樹,每天都可以爬高一些,但要想爬到月球,就必須採用其他方法一樣.在分子生物學中,傳統的實驗方法已不適應處理飛速增長的海量數據.同樣,在採用計算機處理上,也並非依靠原有的計算機演算法就能夠解決現有的數據挖掘問題.如在序列對齊(sequence Alignment)問題上,在小規模數據中可以採用動態規劃,而在大規模序列對齊時不得不引入啟發式方法,如BLAST,FASTA. 綜上所述,不難看出,生物信息學並不是一個足以樂觀的領域,究竟原因,是由於其是基於分子生物學與多種學科交叉而成的新學科,現有的形勢仍表現為各種學科的簡單堆砌,相互之間的聯系並不是特別的緊密。在處理大規模數據方面,沒有行之有效的一般性方法;而對於大規模數據內在的生成機制也沒有完全明了,這使得生物信息學的研究短期內很難有突破性的結果。那麼,要得到真正的解決,最終不能從計算機科學得到,真正地解決可能還是得從生物學自身,從數學上的新思路來獲得本質性的動力。毫無疑問,正如Dulbecco1986年所說:人類的DNA序列是人類的真諦,這個世界上發生的一切事情,都與這一序列息息相關。但要完全破譯這一序列以及相關的內容,我們還有相當長的路要走。
⑧ 怎麼利用生物信息學分析公共數據
生物信息學(Bioinformatics)是生物學與計算機科學以及應用數學等學科相互交叉而
形
成的一門新興學科。它通過對生物學實驗數據的獲取、加工、存儲、檢索與分析,進而
達
到揭示這些數據所蘊含的生物學意義的目的。在推動生物信息學發展的各種動力中,人
類
基因組計劃(HGP)和生物醫葯工業是其中的兩個主要力量。
就人類基因組來說,得到序列僅僅是第一步,後一步的工作是所謂後基因組時代 (Post
-
genome Era) 的任務,即收集、整理、檢索和分析序列中表達的蛋白質結構與功能的信
息
,找出規律。近幾年來在公共資料庫中DNA序列數據的數量以每年1.8倍的速度快速增長
,
到1997年底已經超過1.2×109bp。對如此巨量的數據進行存儲、分類、檢索、比較,並
預
測可能的基因和基因產物的結構和功能,如果沒有計算機參與處理,那是不可想像的。
生物醫葯工業也是推動生物信息學發展的重要動力。HGP所推動的大規模DNA測序也為生
物
醫葯工業提供了大量可用於新葯開發的原材料。有些基因產物可以直接作為葯物,而有
些
基因則可以成為葯物作用的對象。生物信息學為分子生物學家提供了大量對基因序列進
行
分析的工具,不但可以從資料的獲取、基因功能的預測、葯物篩選過程中的信息處理等
方
面大大加快新葯開發的進程,而且可以大大加快傳統的基因發現和研究,因而成為各贏
利
性研究機構和醫葯公司爭奪基因專利的重要工具,這一競爭又反過來極大的刺激了生物
信
息學的發展。
2、研究內容
生物信息學與計算生物學或生物計算有著密切的關系,但又不盡相同,目前歸入生物信
息
學研究領域的大致有以下幾個方面:
(1)各種生物資料庫的建立和管理。這是一切生物信息學工作的基礎,通常要有計算機
科
學背景的專業人員與生物學家密切合作。
(2)資料庫介面和檢索工具的研製。資料庫的內容來自萬千生物學者的日積月累,最終
又
為生物學者們所用。但不能要求一般生物學工作者具有高深的計算機和網路知識,因此
,
必須發展查詢資料庫和向庫里提供數據的方便介面。這是專業人員才能勝任的工作,通
常
在生物信息中心裡進行。
(3)人類基因組計劃的實施,配合大規模的DNA自動測序,對信息的採集和處理提出了
空
前的要求。從各種圖譜的分析,大量序列片段的拼接組裝,尋找基因和預測結構與功能
,
到數據和研究結果的視像化,無不需要高效率的演算法和程序。研究新演算法、發展方便適
用
的程序,是生物信息學的日常任務。
(4)生物信息學最重要的任務,是從海量數據中提取新知識。這首先是從DNA序列中識
別
編碼蛋白質的基因,以及調控基因表達的各種信號。其次,從基因組編碼序列翻譯出的
蛋
白質序列的數目急劇增加,根本不可能用實驗方法一一確定它們的結構和功能。從已經
積
累的數據和知識出發,預測蛋白質的結構和功能,成為常規的研究任務。
(5)DNA晶元和微陣列的發展,把一定組織或生物體內萬千基因時空表達的研究提上日
程
.研究基因表達過程中的聚群關系,從中提取調控網路和代謝途徑的知識,進而從整體
上
模擬細胞內的全部互相輔合的生化反應,在亞細胞層次理解生命活動。只有掌握已有數
據
、發展嶄新演算法,才能創造新的知識。這是生物信息學剛剛掀開的新篇章。
⑨ 如何利用生物信息學研究一個蛋白分子
基因組包含了構成和維持一個生活有機體所必備的基本信息,由細胞內進行的多種分子生物學反應將這些信息轉化為真正的生命現象。基因組的一部分編碼蛋白質和RNA,其它部分調控這些大分子的表達。表達的蛋白質及RNA折疊成高度專一的三維結構,在體內的特定位置上實現其功能。這些過程的大量細節都是在分子生物學研究的實驗室里揭示出來的,所形成的大量數據,存儲於數液侍據庫中。生物信息學試圖從這些數據中提取新的生物學信息和知識,是一門深深植根於全面深入的實驗事實和數據的理論生物學。從目前生物信息學的研究情況來看,國際上公認的生物信息學的研究內容,大致包括以下幾個方面:
生物信息的收集、存儲、管理與提供。包括建立國際基本生物信息庫和生物信息傳輸的國際聯網系統;建立生物信息數據質量的評估與檢測系統;生物信息的在線服務;生物信息可視化和專家系統。
基因組序列信息的提取和分析。包括基因的發現與鑒定,如利用國際EST 資料庫 (dbEST) 和各自實驗室測定的相應數據,經過大規模 並行計算發現新基因和新SNPs以及各種功能位點;基因組中非編碼區的納埋高信息結構分析,提出理論模型,闡明該區域的重要生物學功能;進行模式生物完整基因組的信息結構分析和比較研究;利用生物信息研究遺傳密碼起源、基因組結構的演化、基因組空間結構與DNA折疊的關系以及基因組信息與生物進化關系等生物學的重大問題。
功能基因組相關信息分析。包括與大規模基因表達譜分析相關的演算法、軟體研究,基因表達調控網路的研究;與基因組信息相關的核酸、蛋白質空間結構的預測和模擬,以及蛋白質功能預測的研究。
生物大分子結構模擬和葯物設計。包括RNA(核糖核酸)的結構模擬洞尺和反義RNA的分子設計;蛋白質空間結構模擬和分子設計;具有不同功能域的復合蛋白質以及連接肽的設計;生物活性分子的電子結構計算和設計;納米生物材料的模擬與設計;基於酶和功能蛋白質結構、細胞表面受體結構的葯物設計;基於DNA結構的葯物設計等。
生物信息分析的技術與方法研究。包括發展有效的能支持大尺度作圖與測序需要的軟體、資料庫以及若干資料庫工具,諸如電子網路等遠程通訊工具;改進現有的理論分析方法,如統計方法、模式識別方法、隱馬爾科夫過程方法、分維方法、神經網路方法、復雜性分析方法、密碼學方法、多序列比較方法等;創建一切適用於基因組信息分析的新方法、新技術。包括引入復雜系統分析技術、信息系統分析技術等;建立嚴格的多序列比較方法;發展與應用密碼學方法以及其他演算法和分析技術,用於解釋基因組的信息,探索DNA序列及其空間結構信息的新表徵;發展研究基因組完整信息結構和信息網路的研究方法等;發展生物大分子空間結構模擬、電子結構模擬和葯物設計的新方法與新技術。
應用與發展研究。匯集與疾病相關的人類基因信息,發展患者樣品序列信息檢測技術和基於序列信息選擇表達載體、引物的技術,建立與動植物良種繁育相關的資料庫以及與大分子設計和葯物設計相關的資料庫。
總的來說近期生物信息學將在以下幾方面迅速發展:大規模基因組測序中的信息分析;新基因和新SNPs(單核苷酸多態性)的發現與鑒定;完整的比較基因組研究;大規模基因功能表達譜的分析;生物大分子的結構模擬與葯物設計。而其長遠任務是非編碼區信息結構分析和遺傳密碼起源與生物進化的研究。讀懂人類基因組,發現人類遺傳語言的根本規律,從而闡明若干生物學中的重大自然哲學問題,像生命的起源與進化等。
以下就若干方面再做一定的介紹
1. 資料庫
據保守估計,目前世界上平均每一分鍾就有一個序列增加到核酸序列資料庫中,能夠從飛速增長的序列數據更高效的提取信息,建立生物信息中心,通過互聯網實現全球范圍內的信息共享成為必然。歐美各國及日本等西方國家相繼成立了生物信息資源和研究中心,如美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)、位於英國的歐洲生物信息研究所(European Bioinformatics Institute,EBI)、位於瑞士日內瓦的蛋白質專家分析系統(The Expert Protein Analysis System,ExPaSy)、日本國立遺傳學研究院(National Institute Genetics,簡稱NIG)等。以西歐各國為主的歐洲分子生物學網路組織European Molecular Biology network (EMBnet),成立於1988年,是目前國際上最大的分子生物信息研究、開發和服務機構。它把歐洲乃至世界各國的生物信息中心聯系在一起,實現信息共享,並合作進行開發、研究、培訓。
2. 基因組
在後基因組時代,生物信息學家不僅有大量的序列和基因而且有越來越多的完整基因組。有了這些資料人們就能對若乾重大生物學問題進行分
⑩ 如何利用生物信息學分析一個基因的DNA序列
如何利用生物信息學分析一個基因的DNA序列
基因克隆是70年代發展起來的一項具有革命性的研究技術,可概螞姿括為∶分、切、連、轉、選。最終目的在於通過相應技術手段,將目的基因導入寄主細胞,在宿主細胞內目的基因被大量的復制。
"切"是指用序列特異的限制性內切酶切開載體DNA,或者切出目的基因;"連"是指用DNA連接酶將目的橘胡DNA同載體DNA連接起來,形成重組的DNA分子;"轉"是指通過特殊的方法將重組的DNA分子送入宿主細胞中進行復制和擴增;"選"則是圓物攔從宿主群體中挑選出攜帶有重組DNA分子的個體。基因工程技術的兩個最基本的特點是分子水平上的操作和細胞水平上的表達,而分子水平上的操作即是體外重組的過程,實際上是利用工具酶對DNA分子進行"外科手術"。