Ⅰ 生物信息學一些基本的常用軟體有哪些
最常用的東西:1,你需要會用Linux,會使用bash2,高於入門級的統計學知識,以及一門統計語言,比如R3,至少一門編程語言,一般來講C++,Perl,Python,Java這幾種中的一種。4,對於你工作的領域,需要懂這方面的生物學知識,也需要知道目前人們在這個領域里都用什麼其他軟體。以上四點我覺得必不可少。其他的知識則取決於你是什麼領域。比如如果你要研發高性能的序列比對軟體,則演算法和並行計算的知識必不可少。——本人自己演算法很渣,所以沒有把算啊列在以上必備的知識里。如果要頻繁存取大量數據,則懂得一種資料庫必不可少,比如MySQL。
Ⅱ 生物信息學常用的軟體有哪些
NCBI(www.ncbi.nlm.nih.gov)-GenBank資料庫
資料庫相似性搜索——核酸序列與核酸資料庫比較(BLASTN)
蛋白質序列與資料庫中蛋白質序列比較(BLASTP)
兩序列比對(Align two sequences)
DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)
分析實驗序列外顯子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析實驗序列的可能酶切位點——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
註: Custom digest -- view gel
限制性內切酶資料庫——REBASE(http://rebase.neb.com/rebase/rebase.html)
設計引物擴增實驗序列——Genefisher
Primer 3
蛋白質序列分析及結構預測:
1.預測蛋白質的分子量及等電點:ExPASy(Compute pI/Mw)
2.分析蛋白質的基本物理化學性質:ExPASy(ProtParam)
3.分析蛋白質的親水性和疏水性:ExPASy(ProtScale)
4.分析蛋白質在各種蛋白酶和各種化學試劑處理後的內切產物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白質的信號肽:ExPASy(SignalP)
6.預測蛋白質的二級結構:ExPASy(Jpred 3)
多物種分子系統發育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W
人脂聯素蛋白質序列:NP_004788
人類胰島素生長因子IB前體:P05019
Ⅲ 生物信息學一些基本的常用軟體有哪些
最常用的東西:
1,你需要會用 Linux,會使用 bash
2,高於入門級的統計學知識,以及一門統計語言,比如 R
3,至少一門編程語言,一般來講 C++, Perl, Python, Java 這幾種中的一種。
4,對於你工作的領域,需要懂這方面的生物學知識,也需要知道目前人們在這個領域里都用什麼其他軟體。
以上四點我覺得必不可少。其他的知識則取決於你是什麼領域。比如如果你要研發高性能的序列比對軟體,則演算法和並行計算的知識必不可少。——本人自己演算法很渣,所以沒有把算啊列在以上必備的知識里。如果要頻繁存取大量數據,則懂得一種資料庫必不可少,比如MySQL。
Ⅳ 網上的生物信息學資源都有哪些
生物信息學高度依賴於網路。實際上,你需要的幾乎所有資源,都可以從網上下到。你需要關注你研究領域所需要的那些,而不是全部的資源。
我原來常用的:
NCBI:持有INSDC的節點。網站上有核酸、蛋白、基因名、基因組名等等的搜索工具,以及BLAST序列比對搜索工具,PUBMED文獻資料庫,Taxonomy數據,COG蛋白家族庫等等。FTP可以下到它全部的資料庫,BLAST的單機程序,以及各種工具程序。
EBI:和NCBI類似,歐洲搞的對等物。感覺EBI網站比NCBI要清楚簡潔。另外EBI網站整合了更多的工具,比如多序列比對。
Uniprot:全蛋白庫。NCBI和EBI的蛋白庫來源於此。目前包括兩部分:SwissProt是人工校對過的,TrEMBL是自動校對的。
Pfam:蛋白家族庫。可以使用配套的HMMER進行搜索。比BLAST能找到更遠緣的東西,而且找到的東西是結構域。
Rfam:RNA的,類似Pfam。
RDP:16S rRNA庫。除了序列,它還有一個基於K-mer naive Bayesian model的rdp classifier,可以對輸入序列進行物種分類,效率和准確性較直接使用BLAST更高。
GreenGenes:也是16S庫,不過它只收集比較全的序列。它提供了一個16S的標准化比對,並基於這個東西搞了個物種分類工具。
EMBOSS:一個工具包,提供了幾百個進行序列操作的工具。
BioPerl、BioPython:Perl和Python的生物學模塊。
R:類似matlab的語言,有一大堆的生物學包。
SOAP:華大基因搞的高通量測序工具包,有de-novo拼接的,有mapping的,還有一些後續分析的。
bowtie:一個用於序列mapping的軟體。
samtools:用於操縱、分析高通量序列mapping的結果。功能非常靈活,但有點復雜。
fastx toolkit:用來操縱高通量測序序列的工具包。
Ⅳ 生物信息學的分析工作,基因組組裝,轉錄組組裝需要什麼電腦軟體
組學omics,研究的是整體.按照分析目標不同主要分為基因組學,轉錄組學,蛋白質組學,代謝組學.基因組學研究的主要是基因組DNA,使用方法目前以二代測序為主,將基因組拆成小片段後再用生物信息學演算法進行迭代組裝.當然這僅僅是第一步,隨後還有繁瑣的基因注釋等數據分析工作.轉錄組學研究的是某個時間點的mRNA總和,可以用晶元,也可以用測序.晶元是用已知的基因探針,測序則有可能發現新的mRNA,蛋白組學針對的是全體蛋白,組要以2D-Gel和質譜為主,分為top-down和bottom-up分析方法.理念和基因組類似,將蛋白用特定的物料化學手段分解成小肽段,在通過質量反推蛋白序列,最後進行搜索,標識已知未知的蛋白序列.代謝組分析的代謝產物,是大分子和小分子的混合物,主要也是用液相和質譜.總而言之,這些技術都想從全局找變數,都是一種top-down的研究方法,原因很簡單:避免『只緣身在此山中』的尷尬.但因為技術局限,都各有缺點,尤其是轉錄組和蛋白組數據,基本上顛覆了以前一直認為的mRNA水平能代表蛋白水平的觀念,因為這兩組數據的重合度太低.所以目前很多研究都開始使用交叉驗證方法.
Ⅵ 列舉常用的生物信息學資料庫及序列對比常用軟體及特點
一般來說所用的分析工具有在線跟下載的 下面簡要列舉一些常用在線軟體的使用 1、使用VecScreen工具,分析下列未知序列,輸出序列長度、載體序列的區域、可能使用的克隆載體都有哪些。一、步驟:
打開google 首頁,搜索VecScreen,進入VecScreen首頁,復制序列,運行,View report。
二、結果:
輸出序列長度918bp,
載體序列的區域456bp——854bp.
克隆載體:M13mp18 phage,pGEM-13Zf(+),pBR322,pRKW2。
2、使用相應工具,分析下列未知序列的重復序列情況,輸出重復序列的區域、包含的所有重復序列的類型、重復序列的總長度及Masked Sequence。
一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的。
進入google首頁,搜索RepeatMasker,進入RepeatMasker主頁,進入RepeatMasking,復制序列,DNA source選擇human,運行!點擊超鏈接,在結果中選擇
Annotation File :RM2sequpload_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,輸出CpG島的長度、區域、GC數量、所佔的百分比及Obs/Exp值。一、步驟:
進入google首頁,搜索CpGPlot,進入CpGPlot主頁,program中選擇cpgreport復制序列,運行!
二、結果:
CpG島的長度:385bp
區域:48——432;
GC數量:Sum C+G=297,百分數=77.14
Obs/Exp:1.01
4、預測下面序列的啟動子,輸出可能的啟動子序列及相應的位置。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的
進入google首頁,搜索Neural Network Promoter Prediction,進入主頁,復制序列,選擇eukaryote,運行!
二、結果:
位置:711—761 ,1388—1438,1755—1805;
5、運用Splice Site Prediction工具分析下面序列,分別輸出內含子-外顯子剪接位點給體和受體的區域及剪接處位置的鹼基。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的
進入google首頁,搜索Splice Site Prediction,進入主頁,復制序列。Organism選擇Human or other。其他默認,運行!
二、結果:
供體:
受體:
6、對下面序列進行六框翻譯,利用GENESCAN綜合分析(首先確定給定序列的物種來源)哪個ORF是正確的,輸出六框翻譯(抓圖)和GENESCAN結果(包括predicted genes/exons 和 predicted peptide sequence(s) 兩個部分)。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是Zea的
進入google首頁;搜索NCBI,進入主頁,選擇all resources(A~Z),選擇O,選擇ORF finder。復制序列,默認,運行!
二、結果:ORF圖
三、步驟:進入google首頁,搜索GENESCAN,進入主頁,Organism:Maize, ,其他默認,運行!
四、結果:
G7、進入REBASE限制性內切酶資料庫,輸出AluI、MboI、EcoI三種內酶的Recognition Sequence和Type。
一、步驟:進入google首頁,google in English,搜索REBASE,進入主頁, 分別輸入AluI、MboI、EcoI,運行!
在MboI中選擇第一個,EcoI選擇第二個。
二、結果:
ENSCAN圖
8、使用引物設計工具,針對下列未知序列設計一對引物,要求引物長度為20-25bp,擴增產物長度300-500bp,退火溫度為50-60℃。請寫出選擇的一對引物(Forward Primer and Reverse Primer)、及相應的GC含量、引物的位點、Tm值和產物長度。一、步驟:進入google首頁,搜索genefisher,進入主頁,復制fasta格式,chechk input, sunmit, ; ;設置一下引物長度為20-25bp,擴增產物長度300-500bp,退火溫度為50-60℃; 。
二、結果:
GC含量:
引物的位點:
Tm值:
產物長度:。
9、將下面的序列用NEBcutter 2.0工具分析,用產生平末端及有四個酶切位點的酶進行酶切,並用抓圖提交膠圖(view gel),要求1.4% agarose和Marker為100bp DNA Ladder。
一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST,得知是linear。
進入google首頁,搜索NEBcutter 2.0,進入主頁,選擇linear,運行!選擇custom digest, ,把「1」改為「4」,選擇平末端,後digest。View gel。選擇1.4% agarose和Marker為100bp。
二、結果:
然後就是蛋白質的了一般都在expasy里swiss-prot 適用於檢索的 compute pi/mw 求理論分子量 分子量 protparam物理化學性質 protscale親水性疏水性 peptidemass分析蛋白酶和化學試劑處理後的內切產物
NCBI(www.ncbi.nlm.nih.gov)-GenBank資料庫
資料庫相似性搜索——核酸序列與核酸資料庫比較(BLASTN)
蛋白質序列與資料庫中蛋白質序列比較(BLASTP)
兩序列比對(Align two sequences)
DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)
分析實驗序列外顯子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析實驗序列的可能酶切位點——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
註: Custom digest -- view gel
限制性內切酶資料庫——REBASE(http://rebase.neb.com/rebase/rebase.html)
設計引物擴增實驗序列——Genefisher
Primer 3
蛋白質序列分析及結構預測:
1.預測蛋白質的分子量及等電點:ExPASy(Compute pI/Mw)
2.分析蛋白質的基本物理化學性質:ExPASy(ProtParam)
3.分析蛋白質的親水性和疏水性:ExPASy(ProtScale)
4.分析蛋白質在各種蛋白酶和各種化學試劑處理後的內切產物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白質的信號肽:ExPASy(SignalP)
6.預測蛋白質的二級結構:ExPASy(Jpred 3)
多物種分子系統發育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W
人脂聯素蛋白質序列:NP_004788
人類胰島素生長因子IB前體:P05019
Ⅶ 網上的生物信息學資源都有哪些
有很多,你要是做生物信息學需要三個方面的資源
1,數據,網上現在的資料庫很多,最常用的是NCBI,TCGA,千人基因組等,要是想找特定的數據,有tRNA資料庫,PDB,NDB等,每個資料庫的側重點都不相同,但是以NCBI最全面,最准確。
2,演算法,也可以說是分析方法,網上也有很多的在線分析軟體以及能下載的軟體,建議你看看《生物信息學分析與實踐》這本書,綠色封皮的,書名大概是這個,我的這本書沒找到。裡面有各種網上軟體的尋找和使用方法。
3,文獻,當你了解了生物信息的基礎知識之後,就可以看論文了,看論文的時候,盡量看近幾年的高質量論文,比如bioinformatics等雜志的論文就很不錯,建議看看。
我沒有給你附上網站的地址,一是因為資料太多,根本說不完,二是盡量自己尋找,以後就知道怎麼做了,如果你不知道怎麼找的話,就去小木蟲上搜一下生物信息學,會有很多相關的較好的方法和建議。
Ⅷ 生物信息學一些基本的常用軟體有哪些
photoshop
**************************************************************
如果你對這個答案有什麼疑問,請追問,
另外如果你覺得我的回答對你有所幫助,請千萬別忘記採納喲!
***************************************************************
Ⅸ 生物信息學一些基本的常用軟體有哪些
必學:1、計算機基礎(linux+perl+R 或者 python+matlab)
2、生信基礎知識(測序+資料庫+數據格式)
3、生信研究領域(全基因組,全轉錄組,全外顯子組,捕獲目標區域測序)
4、生信應用領域(腫瘤篩查,產前診斷,流行病學,個性化醫療)
分而治之:
一、計算機基礎,需要看三本書,一步步的學會學通,不需要刻意去找哪個書,一般linux是鳥哥私房菜,perl是小駱駝咯,R是R in action,但是看一本書只能入門,真正想成為菜鳥,必須每個要看五本書以上!我雲盤裡面有這基本上的高清列印版,大家可以去淘寶列印一下才幾十塊錢還包郵,對書比較講究的也可以買正版,也不過是一百多塊錢而已!
二、生信基礎知識,測序方面,在網路文庫找十幾篇一代二代三代測序儀資料仔細研讀,然後去優酷下載各大主流測序儀的動畫講解,再看看陳巍學基因的講解;資料庫先看看三大主流資料庫——NCBI,ENSEMBL,UCSC,還有一些也可以了解一些(uniprot,IMGT,KEGG,OMIN,TIGR,GO)同樣也是網路文庫自己搜索資料,但是這次需要自己去官網一個個頁面點擊看,一個個翻譯成中文理解吃透;數據格式講起了就多了,這個主要是在項目流程中慢慢學,或者你有機會去上課,不然你看來也是立馬忘記的,主要有sam,vcf,fasta,fastq,bed,gtf,gff,genbank,ensembl,psl等等
三、生信研究領域,各個領域主要是軟體繁多,合起來常用的估計有上百個軟體了,一般只有從業五六年以上的人才有可能把它們全部用過一遍,而且這也完全需要項目來訓練,而不能僅僅是看看軟體手冊,但是研究領域最重要的是背後的原理,需要看各大牛的綜述。
a) 生信基礎軟體(blast++套件,fastqc,flash,blast,solexaQA,NGS-QC-toolkit,SRA-toolkit,fastx-toolkit)
b) snp-calling相關軟體(bwa,bowtie,samtools,GATK,VarScan.jar,annovar)
c) 基因組相關軟體(velvet,SOAPdenovo2,repeatmasker,repeatscount,piler,orthMCL,inparanoid,clustw,muscle,MAFFT,quickparanoid,blast2go,RAxML,phyML)
d) 轉錄組相關軟體(trinity,tophat,cufflinks,RseQC,RNAseq,GOseq,MISO,RSEM,khmer,screed,trimmomatic,transDecoder,vast-tools,picard-tools,htseq,cuffdiff,edgeR,DEseq,funnet,davidgo,wego,kobas,KEGG,Amigo,go)
Ⅹ 用於生物信息分析該如何安裝ubuntu系統
1. 生信軟體系統的選擇——Linux(ubuntu)
對於生信分析人員來說,日常工作,軟體運行,跑流程,均在linux下操作。當然,也有基於雲端的生信分析平台,如免費的Galaxy,或者某些 公司的一站式雲平台。
比較初學者學生物信息還是使用開源軟體、學原理、一步一步運行才有意思。這路子,一定要適應Linux的命令行界面。
選擇windows還是linux? 一定是linux,windows太多的生物軟體不兼容了。
選擇linux的哪個版本?推薦桌面版的Ubuntu——穩定,美觀,適合初學者之稱;次之,Centos——免費、穩定的伺服器linux版本之稱。
用那種方式安裝linux好?推薦虛擬機安裝。不太建議雙系統,雲端這種。因為,對於初學者在系統中,需要反復折騰,測試,搞垮系統是常事。
選擇開源的VMbox還是商業版VMware?兩者都可以,但各有缺點。VMbox更新比較快,經常更新後,可能會出現報錯,系統無法打開的現象,較低版本的反而比較穩定,如果用好了,不建議經常更新。還有一點是,VMbox在滑鼠控制上,沒有VMware流暢。VMware十分穩定,流程好用。最新版一般要收費。可以選擇比最新版版本稍低的,上網搜注冊碼,免費使用。還是那樣,用好了,不要經常更新。某些生信軟體會提供VMbox的鏡像,如qiime。
VMbox的鏡像能不能轉到VMware上使用?,答案是可以的,使用VMbox的鏡像導出功能,然後使用VMware進行導入,保持兩者格式相同。