導航:首頁 > 生物信息 > 生物信息學分析如何自學

生物信息學分析如何自學

發布時間：2023-05-27 12:18:24

1. 如何從零開始掌握生物信息學分析

今天的世界大不同，表現在生命科學研究領域，就是一切都開始進入了大數據時代，無論是DNA序列，顯微圖片，還是質譜數據，研究人員都越來越需要對這些龐大的信息進行收集、整合、處理和詮釋。

對於許多生物學家們來說，這並不容易完成，傳統的科研培訓方式主要集中於科學的基礎原理和實驗方法，而不是計算機編程和數據統計，因此當不少研究人員發現自己需要面對大量的數據量時，他們不知道如何處理這些問題。

目前其實也不乏現成的計算工具，而且不少都是免費的，但對於門外漢來說還是有些難。通常情況下研究人員還是需要深入了解這些界面並未友好的程序，才能運行，而這需要計算運行的深厚知識。

這就會導致研究人員在進行大數據研究的時候，不得不自己編寫一些程序來進行可重復和得到證實的信息處理。然而這些過程也需要小心處理，一不留意犯錯了，就有可能危及數據本身。

2. 如何自學生物信息學

本人自大三就開始做生物信息，現在即將讀博士，希望我的經驗可以幫助到你。
既然你是想做生物信息學，那麼相關背景什麼的會了解一些，我在這就不多說了。

首先，確定你自己的背景專業，現在很多學校本科都沒有專門的生物信息學專業，都是掛靠在生命學院或者計算機學院的。所以背景專業一般都是生物學或計算機學，不同的專業將來做生信區別會很大。當然，做什麼方向和背景專業並沒有絕對關系。
如果是生物學背景，那麼將來大部分的工作將會是使用專門的生物信息學分析軟體。所以難度會降低。自學的話，主要學幾下謹旦幾點就好：
1、一門腳本語言，個人推薦Python（Perl也可以，各有利弊，Python更新興一些）。
2、Linux系統。這個也不是百分百要知宏求，但是專業的生信人，都是用Linux的，而且很多軟體都是不支持Windows的。
3、常用的生物信息學資料庫，這里列出幾個，NCBI，Ensembl，EBI，GENEbank等等，這些資料庫下面還分子資料庫，像GEO，GWAS catalog等。當然，還有方向更細的，像miRBase（miRNA資料庫）等。
4、R，這也是一種編程語言，但更加側重結果的展示，實際上也就是畫圖。
5、常用生信分析軟體，這個沒必要專門去學，需要用到他們的時候再學也不晚，都是很簡單的東西。
如果是計搭晌冊算機背景，那麼以後的工作可能主要是演算法分析，創造新的生信分析軟體，做資料庫等。需要自學的就是以上的那些，再加一門工程語言，C，C++，C#，Java都可以。

3. 如何自學生物信息學

一、計算機基礎，需要看三本書，一步步的學會學通，不需要刻意去找哪個書，一般linux是鳥哥私房菜，perl是小駱駝咯，R是R in action，但是看一本書只能入門，真正想成為菜鳥，必須每個要看五本書以上！我雲盤裡面有這基本上的高清列印版，大家可以去淘寶列印一下才幾十塊錢還包郵，對書比較講究的也可以買正版，也不過是一百多塊錢而已！

二、生信基礎知識，測序方面，在網路文庫找十幾篇一代二代三代測序儀資料仔細研讀，然後去優酷下載各大主流測序儀的動畫講解，再看看陳巍學基因的講解；資料庫先看看三大主流資料庫——NCBI,ENSEMBL,UCSC，還有一些也可以了解一些（uniprot,IMGT,KEGG，OMIN，TIGR，GO）同樣也是網路文庫自己搜索資料，但是這次需要自己去官網一個個頁面點擊看，一個個翻譯成中文理解吃透；數據格式講起了就多了，這個主要是在項目流程中慢慢學，或者你有機會去上課，不然你看來也是立馬忘記的，主要有sam,vcf,fasta,fastq,bed,gtf,gff,genbank,ensembl,psl等。

三、生信研究領域，各個領域主要是軟體繁多，合起來常用的估計有上百個軟體了，一般只有從業五六年以上的人才有可能把它們全部用過一遍，而且這也完全需要項目來訓練，而不能僅僅是看看軟體手冊，但是研究領域最重要的是背後的原理，需要看各大牛的綜述。

a) 生信基礎軟體(blast++套件，fastqc，flash，blast，solexaQA，NGS-QC-toolkit，SRA-toolkit，fastx-toolkit)。

b) snp-calling相關軟體（bwa，bowtie，samtools，GATK，VarScan.jar，annovar）。

c) 基因組相關軟體（velvet，SOAPdenovo2，repeatmasker,repeatscount,piler，orthMCL，inparanoid,clustw,muscle，MAFFT，quickparanoid，blast2go，RAxML，phyML）。

d) 轉錄組相關軟體（trinity，tophat，cufflinks，RseQC，RNAseq，GOseq，MISO，RSEM，khmer，screed，trimmomatic，transDecoder，vast-tools，picard-tools，htseq，cuffdiff，edgeR，DEseq，funnet，davidgo，wego，kobas，KEGG，Amigo，go）。

四、生信應用領域，講這一塊其實已經脫離了生信菜鳥的解釋范圍了，主要是想說社會上為什麼需要搞生信的人才，全是因為在腫瘤篩查，產前診斷，流行病學，個性化醫療等領域有所應用，可以造福人類！這方面政策不確定，產業不定型，所以也這絕對是藍海，但是也絕對不會有現成的資料直接培訓人才，我們必須關注各種微信公眾號，逛各種測序，醫學相關論壇，緊跟業界精英的腳本，同時追著大牛的文獻閱讀，如此這般才能保住菜鳥的身份！

4. 如何從零開始掌握生物信息學分析

如何從零開始掌握生物信息學分析
生物信息學在短短十幾年間，已經形成了多個研究方向，以下簡要介紹一些主要的研究重點。如基因表達譜分析，代謝網路分析；基因晶元設計和蛋白質組學數據分析等，逐漸成為生物信息學中新興的重要研究領域；在學科方面，由生物信息學衍生的學科包括結構基因組學，功能基因組學，比較基因組學，蛋白質學，葯物基因組學，中葯基因組學，腫瘤基因組學，分子流行病學和環境基因組學，成為系統生物學的重要研究方法。從發展不難看出，基因工程已經進入了後基因組時代。我們也有應對與生物信息學密切相關的如機器學習，和數學中可能存在的誤導有一個清楚的認識。

5. 如何學好生物信息學

我碩士讀的是細胞生物學，今年4月開始在boss要求下自學perl，打聽了下，<learning perl>這本書不錯，就買來開始看，等5月份去北京參加公司的培訓班時，<learning perl>讀了一遍，<intermediate perl>看了一部分。培訓回來，我們的項目就開始做了，9月拿到所有原始數據和分析結果。然後，我對照著公司的分析報告，試著自己走一邊分析流程，中間遇到問題，自己解決不了的，就發郵件求助。有幾點需要注意：1. 我能理解你想早些玩兒數據的願望，但是在這之前，最好要有一個outline.需要知道數據從哪兒來的，怎麼產生的？其實就是測序儀的工作原理。然後是數據質量檢驗，為什麼需要數據過濾？接著是reads拼接和組裝。總之，要對整個流程有一個認識，而後在學習的過程中，再不斷回頭對比這個流程，這樣才不會有迷失的感覺。2. 有了基礎知識的鋪墊，就可以嘗試著自己做些練習了，paper上面都會給出他們的數據、原碼地址，可以找來自己試試，先看看自己能不能做出一樣的效果。當然，這時要是你手裡正好有項目，那就更好了。3. 學生物信息，paper肯定是要跟蹤的。覆蓋生物信息有趣的論文，演算法，以及生物科學問題。這個網站還匯集了很多生物信息領域科學家的博客。再如BGI的主程羅瑞邦， SAMtools、BWA的作者Heng Li都有在這里出現。[RNA-Seq Blog](RNA-Seq Blog) 推薦新的論文、工作、培訓課程、大型會議等。如果你是生物背景的，那麼計算機方面的知識需要補一下：需要能在linux環境下舒服的工作。比如從源碼編譯安裝軟體PATH配置，再比如舒服地使用google找到問題的答案。學會使用python/perl。比如有的時候運行一個軟體老是報錯，可能就是因為在一個包含幾十萬行的文本文件里，有隨機的那麼幾千行的末個位置，多一個冒號, 這時候你知道需要怎麼做了？學會R。要從一大堆基因裡面找出表達水平變化的基因來，需要統計分析和顯著檢驗；而要把我們的數據更直觀地展示出來，最好的方式就是圖形了吧。這兩個需要，R都能滿足。當然matlab也是可以的，區別在於R是開源工具。具備了上述技能，那麼常用的軟體就能用起來了。隨著學習的深入，可能你的問題別人也沒遇到過，這時候就需要自己動手，要麼修改現成的工具，要麼自己做一個出來。這時候，除了python/perl，或許還可以學C/C++/java，或許需要研究下比如BWT、De Bruijn Graph背後的原理。

6. 生物學背景自學生物信息學，想做這方面的研究，從哪裡

是問從哪裡開始嗎？我本科生物，研究生期間生物信息。基礎自學。導師生信背景，有計算機學位。

首先一定要確定你真的喜歡計算機嗎？天天寫代碼，跑程序，這樣的日子感覺坐不住的話還是算了，更別提前期學習真的是寫代碼>回車>error>debug>回車>error>debug......這樣的循環往復。（不過error遇得多了當可以成功執行的時候成就感還是挺突破天際的。）

基礎知識包括linux基本操作，python或perl隨便一門編程語言，R語言常用，要學。熟悉各大生物資料庫（主要查詢和下載數據），熟悉生信常用到的格式，常用軟體的使用。

還有一些約定俗成的規則你學習的時候會感受到，比如軟體的使用，你不可能保證把所有的軟體學一遍，總會遇到新的需要嘗試。一般下載軟體編譯之後先-h（help）或是找文件夾中的readme文件，就大概知道怎麼做了。包括linux的命令，不可能全部了解，需要用的時候help一下，有什麼參數是你需要的立刻就知道。個人認為主要學的就是一個套路，有了這些套路就可以以不變應萬變。

linux
基礎操作要熟悉，安裝軟體，基本文件操作，如果出現error要能解決。推薦《鳥哥的Linux私房菜》。
python or perl
編程語言主要是用來批處理各種文本和寫演算法（如果需要的話）。和linux一樣，屬於基礎中的基礎，相當於語言對於人類活動的作用。這個要求會一個就好，常用的就是python或perl，選一個感興趣的學。
R語言
R語言算是統計工具，雖然也是一門語言，但和python，perl的區別是當遇到需要做統計的時候，寫R會簡單很多，而且R的作圖功能強大，非常常用。
資料庫，例如ucsc，tcga這些。沒什麼說的。
了解生信常用到的文本格式。比如fasta，vcf，maf等。其實都是文本，只是需要知道每種文本中的信息都是什麼。

Above all，實踐是學習最快的途徑。用的多了就熟練了。

差不多就這些。最後說一些注意。如果研究生期間也想往生信方向轉，選導師一定要選擇有計算機背景的，這樣才好指導你。

7. 生信分析怎麼學

學習生信分析需要具備一定的計算機、生物學和統計學知識，建議按以下步驟學習：

1. 建立基礎知識：先學習生物學、計算機科學和統計學的基礎知識，掌握常用的生物學術語和基本的編程概念。可以參考一些經典教材如《生物信息學導論》、《R語言實戰》等。

2. 學習常用工具和軟體：學習生物信息學分析中常用的工具和軟體，例如NCBI、BLAST、UCSC等資料庫和軟體，學習Linux操作系統和常用命令，掌握編程語言如Perl、Python、R等的使用。

3. 參加課程或培訓：參加一些線上或線下的課程或培訓，例如Coursera上的生物信息學課程、培訓班、講座等，了解生物信息學分析的流程和方法，掌握實踐技能。

4. 實踐和練習：通過實際項目的實踐，積累經驗和技能。可以通旅模過參加競賽、學術項目或者開源社區的項目來進行實踐。

5. 學習交流：通過參加學術會議、討論組、社區等啟鎮李悄遲渠道，與其他從業人員交流和分享經驗，了解最新的技術發展和應用實踐。

總之，星科SCIER認為學習生信分析需要綜合多個學科知識，需要不斷實踐和練習，才能熟練掌握相關技能。

8. 如何系統的學習生物信息學

生物信息學，是一門綜合學科。涉及到數學，生物學和計算機的內容。但在我看來，計算機的基礎需要，但要求不是很高，關鍵是要有很好的生物學知識，包括遺傳學的、生物化學的、發育生物學的、分子生物學的、植物生理學的知識等等，也就說需要達到這樣的一個要求：在進行數據分析時，能對各種分析結果進行生物學的評價，並給出最優的分析策略。同時也應該有純熟的數理基礎，包括統計學的、拓撲學的，這樣才能把待分析的問題轉換成可計算的模型，最後能給出實現的程序。
從個人來說，因為生物信息學是一個非常大的領域，所以，關鍵是要確定自己的研究方向。比如，以關聯分析為方向的生物信息學，那麼就要掌握好各種關聯分析的統計分析方法，有很強的數據管理能力，足夠好的序列分析能力（這是進行variation查找和分析的基礎）。
回到6年以前，如果決定在生物信息學上發展，那麼我也許會做下面這些事情：
首先，從最不重要的計算機這個方面來說：
（1）要掌握好bash等腳本語言，一般的linux問題都能很好的解決
（2）熟練使用apache，mysql等基礎軟體工具，用joomla等CMS配置搭建網站
（3）應該努力精通perl，bioperl，以基於此的各種分析工具，比如gbrowser，cmap等
（4）足夠好的c/c++語言能力，這是實現新演算法的最高效語言。
（5）應該努力精通R語言，這是進行統計分析的基礎工具
（6）如果有機會，學學erlang這樣一些函數式語言吧
其次，從數學基礎來說，我覺得應該：
（1）學好線性代數
（2）學好高等數學，或者數學分析
（3）學好統計學
（4）學好離散數學
（5）學好計算機演算法和數據結構
其次，從生物學來說：
（1）如果沒有進化論的基層，請把進化論學好
（2）學好發育生物學，植物生理學
（3）學好基因組學、遺傳學等
千萬不要認為這些沒有什麼用，當你在數據分析，怎麼判斷結果的合理性，或者對結果進行解釋時候，都離不開這些生物學問題。最後，你對這些問題的理解成度，決定了你的生物信息學水平：只是一個有生物學知識的、會進行計算機操作的技術員，還是一個能給出解決方案的有良好計算機基礎的能把握生物學問題的生物信息學家。
最後，從生物信息學的角度來說：
（1）對NCBI等各大資料庫非常熟悉
（2）對各種生物學信息學的分析方法和策略非常的清楚，至少應該知道有那些工具軟體，以及這些工具軟體的原理和基於的生物學基礎，包括：基因組學分析，表達譜分析，代謝組分析、調控網路分析、數據結果的整合展示等
最後，生物信息學是一個發展很快的學科，但因起涉及的內容比較多，因此，要想到底一定的要求，是需要付出巨大的努力的。此外，在進行生物信息學學習的過程中，對自己感興趣的方法工具，一定要把文獻上的數據拿來，自己獨立分析一遍，自己去體會分析的過程，從而對這些方法和工具有更深入的理解。

閱讀全文

與生物信息學分析如何自學相關的資料

熱點內容

word中化學式的數字怎麼打出來發布：2023-08-31 22:06:02 瀏覽：1550

乙酸乙酯化學式怎麼算發布：2023-08-31 21:59:55 瀏覽：2308

沈陽初中的數學是什麼版本的發布：2023-08-31 21:59:06 瀏覽：2131

華為手機家人共享如何查看地理位置發布：2023-08-31 21:53:00 瀏覽：1822

一氧化碳還原氧化鋁化學方程式怎麼配平發布：2023-08-31 21:52:13 瀏覽：1703

數學c什麼意思是什麼意思是什麼發布：2023-08-31 21:44:12 瀏覽：2202

中考初中地理如何補發布：2023-08-31 21:29:55 瀏覽：2088

360瀏覽器歷史在哪裡下載迅雷下載發布：2023-08-31 21:20:27 瀏覽：1476

數學奧數卡怎麼辦發布：2023-08-31 21:18:51 瀏覽：2246

如何回答地理是什麼發布：2023-08-31 21:14:54 瀏覽：1875

win7如何刪除電腦文件瀏覽歷史發布：2023-08-31 21:11:42 瀏覽：1806

大學物理實驗干什麼用的到發布：2023-08-31 21:07:03 瀏覽：2306

二年級上冊數學框框怎麼填發布：2023-08-31 21:05:06 瀏覽：2509

西安瑞禧生物科技有限公司怎麼樣發布：2023-08-31 21:04:01 瀏覽：2551

武大的分析化學怎麼樣發布：2023-08-31 21:03:06 瀏覽：1987

ige電化學發光偏高怎麼辦發布：2023-08-31 21:02:12 瀏覽：2183

學而思初中英語和語文怎麼樣發布：2023-08-31 20:59:29 瀏覽：2500

下列哪個水飛薊素化學結構發布：2023-08-31 20:50:46 瀏覽：2255

化學理學哪些專業好發布：2023-08-31 20:46:41 瀏覽：2348

數學中的棱的意思是什麼發布：2023-08-31 20:45:44 瀏覽：1921