導航:首頁 > 生物信息 > 如何分析生物大數據挖掘

如何分析生物大數據挖掘

發布時間:2023-01-18 08:54:34

生物信息學本科生轉到互聯網數據挖掘領域是否可行

十年前你聽說過「21世紀是生命科學的世紀」嗎?最近兩年你聽說過「大數據時未來核心」嗎?你是不是想追著浪潮一浪一浪的跑呢?那你就註定是萬年post doc,什麼好處都分不到。
做自己想做、愛做的事情吧,不管以後怎麼樣,至少不會後悔。追著別人定義的泡沫走,永遠都像中國股民一樣只有踩空的機會。

生物信息(廣義)是一門非常有趣和具有前景的學科。從學術方面來說,目前具有專業現代生物知識,較深度的數學,統計,和計算機編程,理論基礎的學生還是比較少的,如果對學術方面有深刻的追求,我覺得生物信息或者計算生物,是一門非常值得投入的學科。它作為交叉學科,本身具有一定的廣度和深度,吸引了來自很多領域的人才,又是一門還算新興的學科,各方面都有深入的潛能。在工業上,也算是屬於發展階段,但是入行的門檻較高。

研究這邊,分子生物學發展到現在,必要的工具都齊全了,感覺未來會有井噴式的發現。用計算的思維來搞基因組蛋白組學,也是很靠譜的。系統生物學的未來發展都在這里了。
而且現在國內外搞基因研究的公司層出不窮,大家都開始圈地了,以後真要找工作也不愁沒地方去。當然好多搞生科的同學比較羨慕搞計算機的。

Ⅱ 大數據挖掘常用的方法有哪些

1.基於歷史的MBR分析
基於歷史(Memory-Based Reasoning)的MBR分析方法最主要的概念是用已知的案例(case)來預測未來案例的一些屬性(attribute),通常找尋最相似的案例來做比較。
MBR中有兩個主要的要素,分別為距離函數(distance function)與結合函數(combination function)。距離函數的用意在找出最相似的案例;結合函數則將相似案例的屬性結合起來,以供預測之用。
MBR的優點是它容許各種型態的數據,這些數據不需服從某些假設。另一個優點是其具備學習能力,它能藉由舊案例的學習來獲取關於新案例的知識。較令人詬病的是它需要大量的歷史數據,有足夠 的歷史數據方能做良好的預測。此外記憶基礎推理法在處理上亦較為費時,不易發現最佳的距離函數與結合函數。其可應用的范圍包括欺騙行為的偵測、客戶反應預測、醫學診療、反應的歸類等方面。
2.購物籃分析
購物籃分析(Market Basket Analysis)最主要的目的在於找出什麼樣的東西應該放在一起?商業上的應用在藉由顧客的購買行為來了解是什麼樣的顧客以及這些顧客為什麼買這些產品, 找出相關的聯想(association)規則,企業藉由這些規則的挖掘獲得利益與建立競爭優勢。舉例來說,零售店可藉由此分析改變置物架上的商品排列或是設計 吸引客戶的商業套餐等等。
購物籃分析基本運作過程包含下列三點:
1. 選擇正確的品項:這里所指的正確乃是針對企業體而言,必須要在數以百計、千計品項中選擇出真正有用的品項出來。
2. 經由對共同發生矩陣(co-occurrence matrix)的探討挖掘出聯想規則。
3. 克服實際上的限制:所選擇的品項愈多,計算所耗費的資源與時間愈久(呈現指數遞增),此時必須運用一些技術以降低資源與時間的損耗。
購物籃分析技術可以應用在下列問題上:針對信用卡購物,能夠預測未來顧客可能購買什麼。對於電信與金融服務業而言,經由購物籃分析能夠設計不同的服務組合以擴大利潤。保險業能藉由購物籃分析偵測出可能不尋常的投保組合並作預防。對病人而言,在療程的組合上,購物籃分析能作為是否這些療程組合會導致並發症的判斷依據。
3.決策樹
決策樹(Decision Trees)在解決歸類與預測上有著極強的能力,它以法則的方式表達,而這些法則則以一連串的問題表示出來,經由不斷詢問問題最終能導出所需的結果。典型的決策樹頂端是一個樹根,底部有許多的樹葉,它將紀錄分解成不同的子集,每個子集中的欄位可能都包含一個簡單的法則。此外,決策樹可能有著不同的外型,例如二元 樹、三元樹或混和的決策樹型態。
4.遺傳演算法
遺傳演算法(Genetic Algorithm)學習細胞演化的過程,細胞間可經由不斷的選擇、復制、交配、突變產生更佳的新細胞。基因演算法的運作方式也很類似,它必須預先建立好一個模式,再經由一連串類似產生新細胞過程的運作,利用適合函數(fitness function)決定所產生的後代是否與這個模式吻合,最後僅有最吻合的結果能夠存活,這個程序一直運作直到此函數收斂到最佳解。基因演算法在群集 (cluster)問題上有不錯的表現,一般可用來輔助記憶基礎推理法與類神經網路的應用。
5.聚類分析
聚類分析(Cluster Detection)這個技術涵蓋范圍相當廣泛,包含基因演算法、類神經網路、統計學中的群集分析都有這個功能。它的目標為找出數據中以前未知的相似群體,在許許多多的分析中,剛開始都運用到群集偵測技術,以作為研究的開端。
6.連接分析
連接分析(Link Analysis)是以數學中之圖形理論(graph theory)為基礎,藉由記錄之間的關系發展出一個模式,它是以關系為主體,由人與人、物與物或是人與物的關系發展出相當多的應用。例如電信服務業可藉連結分析收集到顧客使用電話的時間與頻率,進而推斷顧客使用偏好為何,提出有利於公司的方案。除了電信業之外,愈來愈多的營銷業者亦利用連結分析做有利於 企業的研究。
7.OLAP分析
嚴格說起來,OLAP(On-Line Analytic Processing;OLAP)分析並不算特別的一個數據挖掘技術,但是透過在線分析處理工具,使用者能更清楚的了解數據所隱藏的潛在意涵。如同一些視覺處理技術一般,透過圖表或圖形等方式顯現,對一般人而言,感覺會更友善。這樣的工具亦能輔助將數據轉變成信息的目標。
8.神經網路
神經網路是以重復學習的方法,將一串例子交與學習,使其歸納出一足以區分的樣式。若面對新的例證,神經網路即可根據其過去學習的成果歸納後,推導出新的結果,乃屬於機器學習的一種。數據挖掘的相關問題也可采類神經學習的方式,其學習效果十分正確並可做預測功能。
9.判別分析
當所遭遇問題它的因變數為定性(categorical),而自變數(預測變數)為定量(metric)時,判別分析為一非常適當之技術,通常應用在解決分類的問題上面。若因變數由兩個群體所構成,稱之為雙群體 —判別分析 (Two-Group Discriminant Analysis);若由多個群體構成,則稱之為多元判別分析(Multiple Discriminant Analysis;MDA)。
a. 找出預測變數的線性組合,使組間變異相對於組內變異的比值為最大,而每一個線性組合與先前已經獲得的線性組合均不相關。
b. 檢定各組的重心是否有差異。
c. 找出哪些預測變數具有最大的區別能力。
d. 根據新受試者的預測變數數值,將該受試者指派到某一群體。
10.邏輯回歸分析
當判別分析中群體不符合正態分布假設時,邏輯回歸分析是一個很好的替代方法。邏輯回歸分析並非預測事件(event)是否發生,而是預測該事件的機率。它將自變數與因變數的關系假定是S行的形狀,當自變數很小時,機率值接近為零;當自變數值慢慢增加時,機率值沿著曲線增加,增加到一定程度時,曲線協 率開始減小,故機率值介於0與1之間。

閱讀全文

與如何分析生物大數據挖掘相關的資料

熱點內容
word中化學式的數字怎麼打出來 瀏覽:736
乙酸乙酯化學式怎麼算 瀏覽:1401
沈陽初中的數學是什麼版本的 瀏覽:1347
華為手機家人共享如何查看地理位置 瀏覽:1039
一氧化碳還原氧化鋁化學方程式怎麼配平 瀏覽:881
數學c什麼意思是什麼意思是什麼 瀏覽:1405
中考初中地理如何補 瀏覽:1296
360瀏覽器歷史在哪裡下載迅雷下載 瀏覽:698
數學奧數卡怎麼辦 瀏覽:1384
如何回答地理是什麼 瀏覽:1020
win7如何刪除電腦文件瀏覽歷史 瀏覽:1052
大學物理實驗干什麼用的到 瀏覽:1481
二年級上冊數學框框怎麼填 瀏覽:1696
西安瑞禧生物科技有限公司怎麼樣 瀏覽:962
武大的分析化學怎麼樣 瀏覽:1244
ige電化學發光偏高怎麼辦 瀏覽:1334
學而思初中英語和語文怎麼樣 瀏覽:1647
下列哪個水飛薊素化學結構 瀏覽:1420
化學理學哪些專業好 瀏覽:1483
數學中的棱的意思是什麼 瀏覽:1054