這個問題可能需要從兩方面進行回答,生物信息學和系統生物學的定義與界定方法;何為頂期刊。一句回答,按照我個人的理解,發表在CNS級別的文章中,基於生物信息學,以及系統生物學方法手段的曾經有很多,現在也一直有發表,未來很可能也會是一種很普遍的現象。原因見下:首先生物信息學和系統生物學是不可以混為一談進行探討的,我理解的生物信息學是一門基於數據挖掘、分析與計算對生物問題進行歸納,統計,解釋並預測的科學。而系統生物學則更像是一種生物學研究的一種概念,傾向於從表型入手,通過人群分析,基因組,轉錄組,翻譯組,蛋白組,等組學的大數據的分析,全面的了解一項生物問題。兩者在一些問題上的研究方法是類似的,但是系統生物學的數據更具多樣性,更偏向生物。頂級期刊這個概念很難劃定范圍,但是如果你持續關注CNS,你會發現利用以上兩種手段進行分析研究的文章是持續有發表的。比如基於各種腫瘤的大樣本測序在nature和science上經常有發表,又比如最近science上也有對英國人群的全基因組測序。但是如果牽涉到是否易於發表,我認為只要是一個很嚴謹的雜志,對每一個研究每一篇文章的要求都是很高的,你可能暗示說最近結構生物學的文章總是出現在nature正刊的article里,但就算結構生物學的文章易於發表,並不意味著發表了的文章易於完成。
2. 生物信息學論文屬於論著還是綜述
【論著與綜述區別】
您好!不能以生物信息學題目本身確定是否屬於論著或綜述
應當具體看成果本身的內容、形式和出版方式
論著通常是一本書,以出版社圖書方式出版且主要成果為原創
綜述論文以期刊或論文集心思發表的一篇文章而已
大部分以編著為主(編輯他人成果為主要部分)的應當是教材,而不算論著或專著
3. 生物信息學
一, 生物信息學發展簡介
生物信息學是建立在分子生物學的基礎上的,因此,要了解生物信息學,就
必須先對分子生物學的發展有一個簡單的了解.研究生物細胞的生物大分子的結
構與功能很早就已經開始,1866年孟德爾從實驗上提出了假設:基因是以生物
成分存在[1],1871年Miescher從死的白細胞核中分離出脫氧核糖核酸(DNA),
在Avery和McCarty於1944年證明了DNA是生命器官的遺傳物質以前,人們
仍然認為染色體蛋白質攜帶基因,而DNA是一個次要的角色.
1944年Chargaff發現了著名的Chargaff規律,即DNA中鳥嘌呤的量與胞嘧
定的量總是相等,腺嘌呤與胸腺嘧啶的量相等.與此同時,Wilkins與Franklin
用X射線衍射技術測定了DNA纖維的結構.1953年James Watson 和Francis
Crick在Nature雜志上推測出DNA的三維結構(雙螺旋).DNA以磷酸糖鏈形
成發雙股螺旋,脫氧核糖上的鹼基按Chargaff規律構成雙股磷酸糖鏈之間的鹼基
對.這個模型表明DNA具有自身互補的結構,根據鹼基對原則,DNA中貯存的
遺傳信息可以精確地進行復制.他們的理論奠定了分子生物學的基礎.
DNA雙螺旋模型已經預示出了DNA復制的規則,Kornberg於1956年從大
腸桿菌(E.coli)中分離出DNA聚合酶I(DNA polymerase I),能使4種dNTP連接
成DNA.DNA的復制需要一個DNA作為模板.Meselson與Stahl(1958)用實驗
方法證明了DNA復制是一種半保留復制.Crick於1954年提出了遺傳信息傳遞
的規律,DNA是合成RNA的模板,RNA又是合成蛋白質的模板,稱之為中心
法則(Central dogma),這一中心法則對以後分子生物學和生物信息學的發展都起
到了極其重要的指導作用.
經過Nirenberg和Matthai(1963)的努力研究,編碼20氨基酸的遺傳密碼
得到了破譯.限制性內切酶的發現和重組DNA的克隆(clone)奠定了基因工程
的技術基礎.
正是由於分子生物學的研究對生命科學的發展有巨大的推動作用,生物信息
學的出現也就成了一種必然.
2001年2月,人類基因組工程測序的完成,使生物信息學走向了一個高潮.
由於DNA自動測序技術的快速發展,DNA資料庫中的核酸序列公共數據量以每
天106bp速度增長,生物信息迅速地膨脹成數據的海洋.毫無疑問,我們正從一
個積累數據向解釋數據的時代轉變,數據量的巨大積累往往蘊含著潛在突破性發
現的可能,"生物信息學"正是從這一前提產生的交叉學科.粗略地說,該領域
的核心內容是研究如何通過對DNA序列的統計計算分析,更加深入地理解DNA
序列,結構,演化及其與生物功能之間的關系,其研究課題涉及到分子生物學,
分子演化及結構生物學,統計學及計算機科學等許多領域.
生物信息學是內涵非常豐富的學科,其核心是基因組信息學,包括基因組信
息的獲取,處理,存儲,分配和解釋.基因組信息學的關鍵是"讀懂"基因組的核
苷酸順序,即全部基因在染色體上的確切位置以及各DNA片段的功能;同時在
發現了新基因信息之後進行蛋白質空間結構模擬和預測,然後依據特定蛋白質的
功能進行葯物設計[2].了解基因表達的調控機理也是生物信息學的重要內容,根
據生物分子在基因調控中的作用,描述人類疾病的診斷,治療內在規律.它的研
究目標是揭示"基因組信息結構的復雜性及遺傳語言的根本規律",解釋生命的遺
傳語言.生物信息學已成為整個生命科學發展的重要組成部分,成為生命科學研
究的前沿.
二, 生物信息學的主要研究方向
生物信息學在短短十幾年間,已經形成了多個研究方向,以下簡要介紹一些
主要的研究重點.
1,序列比對(Sequence Alignment)
序列比對的基本問題是比較兩個或兩個以上符號序列的相似性或不相似
性.從生物學的初衷來看,這一問題包含了以下幾個意義[3]:
從相互重疊的序列片斷中重構DNA的完整序列.
在各種試驗條件下從探測數據(probe data)中決定物理和基因圖
存貯,遍歷和比較資料庫中的DNA序列
比較兩個或多個序列的相似性
在資料庫中搜索相關序列和子序列
尋找核苷酸(nucleotides)的連續產生模式
找出蛋白質和DNA序列中的信息成分
序列比對考慮了DNA序列的生物學特性,如序列局部發生的插入,刪除(前
兩種簡稱為indel)和替代,序列的目標函數獲得序列之間突變集最小距離加權
和或最大相似性和,對齊的方法包括全局對齊,局部對齊,代溝懲罰等.兩個
序列比對常採用動態規劃演算法,這種演算法在序列長度較小時適用,然而對於海
量基因序列(如人的DNA序列高達109bp),這一方法就不太適用,甚至採用算
法復雜性為線性的也難以奏效.因此,啟發式方法的引入勢在必然,著名的
BALST和FASTA演算法及相應的改進方法均是從此前提出發的.
2, 蛋白質結構比對和預測
基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性.
蛋白質的結構與功能是密切相關的,一般認為,具有相似功能的蛋白質結構一般
相似.蛋白質是由氨基酸組成的長鏈,長度從50到1000~3000AA(Amino Acids),
蛋白質具有多種功能,如酶,物質的存貯和運輸,信號傳遞,抗體等等.氨基酸
的序列內在的決定了蛋白質的3維結構.一般認為,蛋白質有四級不同的結構.
研究蛋白質結構和預測的理由是:醫葯上可以理解生物的功能,尋找docking
drugs的目標,農業上獲得更好的農作物的基因工程,工業上有利用酶的合成.
直接對蛋白質結構進行比對的原因是由於蛋白質的3維結構比其一級結構
在進化中更穩定的保留,同時也包含了較AA序列更多的信息.
蛋白質3維結構研究的前提假設是內在的氨基酸序列與3維結構一一對應
(不一定全真),物理上可用最小能量來解釋.
從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構.同
源建模(homology modeling)和指認(Threading)方法屬於這一范疇.同源建模用
於尋找具有高度相似性的蛋白質結構(超過30%氨基酸相同),後者則用於比較
進化族中不同的蛋白質結構.
然而,蛋白結構預測研究現狀還遠遠不能滿足實際需要.
3, 基因識別,非編碼區分析研究.
基因識別的基本問題是給定基因組序列後,正確識別基因的范圍和在基因組
序列中的精確位置.非編碼區由內含子組成(introns),一般在形成蛋白質後被丟
棄,但從實驗中,如果去除非編碼區,又不能完成基因的復制.顯然,DNA序
列作為一種遺傳語言,既包含在編碼區,又隱含在非編碼序列中.分析非編碼
區DNA序列目前沒有一般性的指導方法.
在人類基因組中,並非所有的序列均被編碼,即是某種蛋白質的模板,已
完成編碼部分僅占人類基因總序列的3~5%,顯然,手工的搜索如此大的基因序
列是難以想像的.
偵測密碼區的方法包括測量密碼區密碼子(codon)的頻率,一階和二階馬爾
可夫鏈,ORF(Open Reading Frames),啟動子(promoter)識別,HMM(Hidden
Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子進化和比較基因組學
分子進化是利用不同物種中同一基因序列的異同來研究生物的進化,構建進
化樹.既可以用DNA序列也可以用其編碼的氨基酸序列來做,甚至於可通過相
關蛋白質的結構比對來研究分子進化,其前提假定是相似種族在基因上具有相似
性.通過比較可以在基因組層面上發現哪些是不同種族中共同的,哪些是不同的.
早期研究方法常採用外在的因素,如大小,膚色,肢體的數量等等作為進化
的依據.近年來較多模式生物基因組測序任務的完成,人們可從整個基因組的角
度來研究分子進化.在匹配不同種族的基因時,一般須處理三種情況:
Orthologous: 不同種族,相同功能的基因
Paralogous: 相同種族,不同功能的基因
Xenologs: 有機體間採用其他方式傳遞的基因,如被病毒注入的基因.
這一領域常採用的方法是構造進化樹,通過基於特徵(即DNA序列或蛋白
質中的氨基酸的鹼基的特定位置)和基於距離(對齊的分數)的方法和一些傳統
的聚類方法(如UPGMA)來實現.
5, 序列重疊群(Contigs)裝配
根據現行的測序技術,每次反應只能測出500 或更多一些鹼基對的序列,
如人類基因的測量就採用了短槍(shortgun)方法,這就要求把大量的較短的序列
全體構成了重疊群(Contigs).逐步把它們拼接起來形成序列更長的重疊群,直
至得到完整序列的過程稱為重疊群裝配.從演算法層次來看,序列的重疊群是一個
NP-完全問題.
6, 遺傳密碼的起源
通常對遺傳密碼的研究認為,密碼子與氨基酸之間的關系是生物進化歷史上
一次偶然的事件而造成的,並被固定在現代生物的共同祖先里,一直延續至今.
不同於這種"凍結"理論,有人曾分別提出過選擇優化,化學和歷史等三種學說
來解釋遺傳密碼.隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源
和檢驗上述理論的真偽提供了新的素材.
7, 基於結構的葯物設計
人類基因工程的目的之一是要了解人體內約10萬種蛋白質的結構,功能,
相互作用以及與各種人類疾病之間的關系,尋求各種治療和預防方法,包括葯物
治療.基於生物大分子結構及小分子結構的葯物設計是生物信息學中的極為重要
的研究領域.為了抑制某些酶或蛋白質的活性,在已知其蛋白質3級結構的基礎
上,可以利用分子對齊演算法,在計算機上設計抑制劑分子,作為候選葯物.這一
領域目的是發現新的基因葯物,有著巨大的經濟效益.
8, 其他
如基因表達譜分析,代謝網路分析;基因晶元設計和蛋白質組學數據分析等,
逐漸成為生物信息學中新興的重要研究領域;在學科方面,由生物信息學衍生的
學科包括結構基因組學,功能基因組學,比較基因組學,蛋白質學,葯物基因組
學,中葯基因組學,腫瘤基因組學,分子流行病學和環境基因組學.
從現在的發展不難看出,基因工程已經進入了後基因組時代.我們也有應對
與生物信息學密切相關的如機器學習,和數學中可能存在的誤導有一個清楚的認
識.
三, 生物信息學與機器學習
生物信息的大規模給數據挖掘提出了新課題和挑戰,需要新的思想的加入.
常規的計算機演算法仍可以應用於生物數據分析中,但越來越不適用於序列分析問
題.究竟原因,是由於生物系統本質上的模型復雜性及缺乏在分子層上建立的完
備的生命組織理論.
西蒙曾給出學習的定義:學習是系統的變化,這種變化可使系統做相同工作
時更有效[4].機器學習的目的是期望能從數據中自動地獲得相應的理論,通過采
用如推理,模型擬合及從樣本中學習,尤其適用於缺乏一般性的理論,"雜訊"
模式,及大規模數據集.因此,機器學習形成了與常規方法互補的可行的方法.
機器學習使得利用計算機從海量的生物信息中提取有用知識,發現知識成為可能
[5].
機器學習方法在大樣本,多向量的數據分析工作中發揮著日益重要的作用,
而目前大量的基因資料庫處理需要計算機能自動識別,標注,以避免即耗時又花
費巨大的人工處理方法.早期的科學方法—觀測和假設----面對高數據的體積,
快速的數據獲取率和客觀分析的要求---已經不能僅依賴於人的感知來處理了.因
而,生物信息學與機器學習相結合也就成了必然.
機器學習中最基本的理論框架是建立在概率基礎上的,從某種意義來說,是
統計模型擬合的延續,其目的均為提取有用信息.機器學習與模式識別和統計推
理密切相關.學習方法包括數據聚類,神經網路分類器和非線性回歸等等.隱馬
爾可夫模型也廣泛用於預測DNA的基因結構.目前研究重心包括:1)觀測和
探索有趣的現象.目前ML研究的焦點是如何可視化和探索高維向量數據.一般
的方法是將其約簡至低維空間,如常規的主成分分析(PCA),核主成分分析
(KPCA),獨立成分分析(Independent component analysis),局部線性嵌套(Locally
Linear embedding).2)生成假設和形式化模型來解釋現象[6].大多數聚類方法可
看成是擬合向量數據至某種簡單分布的混合.在生物信息學中聚類方法已經用於
microarray數據分析中,癌症類型分類及其他方向中.機器學習也用於從基因數
據庫中獲得相應的現象解釋.
機器學習加速了生物信息學的進展,也帶了相應的問題.機器學習方法大多
假定數據符合某種相對固定的模型,而一般數據結構通常是可變的,在生物信息
學中尤其如此,因此,有必要建立一套不依賴於假定數據結構的一般性方法來尋
找數據集的內在結構.其次,機器學習方法中常採用"黑箱"操作,如神經網路
和隱馬爾可夫模型,對於獲得特定解的內在機理仍不清楚.
四, 生物信息學的數學問題
生物信息學中數學佔了很大的比重.統計學,包括多元統計學,是生物信息
學的數學基礎之一;概率論與隨機過程理論,如近年來興起的隱馬爾科夫鏈模型
(HMM),在生物信息學中有重要應用;其他如用於序列比對的運籌學;蛋白質
空間結構預測和分子對接研究中採用的最優化理論;研究DNA超螺旋結構的拓
撲學;研究遺傳密碼和DNA序列的對稱性方面的群論等等.總之,各種數學理
論或多或少在生物學研究中起到了相應的作用.
但並非所有的數學方法在引入生物信息學中都能普遍成立的,以下以統計學
和度量空間為例來說明.
1, 統計學的悖論
數學的發展是伴隨悖論而發展的.對於進化樹研究和聚類研究中最顯著的悖
論莫過於均值了,如圖1:
圖1 兩組同心圓的數據集
圖1是兩組同心圓構成的數據集,顯然,兩組數據集的均值均在圓點,這也
就說明了要採用常規的均值方法不能將這兩類分開,也表明均值並不能帶來更多
的數據的幾何性質.那麼,如果數據呈現類似的特有分布時,常有的進化樹演算法
和聚類演算法(如K-均值)往往會得錯誤的結論.統計上存在的陷阱往往是由於
對數據的結構缺乏一般性認識而產生的.
2, 度量空間的假設
在生物信息學中,進化樹的確立,基因的聚類等都需要引入度量的概念.舉
例來說,距離上相近或具有相似性的基因等具有相同的功能,在進化樹中滿足分
值最小的具有相同的父系,這一度量空間的前提假設是度量在全局意義下成立.
那麼,是否這種前提假設具有普適性呢
我們不妨給出一般的描述:假定兩個向量為A,B,其中,
,則在假定且滿足維數間線性無關的前提下,兩個
向量的度量可定義為:
(1)
依據上式可以得到滿足正交不變運動群的歐氏度量空間,這也是大多數生物信息
學中常採用的一般性描述,即假定了變數間線性無關.
然而,這種假設一般不能正確描述度量的性質,尤其在高維數據集時,不考
慮數據變數間的非線性相關性顯然存在問題,由此,我們可以認為,一個正確的
度量公式可由下式給出:
(2)
上式中採用了愛因斯坦和式約定,描述了變數間的度量關系.後者在滿足
(3)
時等價於(1),因而是更一般的描述,然而問題在於如何准確描述變數間的非線
性相關性,我們正在研究這個問題.
五, 幾種統計學習理論在生物信息學中應用的困難
生物信息學中面對的數據量和資料庫都是規模很大的,而相對的目標函數卻
一般難以給出明確的定義.生物信息學面臨的這種困難,可以描述成問題規模的
巨大以及問題定義的病態性之間的矛盾,一般從數學上來看,引入某個正則項來
改善性能是必然的[7].以下對基於這一思想產生的統計學習理論[8],Kolmogorov
復雜性[98]和BIC(Bayesian Information Criterion)[109]及其存在的問題給出簡要介
紹.
支持向量機(SVM)是近來較熱門的一種方法,其研究背景是Vapnik的統計
學習理論,是通過最大化兩個數據集的最大間隔來實現分類,對於非線性問題則
採用核函數將數據集映射至高維空間而又無需顯式描述數據集在高維空間的性
質,這一方法較之神經方法的好處在於將神經網路隱層的參數選擇簡化為對核函
數的選擇,因此,受到廣泛的注意.在生物信息學中也開始受到重視,然而,核
函數的選擇問題本身是一個相當困難的問題,從這個層次來看,最優核函數的選
擇可能只是一種理想,SVM也有可能象神經網路一樣只是機器學習研究進程中
又一個大氣泡.
Kolmogorov復雜性思想與統計學習理論思想分別從不同的角度描述了學習
的性質,前者從編碼的角度,後者基於有限樣本來獲得一致收斂性.Kolmogorov
復雜性是不可計算的,因此由此衍生了MDL原則(最小描述長度),其最初只
適用於離散數據,最近已經推廣至連續數據集中,試圖從編碼角度獲得對模型參
數的最小描述.其缺陷在於建模的復雜性過高,導致在大數據集中難以運用.
BIC准則從模型復雜性角度來考慮,BIC准則對模型復雜度較高的給予大的
懲罰,反之,懲罰則小,隱式地體現了奧卡姆剃刀("Occam Razor")原理,近
年也廣泛應用於生物信息學中.BIC准則的主要局限是對參數模型的假定和先驗
的選擇的敏感性,在數據量較大時處理較慢.因此,在這一方面仍然有許多探索
的空間.
六, 討論與總結
人類對基因的認識,從以往的對單個基因的了解,上升到在整個基因組水平
上考察基因的組織結構和信息結構,考察基因之間在位置,結構和功能上的相互
關系.這就要求生物信息學在一些基本的思路上要做本質的觀念轉變,本節就這
些問題做出探討和思索.
啟發式方法:
Simond在人類的認知一書中指出,人在解決問題時,一般並不去尋找最優
的方法,而只要求找到一個滿意的方法.因為即使是解決最簡單的問題,要想得
到次數最少,效能最高的解決方法也是非常困難的.最優方法和滿意方法之間的
困難程度相差很大,後者不依賴於問題的空間,不需要進行全部搜索,而只要能
達到解決的程度就可以了.正如前所述,面對大規模的序列和蛋白質結構數據集,
要獲得全局結果,往往是即使演算法復雜度為線性時也不能夠得到好的結果,因此,
要通過變換解空間或不依賴於問題的解空間獲得滿意解,生物信息學仍需要人工
智能和認知科學對人腦的進一步認識,並從中得到更好的啟發式方法.
問題規模不同的處理:
Marvin Minsky在人工智慧研究中曾指出:小規模數據量的處理向大規模數
據量推廣時,往往並非演算法上的改進能做到的,更多的是要做本質性的變化.這
好比一個人爬樹,每天都可以爬高一些,但要想爬到月球,就必須採用其他方法
一樣.在分子生物學中,傳統的實驗方法已不適應處理飛速增長的海量數據.同
樣,在採用計算機處理上,也並非依靠原有的計算機演算法就能夠解決現有的數據
挖掘問題.如在序列對齊(sequence Alignment)問題上,在小規模數據中可以採用
動態規劃,而在大規模序列對齊時不得不引入啟發式方法,如BALST,FASTA.
樂觀中的隱擾
生物信息學是一門新興學科,起步於20世紀90年代,至今已進入"後基因
組時代",目前在這一領域的研究人員均呈普遍樂觀態度,那麼,是否存在潛在
的隱擾呢
不妨回顧一下早期人工智慧的發展史[11],在1960年左右,西蒙曾相信不出
十年,人類即可象完成登月一樣完成對人的模擬,造出一個與人智能行為完全相
同的機器人.而至今為止,這一諾言仍然遙遙無期.盡管人工智慧研究得到的成
果已經滲入到各個領域,但對人的思維行為的了解遠未完全明了.從本質來看,
這是由於最初人工智慧研究上定位錯誤以及沒有從認識論角度看清人工智慧的
本質造成的;從研究角度來看,將智能行為還原成一般的形式化語言和規則並不
能完整描述人的行為,期望物理科學的成功同樣在人工智慧研究中適用並不現
實.
反觀生物信息學,其目的是期望從基因序列上解開一切生物的基本奧秘,從
結構上獲得生命的生理機制,這從哲學上來看是期望從分子層次上解釋人類的所
有行為和功能和致病原因.這類似於人工智慧早期發展中表現的樂觀行為,也來
自於早期分子生物學,生物物理和生物化學的成就.然而,從本質上來講,與人
工智能研究相似,都是希望將生命的奧秘還原成孤立的基因序列或單個蛋白質的
功能,而很少強調基因序列或蛋白質組作為一個整體在生命體中的調控作用.我
們因此也不得不思考,這種研究的最終結果是否能夠支撐我們對生物信息學的樂
觀呢 現在說肯定的話也許為時尚早.
綜上所述,不難看出,生物信息學並不是一個足以樂觀的領域,究竟原因,
是由於其是基於分子生物學與多種學科交叉而成的新學科,現有的形勢仍表現為
各種學科的簡單堆砌,相互之間的聯系並不是特別的緊密.在處理大規模數據方
面,沒有行之有效的一般性方法;而對於大規模數據內在的生成機制也沒有完全
明了,這使得生物信息學的研究短期內很難有突破性的結果.那麼,要得到真正
的解決,最終不能從計算機科學得到,真正地解決可能還是得從生物學自身,從
數學上的新思路來獲得本質性的動力.
毫無疑問,正如Dulbecco1986年所說:"人類的DNA序列是人類的真諦,
這個世界上發生的一切事情,都與這一序列息息相關".但要完全破譯這一序列
以及相關的內容,我們還有相當長的路要走.
(來源 ------[InfoBio.org | 生物信息學研討組])http://www.infobio.org
生物信息學(Bioinformatics)是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現在基因組學(Genomics)和蛋白學(Proteomics)兩方面,具體說就是從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物信息。
生物信息學是一門利用計算機技術研究生物系統之規律的學科。
目前的生物信息學基本上只是分子生物學與信息技術(尤其是網際網路技術)的結合體。生物信息學的研究材料和結果就是各種各樣的生物學數據,其研究工具是計算機,研究方法包括對生物學數據的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計算、模擬)。
1990年代以來,伴隨著各種基因組測序計劃的展開和分子結構測定技術的突破和Internet的普及,數以百計的生物學資料庫如雨後春筍般迅速出現和成長。對生物信息學工作者提出了嚴峻的挑戰:數以億計的ACGT序列中包涵著什麼信息?基因組中的這些信息怎樣控制有機體的發育?基因組本身又是怎樣進化的?
生物信息學的另一個挑戰是從蛋白質的氨基酸序列預測蛋白質結構。這個難題已困擾理論生物學家達半個多世紀,如今找到問題答案要求正變得日益迫切。諾貝爾獎獲得者W. Gilbert在1991年曾經指出:「傳統生物學解決問題的方式是實驗的。現在,基於全部基因都將知曉,並以電子可操作的方式駐留在資料庫中,新的生物學研究模式的出發點應是理論的。一個科學家將從理論推測出發,然後再回到實驗中去,追蹤或驗證這些理論假設」。
生物信息學的主要研究方向: 基因組學 - 蛋白質組學 - 系統生物學 - 比較基因組學
姑且不去引用生物信息學冗長的定義,以通俗的語言闡述其核心應用即是:隨著包括人類基因組計劃在內的生物基因組測序工程的里程碑式的進展,由此產生的包括生物體生老病死的生物數據以前所未有的速度遞增,目前已達到每14個月翻一番的速度。同時隨著互聯網的普及,數以百計的生物學資料庫如雨後春筍般迅速出現和成長。然而這些僅僅是原始生物信息的獲取,是生物信息學產業發展的初組階段,這一階段的生物信息學企業大都以出售生物資料庫為生。以人類基因組測序而聞名的塞萊拉公司即是這一階段的成功代表。
原始的生物信息資源挖掘出來後,生命科學工作者面臨著嚴峻的挑戰:數以億計的ACGT序列中包涵著什麼信息?基因組中的這些信息怎樣控制有機體的發育?基因組本身又是怎樣進化的?生物信息學產業的高級階段體現於此,人類從此進入了以生物信息學為中心的後基因組時代。結合生物信息學的新葯創新工程即是這一階段的典型應用。
4. 對一種疾病相關基因或其他感興趣的基因進行生物信息學分析
光從基因表達譜找有異常表達的基因也不全面。做出來的基因表達譜往往有很多基因存在差異,有的可能是一些下游的免疫生物學反應,有的可能是誤差或個體差異(尤其是做的數量少時),剩下的可能才有加以考慮的價值。
另外,有時疾病易感基因本身表達並無改變,而是通過調控其它基因發揮作用。所以,致病基因的尋找應從多種途徑著手。
一孔之見,如有謬誤之處,請大家指教。 多謝verygood 兄,我的第一步可能只能做到表達譜的改變這一層次,如果有機會做下去的話,如你所言,應該從各種途徑全面考慮。我現在的想法是以表達譜基因晶元技術為核心方法,做出患者和正常人小梁細胞基因表達譜的差異的總體信息,如maxon和你所說,這樣可能找到新的致病相關基因,也可能不行,我想著起碼是一個方面吧(不知對不對)。 我目前所能考慮的是如何組織自己的思路,來吧這個工作做好。還有幾個問題請教:
1.基因文庫的建立方法中,比如有一篇文章中選了1118個基因進行研究,通過BLAST,分成了已知基因、已知序列、未知基因等幾類,我不明白他們是如何從基因文庫(提取細胞全mRNA逆轉錄來的)中選定的?(還是從別的地方查到的?),我理解好像是直接測序,請問是如何從基因文庫中找出(分離)這些基因一一測序的?
2.如何使用BLAST?比如同一文章中所說的已經測定出的1118個小梁細胞的表達譜基因序列我如何能查到?能給我講解一下嗎?太感謝了
有沒有注意到一個問題,基因晶元只能檢測已知的基因或序列,對於那些未知的則無能為力,一孔之見. Andrew說得不錯,不過晶元中的基因數也在隨對基因研究的深入而在不斷增加。對普通的研究來說,主要的已知通路基本已能包括。 多謝指教。有能回答我上面幾個問題的嗎?我還是有些不明白,看了一天資料也沒有明白。
請問:如果我用一個正常群體的基因表達譜cDNA定做了一個晶元(含已知的1118個基因),在與患者cDNA樣品的雜交中發現有一個基因表達下調了或者不表達,其原因是什麼呢?是真的沒有表達還是別的?
多謝多謝 樣本是否一致?比如血細胞,其細胞亞群是否有可比性?
有對照嗎? 樣本是隨機樣本,小梁細胞是均一的內皮細胞。至於對照,你指的是陰性對照、陽性對照還是轉錄的內對照?
小弟所知甚少,低級錯誤也可能犯,請多多指教。 除去實驗和DNA晶元誤差外,在與患者cDNA樣品的雜交中發現有一個基因表達下調了或者不表達,需要用RT-PCR進行驗證。其表達的下調或不表達,可能是受到其上游基因的調控,也可能是基因本身結構有改變,如無義突變可檢測到表達的下降。對這些經RT-PCR證實後,應該進行測序,察看這些基因是否有結構的異常。 在天天站長和各位戰友的幫助下,我對現在所申請的課題從無知到略懂,終於完成了自然科學基金申請書的寫作,在明天,我們的這份凝結著大家的汗水和智慧的申請書就要送出去之前,對各位這幾天來的幫助表示誠摯的感謝,盡管這是我第一次寫這樣的申請,盡管幾乎沒有中的可能,我還是覺得自己學到了很多東西,也結識了很多好朋友,真誠的感謝給了我這個機會!
我把這份申請的正文部分放在了附件里了,希望感興趣的朋友可以看一下,提一些寶貴意見,因為我認為這樣的一個課題還是很值得去做的,盡管我們可能沒有這個機會和能力去做。
再次感謝大家啦!
88411-.doc</A> (76.5k) 恭祝申請成功!! 謝謝天天站長的指教,謝謝各位戰友。
近日科研基金開始申報,老闆急命申請課題。由於對基礎剛剛接觸,故請教站長以及各位戰友。
1目前收集到一少見的單基因病(癲癇方面),在國內未見臨床和基礎報道。臨床工作,包括留取血樣已經完成。
2本病自從98年以來,致病基因得到了定位和克隆,但存在遺傳異質性,相同的致病基因的突變位點也不相同。多篇文章發表在nature genetic等權威雜志上。最新的研究顯示,仍有其他未知的致病基因。
3合作實驗室,有曾經成功的定位和克隆了一例致病基因的經驗。
我們申請的目的是致病基因的定位和克隆,並有望發現新的致病基因。
想請教各位:
1在目前僅僅掌握臨床資料的情況下,能否提出申請?
2還需要做那一方面的工作?
2如果可以,可能申請失敗的原因是什麽?
謝謝各位,急切盼望指教!謝謝 如果是單基因疾病,那要看你收集的家系怎麼樣了。另一個問題主要是你的臨床診斷正確與否。我不是臨床的,這個臨床診斷事關重大,如果有些是診斷錯誤或分型有誤的,很有可能導致無法discover disease gene 單基因疾病這方面的技術策略已經很成熟,有很多文獻可以參考。國內也有多家研究機構在做。 我想研究下某個基因SNP與一種疾病的關聯。國外已有報道在2個位點上有聯系。那麼我是進行RFLP分析,還是用SNP分析? 各位大俠,我最近在做一個X染色體連鎖遺傳家系的疾病相關基因的定位,現在已用兩個位點的MARKER(STR)做了基因組掃描,但是在連鎖分析時遇到了困難,我用的是LINKAGE(version 5.1). 我想請教各位在進行連鎖分析時,性連鎖與常染色體連鎖遺傳參數設置有何不同?急盼各位予以賜教,不勝感激! 答無事轉轉 我想研究下某個基因SNP與一種疾病的關聯。國外已有報道在2個位點上有聯系。那麼我是進行RFLP分析,還是用SNP分析?
RFLP是最早期的遺傳標記(第一代),隨著遺傳學的發展和測序片段的不斷增多,已出現了第二代、第三代遺傳標記。RFLP通過酶切作用進行分析,操作簡單,花費不多,但特異性差,有被淘汰的趨勢;SNP定位明確,相對花費較大,對其分析可以通過測序、小測序(Snapshot)、熒光探針、SNP晶元等方法。
具體行RFLP分析,還是用SNP分析看你的研究目標和經濟實力。 請教verygood,能否介紹一下小測序(snapshot)?
我最近想檢測某基因與疾病的關系,外顯子較多(20),在其他疾病中已有突變熱點(9、11、13、17exon),但我要研究的病未見報道。請問我應對所有外顯子測序嗎? coldant wrote:
請教verygood,能否介紹一下小測序(snapshot)?
我最近想檢測某基因與疾病的關系,外顯子較多(20),在其他疾病中已有突變熱點(9、11、13、17exon),但我要研究的病未見報道。請問我應對所有外顯子測序嗎?
Snapshot為小測序反應,其原理簡單地說是首先擴增包含SNP在內的一段DNA模板,再對PCR產物進行純化,加入帶有不同熒光的ddNTP和中間探針(所謂中間探針即SNP前20個bp左右寡核苷酸序列,探針與ddNTP按照模板序列結合,因為是ddNTP,其後不能再延伸,而結合的ddNTP反應的就是SNP情況),再純化一下進行電泳,根據不同的熒光可以判斷相應SNP基因型。
該方法適用於對已知SNP等位基因型進行確認,對探針要求不高;但操作步驟多,大規模應用較為困難(採用基於毛細管的測序方法,如ABI3100測序儀系列時,相對工作量小些)。
檢測某基因與疾病的關系,外顯子較多(20),在其他疾病中已有突變熱點(9、11、13、17exon),建議你先研究一下這些位點。當然如果基因序列很短,也可以直接測序,因為目前發現的SNP或mutation畢竟還只有預計值的2%左右。
Good luck 謝謝verygood:)
最近忙著論文答辯的事情。我對於這方面完全是菜鳥,但是老闆說要有新意,同學給出了個這樣的主意。
目前已經提取DNA,進行基因分型。但是我希望測序進行確定。上面提到的SNAPSHOT是小型測序,我已經確定了突變位點,片段在300bp左右,是否可以全部測序?
另外是全部的樣本測序還是就挑選幾個雜合子和純合子測就可以證明?這方面的資料在哪裡有介紹?我還是新手:( 無事轉轉 wrote:
謝謝verygood:)
最近忙著論文答辯的事情。我對於這方面完全是菜鳥,但是老闆說要有新意,同學給出了個這樣的主意。
目前已經提取DNA,進行基因分型。但是我希望測序進行確定。上面提到的SNAPSHOT是小型測序,我已經確定了突變位點,片段在300bp左右,是否可以全部測序?
另外是全部的樣本測序還是就挑選幾個雜合子和純合子測就可以證明?這方面的資料在哪裡有介紹?我還是新手:(
如果只是300bp,且標本不多的話,還是直接測序好,因為不僅可以明確已知的SNP基因型,還可能順帶發現一些文獻未報道過的,這也就是說所有標本都要測序。
如果只想對已知的那些SNP進行基因分型,你可以採用SNAPSHOT方法,當然亦可以用RFLP,只是特異性差些,所得的條帶不一定與目標SNP不同等位基因有關,可能切到染色體其他區域。
這方面到沒有一定的資料,我們也是做過以後才逐漸理解的,具體採用何種技術還是因地制宜吧。 verygood wrote
檢測某基因與疾病的關系,外顯子較多(20),在其他疾病中已有突變熱點(9、11、13、17exon),建議你先研究一下這些位點。當然如果基因序列很短,也可以直接測序,因為目前發現的SNP或mutation畢竟還只有預計值的2%左右。
謝謝verygood老師。我研究的基因編碼區2930bp,mRNA5084bp,基因全長80kb。本打算直接測序,但病人組18例(石蠟),對照組20例(外周血DNA行嗎?),費用可能要6萬!!!,所以現在想改成PCR-SSCP加異常條帶測序,您看行嗎? verygood wrote:
如果只是300bp,且標本不多的話,還是直接測序好,因為不僅可以明確已知的SNP基因型,還可能順帶發現一些文獻未報道過的,這也就是說所有標本都要測序。
如果只想對已知的那些SNP進行基因分型,你可以採用SNAPSHOT方法,當然亦可以用RFLP,只是特異性差些,所得的條帶不一定與目標SNP不同等位基因有關,可能切到染色體其他區域。
這方面到沒有一定的資料,我們也是做過以後才逐漸理解的,具體採用何種技術還是因地制宜吧。
測序以後的結果要分析突變有什麼軟體檢測呢?另外的統計學分析是不是有專門的生物統計學書有相關的介紹?還是就是普通的統計就可以了? To coldant :
對於初步研究,您的方法應該可行。
To 無事轉轉:
測序以後的結果分析突變主要通過序列比對初篩,可以利用Blast進行。不過確定是否確實為突變需要謹慎,應擴大樣本再進行分型研究。 作疾病相關研究,你的case 和control太少了。一般國內期刊好像也要200對200,國外一般性期刊需要400-500對500左右。一流的雜志一般都是至少1000對1000的。由於你經費不足,你不可能作測序,你還是直接選用已知的位點做。因為這個基因跟多種疾病相關,說明這個基因很保守,很有可能跟你所研究的疾病相關,就算沒有相關,通過與年齡、性別、該疾病的危險因素綜合分析(就是玩數字游戲),一般總能發文章的。
尋找疾病相關基因的SNP,目前主要是直接測序(外周血抽提的DNA,而不是組織),通過對比病人和正常人(無該疾病的人)該基因序列,搜尋SNP。verygood所說的blast,實際上並不適用。
你可對目標SNP所在區域設計一對prime1,使得該SNP位於其中,PCR長度500bp左右。同時在PRIMER1覆蓋的區域內,再設計一對PRIMER2。PRIMER2其中一個引物的3『最後一個鹼基必需是與目標SNP所在位點的正常鹼基互補,如此,若病人在此位點突變,將導致PRIMER2一對引物不能擴增。另外PRIMER2與PRIMER1至少相距100多bp,PRIMER2產物為200多BP。這樣,在一個PCR反應中同時放入這2對引物,就可以得到4個片段(在設計引物時,必須使得這4個片段的長度不同,以便電泳時區別),而含有目標SNP的個體,則只有3個片段,通過電泳,就可以確定是否該個體有突變。
這個方法具體的名稱我忘了。希望能對你有所幫組。 maxon wrote:
尋找疾病相關基因的SNP,目前主要是直接測序(外周血抽提的DNA,而不是組織),通過對比病人和正常人(無該疾病的人)該基因序列,搜尋SNP。verygood所說的blast,實際上並不適用。
你可對目標SNP所在區域設計一對prime1,使得該SNP位於其中,PCR長度500bp左右。同時在PRIMER1覆蓋的區域內,再設計一對PRIMER2。PRIMER2其中一個引物的3『最後一個鹼基必需是與目標SNP所在位點的正常鹼基互補,如此,若病人在此位點突變,將導致PRIMER2一對引物不能擴增。另外PRIMER2與PRIMER1至少相距100多bp,PRIMER2產物為200多BP。這樣,在一個PCR反應中同時放入這2對引物,就可以得到4個片段(在設計引物時,必須使得這4個片段的長度不同,以便電泳時區別),而含有目標SNP的個體,則只有3個片段,通過電泳,就可以確定是否該個體有突變。
這個方法具體的名稱我忘了。希望能對你有所幫組。
呵呵,我指的是借用blast來方便序列的比對,當然applied biosystems有更好的軟體,不過您如未購買相應儀器則很難獲得。
至於標本量的多少,確實是越多越好。對於相對危險度為2的致病位點來說,case-control各1000例檢測效能才能達到100%,病例數減少則檢測效能也隨之降低。但對於初步研究,還不清楚該位點是否有研究疾病有關就大規模投入,有可能顆粒無收。
供參考。 今天基康公司建議我直接測序,把樣本4個一組形成一個「pool?」來測,節省經費。他們本來的建議是正常和病人各用4例分別形成1個「pool」來找SNP,然後用公司的TAG MAN(一種新技術)大規模檢測SNP,但我沒有這么多病人標本。所以只好只是測序。
請大俠看看這樣好嗎?如果我總共25例病人分成6個「pool」測序再分析可以嗎?
先謝謝了。 maxon wrote:
尋找疾病相關基因的SNP,目前主要是直接測序(外周血抽提的DNA,而不是組織),通過對比病人和正常人(無該疾病的人)該基因序列,搜尋SNP。verygood所說的blast,實際上並不適用。
你可對目標SNP所在區域設計一對prime1,使得該SNP位於其中,PCR長度500bp左右。同時在PRIMER1覆蓋的區域內,再設計一對PRIMER2。PRIMER2其中一個引物的3『最後一個鹼基必需是與目標SNP所在位點的正常鹼基互補,如此,若病人在此位點突變,將導致PRIMER2一對引物不能擴增。另外PRIMER2與PRIMER1至少相距100多bp,PRIMER2產物為200多BP。這樣,在一個PCR反應中同時放入這2對引物,就可以得到4個片段(在設計引物時,必須使得這4個片段的長度不同,以便電泳時區別),而含有目標SNP的個體,則只有3個片段,通過電泳,就可以確定是否該個體有突變。
這個方法具體的名稱我忘了。希望能對你有所幫組。
呵呵,謝謝了。我在相關文獻上看到的是設計2個引物(突變和未突變的),另外反義引物相同。正常對照組設計的引物很象你所談到的PROMER2。我就納悶為什麼這樣做? verygood wrote:
To 無事轉轉:
測序以後的結果分析突變主要通過序列比對初篩,可以利用Blast進行。不過確定是否確實為突變需要謹慎,應擴大樣本再進行分型研究。
確定是不可能做出結論,只是提出個展望。測序以後可以用SEQUENCEMAN軟體分析,但是後面我想加個RFLP,按照相關文獻報道來進行。這樣分析起來好象就有更多的數據支持。 coldant wrote:
今天基康公司建議我直接測序,把樣本4個一組形成一個「pool?」來測,節省經費。他們本來的建議是正常和病人各用4例分別形成1個「pool」來找SNP,然後用公司的TAG MAN(一種新技術)大規模檢測SNP,但我沒有這么多病人標本。所以只好只是測序。
請大俠看看這樣好嗎?如果我總共25例病人分成6個「pool」測序再分析可以嗎?
先謝謝了。
呵呵,你也是在基康做嗎?他們好象是用探針來檢測SNP啊。我聽說探針的准確性不如直接測序。不知道他們和你提出的是什麼樣的建議?:) maxon wrote:
作疾病相關研究,你的case 和control太少了。一般國內期刊好像也要200對200,國外一般性期刊需要400-500對500左右。一流的雜志一般都是至少1000對1000的。由於你經費不足,你不可能作測序,你還是直接選用已知的位點做。因為這個基因跟多種疾病相關,說明這個基因很保守,很有可能跟你所研究的疾病相關,就算沒有相關,通過與年齡、性別、該疾病的危險因素綜合分析(就是玩數字游戲),一般總能發文章的。
5555555,可是我收集不到這么多的病例呀,經費也有限。
您說的直接做已知位點是什麼方法啊?另外您有看過《生物學統計》這樣的書嗎?聽說參照它就可以進行相關的分析了。上海哪個圖書館或是書店有呀? 具體什麼方法我忘了。統計學主要就是T檢驗和X2 多態性分析方法有兩大類:
其一,基於家系分析,主要採用連鎖不平衡方法。
其二,基於case-control,如maxon所言,主要就是T檢驗和X2 。但是應注意control是否能代表所抽樣的群體。因抽樣錯誤而導致的假陽性結果在早期文獻中比比皆是,這已逐漸引起大家的關注。 無事轉轉wrote:
呵呵,你也是在基康做嗎?他們好象是用探針來檢測SNP啊。我聽說探針的准確性不如直接測序。不知道他們和你提出的是什麼樣的建議?:)
看樣子無事轉轉做的工作與我的很相似,可以多多交流!
基康公司建議:病人與對照各25例(病人只收集到25例),4例一組形成一個「pool」,PCR擴增所以外顯子,直接測序。(節省費用)
申能公司建議:對每個病人進行擴增,直接測序,與genbank比較(不設對照組,費用18000元/10例)
北京鼎國公司:PCR-SSCP,(正常,病人各25例)
請verygood,maxon,無事轉轉等戰友們參謀參謀,哪個可行?
申請斑竹們幫助。 coldant wrote:
看樣子無事轉轉做的工作與我的很相似,可以多多交流!
基康公司建議:病人與對照各25例(病人只收集到25例),4例一組形成一個「pool」,PCR擴增所以外顯子,直接測序。(節省費用)
申能公司建議:對每個病人進行擴增,直接測序,與genbank比較(不設對照組,費用18000元/10例)
北京鼎國公司:PCR-SSCP,(正常,病人各25例)
請verygood,maxon,無事轉轉等戰友們參謀參謀,哪個可行?
申請斑竹們幫助。
我病例30,對照12。人家的建議是直接測序。我想測序以後再做個RFLP,因為是要寫論文,所以內容不可以少。
5. 生物化學方面論文在哪裡查
查看science期刊。
science:是「美國科學促進會」(AAAS)旗下研究細胞信號轉導的官方刊物,為生物化學、生物信息學、細胞生物學、分子生物學、微生物學、系統生物學、免疫學、神經科學、理學、生理學與醫學等領域的研究者提供了動態的關於細胞信號傳遞的突破性研究與論述的最新資源。
6. 如何自學生物信息學
無論自學什麼,都要從一本最基礎的,比較權威的教材入手,要是沒有教材的話,先從一些大牛的文獻綜述開始了解,再從碩士博士論文一步步深入,還有就是看看網上有沒有課程,比如愛課程,還可以去網盤搜搜試試看。望採納
7. 怎麼分辨一篇文獻是不是生信分析
分辨文獻的質量:可以看他是出自哪裡的,比如是來自什麼書,什麼雜志,什麼網站,一般好的文獻都是出自那些評分較高的書籍,國內外較著名的報刊雜志,較值得信賴或經過國家認證的文獻網站,國內比如萬方網、中國知網等,這些網站的文獻質量都是比較值得信賴和可靠的。希望可以幫到你,望採納!
8. 怎麼從一篇論文中看出哪個是第一作者,哪個是第二或第三作者第二作者和第三作者一般可以有幾個人掛名啊
一般說來,排名第一就是第一作者,排名第二就是第而作者,排名第三就是第三作者,所以一般都寫1個。
1、論文署名第一的就是第一作者,署第二第三的就是第二第三作者。一般看你的文章份量,如果份量足,可以署多個作者。國外一個多中心臨床試驗的文章可以掛100人。
2、文章一般還有一個通訊作者,是指文章的所有權人和指導者。還有的有一個通信作者,指是的聯系人。
3、這個也可以由雙方商量來確定排名,如果沒有約定,一般是排在前面的為第一作者,排在第二名的為第二作者,余此類推。
署名權利:
第一作者是自己的導師,這不僅是出於慣例,而且是合理的。因為情況往往是,研究課題是導師的,論文是在導師的指導下完成的。這時,不論用道德的眼光,還是用權利的眼光,導師署名第一都無可非議,
因為關鍵思路(搞科研最看重的就是這個,習慣上稱作「idea」)出自導師,學生投入和貢獻的是一般工作、知識、精力和時間。我們可以說,即使在另外的情況下,兩人合作決定署名次序也是如此,導師的身份、學校的行政權力等背景不是決定性的因素。
以上內容參考網路—第一作者
9. 生物信息學畢業論文,如何選題格式有要求嗎
生物信息學推薦系統設計
關鍵詞:推薦系統;生物信息學
推薦系統(RecommenderSystem)[1]是個性化信息服務的主要技術之一,它實現的是「信息找人,按需服務」;通過對用戶信息需要、興趣愛好和訪問歷史等的收集分析,建立用戶模型,並將用戶模型應用於網上信息的過濾和排序,從而為用戶提供感興趣的資源和信息。生物信息學(Bioinformatics)[2,3]是由生物學、應用數學和計算機科學相互交叉所形成的一門新型學科;其實質是利用信息科學的方法和技術來解決生物學問題。20世紀末生物信息學迅速發展,在信息的數量和質量上都極大地豐富了生物科學的數據資源,而數據資源的急劇膨脹需要尋求一種科學而有力的工具來組織它們,基於生物信息學的二次資料庫[4]能比較好地規范生物數據的分類與組織,但是用戶無法從大量的生物數據中尋求自己感興趣的部分(著名的生物信息學網站NCBI(美國國立生物技術信息中心),僅僅是小孢子蟲(Microsporidia)的DNA序列就達3399種),因此在生物二次資料庫上建立個性化推薦系統,能使用戶快速找到自己感興趣的生物信息。特別是在當前生物信息數據量急劇增長的情況下,生物信息學推薦系統將發揮強大的優勢。
1推薦系統的工作流程
應用在不同領域的推薦系統,其體系結構也不完全相同。一般而言,推薦系統的工作流程[5]如圖1所示。
(1)信息獲取。推薦系統工作的基礎是用戶信息。用戶信息包括用戶輸入的關鍵詞、項目的有關屬性、用戶對項目的文本評價或等級評價及用戶的行為特徵等,所有這些信息均可以作為形成推薦的依據。信息獲取有兩種類型[6],即顯式獲取(Explicit)和隱式獲取(Implicit),由於用戶的很多行為都能暗示用戶的喜好,因此隱式獲取信息的准確性比顯式高一些。
(2)信息處理。信息獲取階段所獲得的用戶信息,一般根據推薦技術的不同對信息進行相應的處理。用戶信息的存儲格式中用得最多的是基於數值的矩陣格式,最常用的是用m×n維的用戶—項目矩陣R來表示,矩陣中的每個元素Rij=第i個用戶對第j個項目的評價,可以當做數值處理,矩陣R被稱為用戶—項目矩陣。
(3)個性化推薦。根據形成推薦的方法的不同可以分為三種,即基於規則的系統、基於內容過濾的系統和協同過濾系統。基於規則的推薦系統和基於內容過濾的推薦系統均只能為用戶推薦過去喜歡的項目和相似的項目,並不能推薦用戶潛在感興趣的項目。而協同過濾系統能推薦出用戶近鄰所喜歡的項目,通過用戶與近鄰之間的「交流」,發現用戶潛在的興趣。因此本文所用的演算法是基於協同過濾的推薦演算法。
(4)推薦結果。顯示的任務是把推薦演算法生成的推薦顯示給用戶,完成對用戶的推薦。目前最常用的推薦可視化方法是Top-N列表[7],按照從大到小順序把推薦分值最高的N個事物或者最權威的N條評價以列表的形式顯示給用戶。
2生物信息學推薦系統的設計
綜合各種推薦技術的性能與優缺點,本文構造的生物信息學推薦系統的總體結構如圖2所示。
生物信息學推薦系統實現的主要功能是在用戶登錄生物信息學網站時,所留下的登錄信息通過網站傳遞到推薦演算法部分;推薦演算法根據該用戶的用戶名從資料庫提取出推薦列表,並返回到網站的用戶界面;用戶訪問的記錄返回到資料庫,系統定時調用推薦演算法,對資料庫中用戶訪問信息的數據進行分析計算,形成推薦列表。
本系統採用基於近鄰的協同過濾推薦演算法,其結構可以進一步細化為如圖3所示。演算法分為鄰居形成和推薦形成兩大部分,兩部分可以獨立進行。這是該推薦系統有別於其他系統的優勢之一。由於信息獲取後的用戶—項目矩陣維數較大,使得系統的可擴展性降低。本系統採用SVD矩陣降維方法,減少用戶—項目矩陣的維數,在計算用戶相似度時大大降低了運算的次數,提高了推薦演算法的效率。
(1)信息獲取。用戶對項目的評價是基於用戶對某一個項目(為表示簡單,以下提及的項目均指網站上的生物物種)的點擊次數來衡量的。當一個用戶注冊並填寫好個人情況以後,系統會自動為該用戶創建一個「信息矩陣」,該矩陣保存了所有項目的ID號以及相應的用戶評價,保存的格式為:S+編號+用戶評價,S用於標記項目,每個項目編號及其評價都以「S」相隔開;編號是唯一的,佔5位;用戶評價是用戶點擊該項目的次數,規定其范圍是0~100,系統設定當增加到100時不再變化。這樣做可防止形成矩陣時矩陣評價相差值過大而使推薦結果不準確。(2)信息處理。信息處理是將所有用戶的信息矩陣轉換為用戶—項目矩陣,使用戶信息矩陣數值化,假設系統中有M個用戶和N個項目,信息處理的目的就是創建一個M×N的矩陣R,R[I][J]代表用戶I對項目J的評價。
(3)矩陣處理。協同過濾技術的用戶—項目矩陣的數據表述方法所帶來的稀疏性嚴重製約了推薦效果,而且在系統較大的情況下,它既不能精確地產生推薦集,又忽視了數據之間潛在的關系,發現不了用戶潛在的興趣,而且龐大的矩陣增加了計算的復雜度,因此有必要對該矩陣的表述方式做優化,進行矩陣處理。維數簡化是一種較好的方法,本文提出的演算法應用單值分解(SingularValueDecomposition,SVD)技術[8],對用戶—項目矩陣進行維數簡化。
(4)相似度計算。得到降維以後的用戶矩陣US,就可以尋找每個用戶的近鄰。近鄰的確定是通過兩個用戶的相似度來度量的。本文採用Pearson相關度因子[9]求相似度。(5)計算用戶鄰居。該方法有兩種[10],即基於中心的鄰居(Center-BasedNeighbor)和集合鄰居(AggregateNeighbor)。本系統採用了第一種方法,直接找出與用戶相似度最高的前N個用戶作為鄰居,鄰居個數N由系統設定,比如規定N=5。
(6)推薦形成。推薦形成的前提是把當前用戶的鄰居ID號及其與當前用戶的相似度保存到資料庫中,而在前面的工作中已找出各用戶的鄰居以及與用戶的相似度,推薦形成部分只需要對當前登錄用戶進行計算。推薦策略是:對當前用戶已經訪問過的項目不再進行推薦,推薦的范圍是用戶沒有訪問的項目,其目的是推薦用戶潛在感興趣的項目;考慮到系統的項目比較多,用戶交互項目的數量很大,所以只篩選出推薦度最大的N個項目,形成Top-N推薦集,設定N=5。
3生物信息學推薦系統的實現
生物信息學推薦系統的實現可以用圖4來表示。資料庫部分主要存儲用戶信息和項目信息,用SQLServer2000實現。
數據訪問層實現了與用戶交互必需的存儲過程以及觸發器,也使用SQLServer2000,主要完成以下功能:初始化新用戶信息矩陣;插入新項目時更新所有用戶的信息矩陣;用戶點擊項目時更新該用戶對項目的評價;刪除項目時更新所有用戶的信息矩陣。用戶訪問層主要涉及網頁與用戶的交互和調用數據訪問層的存儲過程,在這里不做詳細的介紹。
推薦演算法完成整個個性化推薦的任務,用Java實現。(1)數據連接類DataCon。該類完成與SQLServer2000資料庫的連接,在連接之前必須要下載三個與SQLServer連接相關的包,即msutil.jar、msbase.jar和mssqlserver.jar。
(2)數據操作類DataControl。該類負責推薦演算法與資料庫的數據交換,靜態成員Con調用DataCon.getcon()獲得資料庫連接,然後對資料庫進行各種操作。把所有方法編寫成靜態,便於推薦演算法中不創建對象就可以直接調用。
(3)RecmmendSource與CurrentUserNeighbor。這兩個類作為FCRecommand類的內部類,RecmmendSource用於保存當前用戶的推薦列表,包括推薦項目號和推薦度;CurrentUserNeighbor用於保存鄰居信息,包括鄰居ID號、相似度及其訪問信息。
(4)協同過濾推薦演算法FCRecommand。該類實現了整個推薦演算法,主要分為鄰居形成方法FCArithmetic和推薦形成方法GenerateRecommend。
下面給出方法FCArithmetic的關鍵代碼:
Matrixuser_item=this.User_Item_Arry();//獲取用戶—項目矩陣
user_item=this.SVD_Calculate(user_item);//調用SVD降維方法
Vectorc_uservector=newVector();//當前用戶向量
Vectoro_uservector=newVector();//其他用戶向量
Vectorc_user_correlate_vector=newVector();
//當前用戶與其他用戶之間相似度向量
for(inti=0;ifor(intj=0;jc_uservector.addElement(user_item.get(i,j));
//1.獲得當前用戶向量
for(intk=0;ko_uservector.clear();
for(intl=0;lo_uservector.addElement(user_item.get(k,l));
//2.獲得其他用戶的向量
//3.計算當前用戶與其他用戶的相似度
usercorrelativity=this.Correlativity(c_uservector,o_uservector);
c_user_correlate_vector.addElement(usercorrelativity);
}
//4.根據當前用戶與其他用戶的相似度,計算其鄰居
this.FindUserNeighbor(i,c_user_correlate_vector);
}
根據鄰居形成方法FCArithmetic,可以得到每個用戶的鄰居。作為測試用例,圖6顯示用戶Jack與系統中一部分用戶的相似度,可以看出它與自己的相似度必定最高;並且它與用戶Sugx訪問了相同的項目,它們之間的相似度也為1,具有極高的相似度。
4結束語
在傳統推薦系統的基礎上,結合當前生物信息學網站的特點,提出一個基於生物信息平台的推薦系統,解決了傳統生物信息網站平台信息迷茫的缺點,為用戶推薦其感興趣物種的DNA或蛋白質序列。
優點在於協同過濾的推薦演算法能發現用戶潛在的興趣,能促進生物學家之間的交流;推薦演算法的鄰居形成與推薦形成兩部分可以單獨運行,減少了系統的開銷。進一步的工作是分析生物數據的特點及生物數據之間的關系,增加用戶和項目數量,更好地發揮推薦系統的優勢。
參考文獻:
[1]PAULR,HALRV.Recommendersystems[J].CommunicationsoftheACM,1997,40(3):56-58.
[2]陳新.生物信息學簡介[EB/OL].(2001).http://166.111.68.168/bioinfo/papers/Chen_Xin.pdf.
[3]林毅申,林丕源.基於WebServices的生物信息解決方案[J].計算機應用研究,2005,22(6):157-158,164.[4]邢仲璟,林丕源,林毅申.基於Bioperl的生物二次資料庫建立及應用[J].計算機系統應用,2004(11):58-60.
10. 從生物信息學課程學習中,哪部分對你的學位論文有幫助,你計劃如何應對該內容
林學與業,課程改革
生物信息學,是一門綜合學科。涉及到數學,生物學和計算機的內容。但在我看來,計算機的基礎需要,但要求不是很高,關鍵是要有很好的生物學知識,包括遺傳學的、生物化學的、發育生物學的、分子生物學的、植物生理學的知識等等,也就說需要達到這樣的一個要求:在進行數據分析時,能對各種分析結果進行生物學的評價,並給出最優的分析策略。同時也應該有純熟的數理基礎,包括統計學的、拓撲學的,這樣才能把待分析的問題轉換成可計算的模型,最後能給出實現的程序。
從個人來說,因為生物信息學是一個非常大的領域,所以,關鍵是要確定自己的研究方向。比如,以關聯分析為方向的生物信息學,那麼就要掌握好各種關聯分析的統計分析方法,有很強的數據管理能力,足夠好的序列分析能力(這是進行variation查找和分析的基礎)