这个问题可能需要从两方面进行回答,生物信息学和系统生物学的定义与界定方法;何为顶期刊。一句回答,按照我个人的理解,发表在CNS级别的文章中,基于生物信息学,以及系统生物学方法手段的曾经有很多,现在也一直有发表,未来很可能也会是一种很普遍的现象。原因见下:首先生物信息学和系统生物学是不可以混为一谈进行探讨的,我理解的生物信息学是一门基于数据挖掘、分析与计算对生物问题进行归纳,统计,解释并预测的科学。而系统生物学则更像是一种生物学研究的一种概念,倾向于从表型入手,通过人群分析,基因组,转录组,翻译组,蛋白组,等组学的大数据的分析,全面的了解一项生物问题。两者在一些问题上的研究方法是类似的,但是系统生物学的数据更具多样性,更偏向生物。顶级期刊这个概念很难划定范围,但是如果你持续关注CNS,你会发现利用以上两种手段进行分析研究的文章是持续有发表的。比如基于各种肿瘤的大样本测序在nature和science上经常有发表,又比如最近science上也有对英国人群的全基因组测序。但是如果牵涉到是否易于发表,我认为只要是一个很严谨的杂志,对每一个研究每一篇文章的要求都是很高的,你可能暗示说最近结构生物学的文章总是出现在nature正刊的article里,但就算结构生物学的文章易于发表,并不意味着发表了的文章易于完成。
2. 生物信息学论文属于论着还是综述
【论着与综述区别】
您好!不能以生物信息学题目本身确定是否属于论着或综述
应当具体看成果本身的内容、形式和出版方式
论着通常是一本书,以出版社图书方式出版且主要成果为原创
综述论文以期刊或论文集心思发表的一篇文章而已
大部分以编着为主(编辑他人成果为主要部分)的应当是教材,而不算论着或专着
3. 生物信息学
一, 生物信息学发展简介
生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就
必须先对分子生物学的发展有一个简单的了解.研究生物细胞的生物大分子的结
构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物
成分存在[1],1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),
在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们
仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色.
1944年Chargaff发现了着名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧
定的量总是相等,腺嘌呤与胸腺嘧啶的量相等.与此同时,Wilkins与Franklin
用X射线衍射技术测定了DNA纤维的结构.1953年James Watson 和Francis
Crick在Nature杂志上推测出DNA的三维结构(双螺旋).DNA以磷酸糖链形
成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基
对.这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的
遗传信息可以精确地进行复制.他们的理论奠定了分子生物学的基础.
DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大
肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接
成DNA.DNA的复制需要一个DNA作为模板.Meselson与Stahl(1958)用实验
方法证明了DNA复制是一种半保留复制.Crick于1954年提出了遗传信息传递
的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心
法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起
到了极其重要的指导作用.
经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码
得到了破译.限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程
的技术基础.
正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息
学的出现也就成了一种必然.
2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮.
由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每
天106bp速度增长,生物信息迅速地膨胀成数据的海洋.毫无疑问,我们正从一
个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发
现的可能,"生物信息学"正是从这一前提产生的交叉学科.粗略地说,该领域
的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA
序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,
分子演化及结构生物学,统计学及计算机科学等许多领域.
生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信
息的获取,处理,存储,分配和解释.基因组信息学的关键是"读懂"基因组的核
苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在
发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的
功能进行药物设计[2].了解基因表达的调控机理也是生物信息学的重要内容,根
据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律.它的研
究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗
传语言.生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研
究的前沿.
二, 生物信息学的主要研究方向
生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些
主要的研究重点.
1,序列比对(Sequence Alignment)
序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似
性.从生物学的初衷来看,这一问题包含了以下几个意义[3]:
从相互重叠的序列片断中重构DNA的完整序列.
在各种试验条件下从探测数据(probe data)中决定物理和基因图
存贮,遍历和比较数据库中的DNA序列
比较两个或多个序列的相似性
在数据库中搜索相关序列和子序列
寻找核苷酸(nucleotides)的连续产生模式
找出蛋白质和DNA序列中的信息成分
序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前
两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权
和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个
序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海
量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算
法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,着名的
BALST和FASTA算法及相应的改进方法均是从此前提出发的.
2, 蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.
蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般
相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),
蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸
的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.
研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找docking
drugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.
直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构
在进化中更稳定的保留,同时也包含了较AA序列更多的信息.
蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应
(不一定全真),物理上可用最小能量来解释.
从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同
源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用
于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较
进化族中不同的蛋白质结构.
然而,蛋白结构预测研究现状还远远不能满足实际需要.
3, 基因识别,非编码区分析研究.
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组
序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢
弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序
列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码
区DNA序列目前没有一般性的指导方法.
在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已
完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序
列是难以想象的.
侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔
可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden
Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进
化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相
关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似
性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.
早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化
的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角
度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:
Orthologous: 不同种族,相同功能的基因
Paralogous: 相同种族,不同功能的基因
Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.
这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白
质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统
的聚类方法(如UPGMA)来实现.
5, 序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,
如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列
全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直
至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个
NP-完全问题.
6, 遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上
一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.
不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说
来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源
和检验上述理论的真伪提供了新的素材.
7, 基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,
相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物
治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要
的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础
上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一
领域目的是发现新的基因药物,有着巨大的经济效益.
8, 其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,
逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的
学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组
学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学.
从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对
与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认
识.
三, 生物信息学与机器学习
生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.
常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问
题.究竟原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完
备的生命组织理论.
西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作
时更有效[4].机器学习的目的是期望能从数据中自动地获得相应的理论,通过采
用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"
模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.
机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能
[5].
机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,
而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花
费巨大的人工处理方法.早期的科学方法—观测和假设----面对高数据的体积,
快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了.因
而,生物信息学与机器学习相结合也就成了必然.
机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是
统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推
理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马
尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和
探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般
的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析
(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(Locally
Linear embedding).2)生成假设和形式化模型来解释现象[6].大多数聚类方法可
看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于
microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数
据库中获得相应的现象解释.
机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多
假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息
学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻
找数据集的内在结构.其次,机器学习方法中常采用"黑箱"操作,如神经网络
和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.
四, 生物信息学的数学问题
生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息
学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型
(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质
空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓
扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理
论或多或少在生物学研究中起到了相应的作用.
但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学
和度量空间为例来说明.
1, 统计学的悖论
数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显着的悖
论莫过于均值了,如图1:
图1 两组同心圆的数据集
图1是两组同心圆构成的数据集,显然,两组数据集的均值均在圆点,这也
就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多
的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法
和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于
对数据的结构缺乏一般性认识而产生的.
2, 度量空间的假设
在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举
例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分
值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.
那么,是否这种前提假设具有普适性呢
我们不妨给出一般的描述:假定两个向量为A,B,其中,
,则在假定且满足维数间线性无关的前提下,两个
向量的度量可定义为:
(1)
依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息
学中常采用的一般性描述,即假定了变量间线性无关.
然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考
虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的
度量公式可由下式给出:
(2)
上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足
(3)
时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线
性相关性,我们正在研究这个问题.
五, 几种统计学习理论在生物信息学中应用的困难
生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却
一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的
巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来
改善性能是必然的[7].以下对基于这一思想产生的统计学习理论[8],Kolmogorov
复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介
绍.
支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计
学习理论,是通过最大化两个数据集的最大间隔来实现分类,对于非线性问题则
采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性
质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函
数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核
函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选
择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中
又一个大气泡.
Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习
的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov
复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只
适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参
数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.
BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的
惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀("Occam Razor")原理,近
年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验
的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索
的空间.
六, 讨论与总结
人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平
上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互
关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这
些问题做出探讨和思索.
启发式方法:
Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优
的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得
到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的
困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能
达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,
要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,
要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工
智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.
问题规模不同的处理:
Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数
据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这
好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法
一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同
样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据
挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用
动态规划,而在大规模序列对齐时不得不引入启发式方法,如BALST,FASTA.
乐观中的隐扰
生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因
组时代",目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在
的隐扰呢
不妨回顾一下早期人工智能的发展史[11],在1960年左右,西蒙曾相信不出
十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相
同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成
果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,
这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的
本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不
能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现
实.
反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从
结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所
有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来
自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人
工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的
功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我
们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐
观呢 现在说肯定的话也许为时尚早.
综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,
是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为
各种学科的简单堆砌,相互之间的联系并不是特别的紧密.在处理大规模数据方
面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全
明了,这使得生物信息学的研究短期内很难有突破性的结果.那么,要得到真正
的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从
数学上的新思路来获得本质性的动力.
毫无疑问,正如Dulbecco1986年所说:"人类的DNA序列是人类的真谛,
这个世界上发生的一切事情,都与这一序列息息相关".但要完全破译这一序列
以及相关的内容,我们还有相当长的路要走.
(来源 ------[InfoBio.org | 生物信息学研讨组])http://www.infobio.org
生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
生物信息学是一门利用计算机技术研究生物系统之规律的学科。
目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。
1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?
生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。
生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学
姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。
原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。
4. 对一种疾病相关基因或其他感兴趣的基因进行生物信息学分析
光从基因表达谱找有异常表达的基因也不全面。做出来的基因表达谱往往有很多基因存在差异,有的可能是一些下游的免疫生物学反应,有的可能是误差或个体差异(尤其是做的数量少时),剩下的可能才有加以考虑的价值。
另外,有时疾病易感基因本身表达并无改变,而是通过调控其它基因发挥作用。所以,致病基因的寻找应从多种途径着手。
一孔之见,如有谬误之处,请大家指教。 多谢verygood 兄,我的第一步可能只能做到表达谱的改变这一层次,如果有机会做下去的话,如你所言,应该从各种途径全面考虑。我现在的想法是以表达谱基因芯片技术为核心方法,做出患者和正常人小梁细胞基因表达谱的差异的总体信息,如maxon和你所说,这样可能找到新的致病相关基因,也可能不行,我想着起码是一个方面吧(不知对不对)。 我目前所能考虑的是如何组织自己的思路,来吧这个工作做好。还有几个问题请教:
1.基因文库的建立方法中,比如有一篇文章中选了1118个基因进行研究,通过BLAST,分成了已知基因、已知序列、未知基因等几类,我不明白他们是如何从基因文库(提取细胞全mRNA逆转录来的)中选定的?(还是从别的地方查到的?),我理解好像是直接测序,请问是如何从基因文库中找出(分离)这些基因一一测序的?
2.如何使用BLAST?比如同一文章中所说的已经测定出的1118个小梁细胞的表达谱基因序列我如何能查到?能给我讲解一下吗?太感谢了
有没有注意到一个问题,基因芯片只能检测已知的基因或序列,对于那些未知的则无能为力,一孔之见. Andrew说得不错,不过芯片中的基因数也在随对基因研究的深入而在不断增加。对普通的研究来说,主要的已知通路基本已能包括。 多谢指教。有能回答我上面几个问题的吗?我还是有些不明白,看了一天资料也没有明白。
请问:如果我用一个正常群体的基因表达谱cDNA定做了一个芯片(含已知的1118个基因),在与患者cDNA样品的杂交中发现有一个基因表达下调了或者不表达,其原因是什么呢?是真的没有表达还是别的?
多谢多谢 样本是否一致?比如血细胞,其细胞亚群是否有可比性?
有对照吗? 样本是随机样本,小梁细胞是均一的内皮细胞。至于对照,你指的是阴性对照、阳性对照还是转录的内对照?
小弟所知甚少,低级错误也可能犯,请多多指教。 除去实验和DNA芯片误差外,在与患者cDNA样品的杂交中发现有一个基因表达下调了或者不表达,需要用RT-PCR进行验证。其表达的下调或不表达,可能是受到其上游基因的调控,也可能是基因本身结构有改变,如无义突变可检测到表达的下降。对这些经RT-PCR证实后,应该进行测序,察看这些基因是否有结构的异常。 在天天站长和各位战友的帮助下,我对现在所申请的课题从无知到略懂,终于完成了自然科学基金申请书的写作,在明天,我们的这份凝结着大家的汗水和智慧的申请书就要送出去之前,对各位这几天来的帮助表示诚挚的感谢,尽管这是我第一次写这样的申请,尽管几乎没有中的可能,我还是觉得自己学到了很多东西,也结识了很多好朋友,真诚的感谢给了我这个机会!
我把这份申请的正文部分放在了附件里了,希望感兴趣的朋友可以看一下,提一些宝贵意见,因为我认为这样的一个课题还是很值得去做的,尽管我们可能没有这个机会和能力去做。
再次感谢大家啦!
88411-.doc</A> (76.5k) 恭祝申请成功!! 谢谢天天站长的指教,谢谢各位战友。
近日科研基金开始申报,老板急命申请课题。由于对基础刚刚接触,故请教站长以及各位战友。
1目前收集到一少见的单基因病(癫痫方面),在国内未见临床和基础报道。临床工作,包括留取血样已经完成。
2本病自从98年以来,致病基因得到了定位和克隆,但存在遗传异质性,相同的致病基因的突变位点也不相同。多篇文章发表在nature genetic等权威杂志上。最新的研究显示,仍有其他未知的致病基因。
3合作实验室,有曾经成功的定位和克隆了一例致病基因的经验。
我们申请的目的是致病基因的定位和克隆,并有望发现新的致病基因。
想请教各位:
1在目前仅仅掌握临床资料的情况下,能否提出申请?
2还需要做那一方面的工作?
2如果可以,可能申请失败的原因是什麽?
谢谢各位,急切盼望指教!谢谢 如果是单基因疾病,那要看你收集的家系怎么样了。另一个问题主要是你的临床诊断正确与否。我不是临床的,这个临床诊断事关重大,如果有些是诊断错误或分型有误的,很有可能导致无法discover disease gene 单基因疾病这方面的技术策略已经很成熟,有很多文献可以参考。国内也有多家研究机构在做。 我想研究下某个基因SNP与一种疾病的关联。国外已有报道在2个位点上有联系。那么我是进行RFLP分析,还是用SNP分析? 各位大侠,我最近在做一个X染色体连锁遗传家系的疾病相关基因的定位,现在已用两个位点的MARKER(STR)做了基因组扫描,但是在连锁分析时遇到了困难,我用的是LINKAGE(version 5.1). 我想请教各位在进行连锁分析时,性连锁与常染色体连锁遗传参数设置有何不同?急盼各位予以赐教,不胜感激! 答无事转转 我想研究下某个基因SNP与一种疾病的关联。国外已有报道在2个位点上有联系。那么我是进行RFLP分析,还是用SNP分析?
RFLP是最早期的遗传标记(第一代),随着遗传学的发展和测序片段的不断增多,已出现了第二代、第三代遗传标记。RFLP通过酶切作用进行分析,操作简单,花费不多,但特异性差,有被淘汰的趋势;SNP定位明确,相对花费较大,对其分析可以通过测序、小测序(Snapshot)、荧光探针、SNP芯片等方法。
具体行RFLP分析,还是用SNP分析看你的研究目标和经济实力。 请教verygood,能否介绍一下小测序(snapshot)?
我最近想检测某基因与疾病的关系,外显子较多(20),在其他疾病中已有突变热点(9、11、13、17exon),但我要研究的病未见报道。请问我应对所有外显子测序吗? coldant wrote:
请教verygood,能否介绍一下小测序(snapshot)?
我最近想检测某基因与疾病的关系,外显子较多(20),在其他疾病中已有突变热点(9、11、13、17exon),但我要研究的病未见报道。请问我应对所有外显子测序吗?
Snapshot为小测序反应,其原理简单地说是首先扩增包含SNP在内的一段DNA模板,再对PCR产物进行纯化,加入带有不同荧光的ddNTP和中间探针(所谓中间探针即SNP前20个bp左右寡核苷酸序列,探针与ddNTP按照模板序列结合,因为是ddNTP,其后不能再延伸,而结合的ddNTP反应的就是SNP情况),再纯化一下进行电泳,根据不同的荧光可以判断相应SNP基因型。
该方法适用于对已知SNP等位基因型进行确认,对探针要求不高;但操作步骤多,大规模应用较为困难(采用基于毛细管的测序方法,如ABI3100测序仪系列时,相对工作量小些)。
检测某基因与疾病的关系,外显子较多(20),在其他疾病中已有突变热点(9、11、13、17exon),建议你先研究一下这些位点。当然如果基因序列很短,也可以直接测序,因为目前发现的SNP或mutation毕竟还只有预计值的2%左右。
Good luck 谢谢verygood:)
最近忙着论文答辩的事情。我对于这方面完全是菜鸟,但是老板说要有新意,同学给出了个这样的主意。
目前已经提取DNA,进行基因分型。但是我希望测序进行确定。上面提到的SNAPSHOT是小型测序,我已经确定了突变位点,片段在300bp左右,是否可以全部测序?
另外是全部的样本测序还是就挑选几个杂合子和纯合子测就可以证明?这方面的资料在哪里有介绍?我还是新手:( 无事转转 wrote:
谢谢verygood:)
最近忙着论文答辩的事情。我对于这方面完全是菜鸟,但是老板说要有新意,同学给出了个这样的主意。
目前已经提取DNA,进行基因分型。但是我希望测序进行确定。上面提到的SNAPSHOT是小型测序,我已经确定了突变位点,片段在300bp左右,是否可以全部测序?
另外是全部的样本测序还是就挑选几个杂合子和纯合子测就可以证明?这方面的资料在哪里有介绍?我还是新手:(
如果只是300bp,且标本不多的话,还是直接测序好,因为不仅可以明确已知的SNP基因型,还可能顺带发现一些文献未报道过的,这也就是说所有标本都要测序。
如果只想对已知的那些SNP进行基因分型,你可以采用SNAPSHOT方法,当然亦可以用RFLP,只是特异性差些,所得的条带不一定与目标SNP不同等位基因有关,可能切到染色体其他区域。
这方面到没有一定的资料,我们也是做过以后才逐渐理解的,具体采用何种技术还是因地制宜吧。 verygood wrote
检测某基因与疾病的关系,外显子较多(20),在其他疾病中已有突变热点(9、11、13、17exon),建议你先研究一下这些位点。当然如果基因序列很短,也可以直接测序,因为目前发现的SNP或mutation毕竟还只有预计值的2%左右。
谢谢verygood老师。我研究的基因编码区2930bp,mRNA5084bp,基因全长80kb。本打算直接测序,但病人组18例(石蜡),对照组20例(外周血DNA行吗?),费用可能要6万!!!,所以现在想改成PCR-SSCP加异常条带测序,您看行吗? verygood wrote:
如果只是300bp,且标本不多的话,还是直接测序好,因为不仅可以明确已知的SNP基因型,还可能顺带发现一些文献未报道过的,这也就是说所有标本都要测序。
如果只想对已知的那些SNP进行基因分型,你可以采用SNAPSHOT方法,当然亦可以用RFLP,只是特异性差些,所得的条带不一定与目标SNP不同等位基因有关,可能切到染色体其他区域。
这方面到没有一定的资料,我们也是做过以后才逐渐理解的,具体采用何种技术还是因地制宜吧。
测序以后的结果要分析突变有什么软件检测呢?另外的统计学分析是不是有专门的生物统计学书有相关的介绍?还是就是普通的统计就可以了? To coldant :
对于初步研究,您的方法应该可行。
To 无事转转:
测序以后的结果分析突变主要通过序列比对初筛,可以利用Blast进行。不过确定是否确实为突变需要谨慎,应扩大样本再进行分型研究。 作疾病相关研究,你的case 和control太少了。一般国内期刊好像也要200对200,国外一般性期刊需要400-500对500左右。一流的杂志一般都是至少1000对1000的。由于你经费不足,你不可能作测序,你还是直接选用已知的位点做。因为这个基因跟多种疾病相关,说明这个基因很保守,很有可能跟你所研究的疾病相关,就算没有相关,通过与年龄、性别、该疾病的危险因素综合分析(就是玩数字游戏),一般总能发文章的。
寻找疾病相关基因的SNP,目前主要是直接测序(外周血抽提的DNA,而不是组织),通过对比病人和正常人(无该疾病的人)该基因序列,搜寻SNP。verygood所说的blast,实际上并不适用。
你可对目标SNP所在区域设计一对prime1,使得该SNP位于其中,PCR长度500bp左右。同时在PRIMER1覆盖的区域内,再设计一对PRIMER2。PRIMER2其中一个引物的3‘最后一个碱基必需是与目标SNP所在位点的正常碱基互补,如此,若病人在此位点突变,将导致PRIMER2一对引物不能扩增。另外PRIMER2与PRIMER1至少相距100多bp,PRIMER2产物为200多BP。这样,在一个PCR反应中同时放入这2对引物,就可以得到4个片段(在设计引物时,必须使得这4个片段的长度不同,以便电泳时区别),而含有目标SNP的个体,则只有3个片段,通过电泳,就可以确定是否该个体有突变。
这个方法具体的名称我忘了。希望能对你有所帮组。 maxon wrote:
寻找疾病相关基因的SNP,目前主要是直接测序(外周血抽提的DNA,而不是组织),通过对比病人和正常人(无该疾病的人)该基因序列,搜寻SNP。verygood所说的blast,实际上并不适用。
你可对目标SNP所在区域设计一对prime1,使得该SNP位于其中,PCR长度500bp左右。同时在PRIMER1覆盖的区域内,再设计一对PRIMER2。PRIMER2其中一个引物的3‘最后一个碱基必需是与目标SNP所在位点的正常碱基互补,如此,若病人在此位点突变,将导致PRIMER2一对引物不能扩增。另外PRIMER2与PRIMER1至少相距100多bp,PRIMER2产物为200多BP。这样,在一个PCR反应中同时放入这2对引物,就可以得到4个片段(在设计引物时,必须使得这4个片段的长度不同,以便电泳时区别),而含有目标SNP的个体,则只有3个片段,通过电泳,就可以确定是否该个体有突变。
这个方法具体的名称我忘了。希望能对你有所帮组。
呵呵,我指的是借用blast来方便序列的比对,当然applied biosystems有更好的软件,不过您如未购买相应仪器则很难获得。
至于标本量的多少,确实是越多越好。对于相对危险度为2的致病位点来说,case-control各1000例检测效能才能达到100%,病例数减少则检测效能也随之降低。但对于初步研究,还不清楚该位点是否有研究疾病有关就大规模投入,有可能颗粒无收。
供参考。 今天基康公司建议我直接测序,把样本4个一组形成一个“pool?”来测,节省经费。他们本来的建议是正常和病人各用4例分别形成1个“pool”来找SNP,然后用公司的TAG MAN(一种新技术)大规模检测SNP,但我没有这么多病人标本。所以只好只是测序。
请大侠看看这样好吗?如果我总共25例病人分成6个“pool”测序再分析可以吗?
先谢谢了。 maxon wrote:
寻找疾病相关基因的SNP,目前主要是直接测序(外周血抽提的DNA,而不是组织),通过对比病人和正常人(无该疾病的人)该基因序列,搜寻SNP。verygood所说的blast,实际上并不适用。
你可对目标SNP所在区域设计一对prime1,使得该SNP位于其中,PCR长度500bp左右。同时在PRIMER1覆盖的区域内,再设计一对PRIMER2。PRIMER2其中一个引物的3‘最后一个碱基必需是与目标SNP所在位点的正常碱基互补,如此,若病人在此位点突变,将导致PRIMER2一对引物不能扩增。另外PRIMER2与PRIMER1至少相距100多bp,PRIMER2产物为200多BP。这样,在一个PCR反应中同时放入这2对引物,就可以得到4个片段(在设计引物时,必须使得这4个片段的长度不同,以便电泳时区别),而含有目标SNP的个体,则只有3个片段,通过电泳,就可以确定是否该个体有突变。
这个方法具体的名称我忘了。希望能对你有所帮组。
呵呵,谢谢了。我在相关文献上看到的是设计2个引物(突变和未突变的),另外反义引物相同。正常对照组设计的引物很象你所谈到的PROMER2。我就纳闷为什么这样做? verygood wrote:
To 无事转转:
测序以后的结果分析突变主要通过序列比对初筛,可以利用Blast进行。不过确定是否确实为突变需要谨慎,应扩大样本再进行分型研究。
确定是不可能做出结论,只是提出个展望。测序以后可以用SEQUENCEMAN软件分析,但是后面我想加个RFLP,按照相关文献报道来进行。这样分析起来好象就有更多的数据支持。 coldant wrote:
今天基康公司建议我直接测序,把样本4个一组形成一个“pool?”来测,节省经费。他们本来的建议是正常和病人各用4例分别形成1个“pool”来找SNP,然后用公司的TAG MAN(一种新技术)大规模检测SNP,但我没有这么多病人标本。所以只好只是测序。
请大侠看看这样好吗?如果我总共25例病人分成6个“pool”测序再分析可以吗?
先谢谢了。
呵呵,你也是在基康做吗?他们好象是用探针来检测SNP啊。我听说探针的准确性不如直接测序。不知道他们和你提出的是什么样的建议?:) maxon wrote:
作疾病相关研究,你的case 和control太少了。一般国内期刊好像也要200对200,国外一般性期刊需要400-500对500左右。一流的杂志一般都是至少1000对1000的。由于你经费不足,你不可能作测序,你还是直接选用已知的位点做。因为这个基因跟多种疾病相关,说明这个基因很保守,很有可能跟你所研究的疾病相关,就算没有相关,通过与年龄、性别、该疾病的危险因素综合分析(就是玩数字游戏),一般总能发文章的。
5555555,可是我收集不到这么多的病例呀,经费也有限。
您说的直接做已知位点是什么方法啊?另外您有看过《生物学统计》这样的书吗?听说参照它就可以进行相关的分析了。上海哪个图书馆或是书店有呀? 具体什么方法我忘了。统计学主要就是T检验和X2 多态性分析方法有两大类:
其一,基于家系分析,主要采用连锁不平衡方法。
其二,基于case-control,如maxon所言,主要就是T检验和X2 。但是应注意control是否能代表所抽样的群体。因抽样错误而导致的假阳性结果在早期文献中比比皆是,这已逐渐引起大家的关注。 无事转转wrote:
呵呵,你也是在基康做吗?他们好象是用探针来检测SNP啊。我听说探针的准确性不如直接测序。不知道他们和你提出的是什么样的建议?:)
看样子无事转转做的工作与我的很相似,可以多多交流!
基康公司建议:病人与对照各25例(病人只收集到25例),4例一组形成一个“pool”,PCR扩增所以外显子,直接测序。(节省费用)
申能公司建议:对每个病人进行扩增,直接测序,与genbank比较(不设对照组,费用18000元/10例)
北京鼎国公司:PCR-SSCP,(正常,病人各25例)
请verygood,maxon,无事转转等战友们参谋参谋,哪个可行?
申请斑竹们帮助。 coldant wrote:
看样子无事转转做的工作与我的很相似,可以多多交流!
基康公司建议:病人与对照各25例(病人只收集到25例),4例一组形成一个“pool”,PCR扩增所以外显子,直接测序。(节省费用)
申能公司建议:对每个病人进行扩增,直接测序,与genbank比较(不设对照组,费用18000元/10例)
北京鼎国公司:PCR-SSCP,(正常,病人各25例)
请verygood,maxon,无事转转等战友们参谋参谋,哪个可行?
申请斑竹们帮助。
我病例30,对照12。人家的建议是直接测序。我想测序以后再做个RFLP,因为是要写论文,所以内容不可以少。
5. 生物化学方面论文在哪里查
查看science期刊。
science:是“美国科学促进会”(AAAS)旗下研究细胞信号转导的官方刊物,为生物化学、生物信息学、细胞生物学、分子生物学、微生物学、系统生物学、免疫学、神经科学、理学、生理学与医学等领域的研究者提供了动态的关于细胞信号传递的突破性研究与论述的最新资源。
6. 如何自学生物信息学
无论自学什么,都要从一本最基础的,比较权威的教材入手,要是没有教材的话,先从一些大牛的文献综述开始了解,再从硕士博士论文一步步深入,还有就是看看网上有没有课程,比如爱课程,还可以去网盘搜搜试试看。望采纳
7. 怎么分辨一篇文献是不是生信分析
分辨文献的质量:可以看他是出自哪里的,比如是来自什么书,什么杂志,什么网站,一般好的文献都是出自那些评分较高的书籍,国内外较着名的报刊杂志,较值得信赖或经过国家认证的文献网站,国内比如万方网、中国知网等,这些网站的文献质量都是比较值得信赖和可靠的。希望可以帮到你,望采纳!
8. 怎么从一篇论文中看出哪个是第一作者,哪个是第二或第三作者第二作者和第三作者一般可以有几个人挂名啊
一般说来,排名第一就是第一作者,排名第二就是第而作者,排名第三就是第三作者,所以一般都写1个。
1、论文署名第一的就是第一作者,署第二第三的就是第二第三作者。一般看你的文章份量,如果份量足,可以署多个作者。国外一个多中心临床试验的文章可以挂100人。
2、文章一般还有一个通讯作者,是指文章的所有权人和指导者。还有的有一个通信作者,指是的联系人。
3、这个也可以由双方商量来确定排名,如果没有约定,一般是排在前面的为第一作者,排在第二名的为第二作者,余此类推。
署名权利:
第一作者是自己的导师,这不仅是出于惯例,而且是合理的。因为情况往往是,研究课题是导师的,论文是在导师的指导下完成的。这时,不论用道德的眼光,还是用权利的眼光,导师署名第一都无可非议,
因为关键思路(搞科研最看重的就是这个,习惯上称作“idea”)出自导师,学生投入和贡献的是一般工作、知识、精力和时间。我们可以说,即使在另外的情况下,两人合作决定署名次序也是如此,导师的身份、学校的行政权力等背景不是决定性的因素。
以上内容参考网络—第一作者
9. 生物信息学毕业论文,如何选题格式有要求吗
生物信息学推荐系统设计
关键词:推荐系统;生物信息学
推荐系统(RecommenderSystem)[1]是个性化信息服务的主要技术之一,它实现的是“信息找人,按需服务”;通过对用户信息需要、兴趣爱好和访问历史等的收集分析,建立用户模型,并将用户模型应用于网上信息的过滤和排序,从而为用户提供感兴趣的资源和信息。生物信息学(Bioinformatics)[2,3]是由生物学、应用数学和计算机科学相互交叉所形成的一门新型学科;其实质是利用信息科学的方法和技术来解决生物学问题。20世纪末生物信息学迅速发展,在信息的数量和质量上都极大地丰富了生物科学的数据资源,而数据资源的急剧膨胀需要寻求一种科学而有力的工具来组织它们,基于生物信息学的二次数据库[4]能比较好地规范生物数据的分类与组织,但是用户无法从大量的生物数据中寻求自己感兴趣的部分(着名的生物信息学网站NCBI(美国国立生物技术信息中心),仅仅是小孢子虫(Microsporidia)的DNA序列就达3399种),因此在生物二次数据库上建立个性化推荐系统,能使用户快速找到自己感兴趣的生物信息。特别是在当前生物信息数据量急剧增长的情况下,生物信息学推荐系统将发挥强大的优势。
1推荐系统的工作流程
应用在不同领域的推荐系统,其体系结构也不完全相同。一般而言,推荐系统的工作流程[5]如图1所示。
(1)信息获取。推荐系统工作的基础是用户信息。用户信息包括用户输入的关键词、项目的有关属性、用户对项目的文本评价或等级评价及用户的行为特征等,所有这些信息均可以作为形成推荐的依据。信息获取有两种类型[6],即显式获取(Explicit)和隐式获取(Implicit),由于用户的很多行为都能暗示用户的喜好,因此隐式获取信息的准确性比显式高一些。
(2)信息处理。信息获取阶段所获得的用户信息,一般根据推荐技术的不同对信息进行相应的处理。用户信息的存储格式中用得最多的是基于数值的矩阵格式,最常用的是用m×n维的用户—项目矩阵R来表示,矩阵中的每个元素Rij=第i个用户对第j个项目的评价,可以当做数值处理,矩阵R被称为用户—项目矩阵。
(3)个性化推荐。根据形成推荐的方法的不同可以分为三种,即基于规则的系统、基于内容过滤的系统和协同过滤系统。基于规则的推荐系统和基于内容过滤的推荐系统均只能为用户推荐过去喜欢的项目和相似的项目,并不能推荐用户潜在感兴趣的项目。而协同过滤系统能推荐出用户近邻所喜欢的项目,通过用户与近邻之间的“交流”,发现用户潜在的兴趣。因此本文所用的算法是基于协同过滤的推荐算法。
(4)推荐结果。显示的任务是把推荐算法生成的推荐显示给用户,完成对用户的推荐。目前最常用的推荐可视化方法是Top-N列表[7],按照从大到小顺序把推荐分值最高的N个事物或者最权威的N条评价以列表的形式显示给用户。
2生物信息学推荐系统的设计
综合各种推荐技术的性能与优缺点,本文构造的生物信息学推荐系统的总体结构如图2所示。
生物信息学推荐系统实现的主要功能是在用户登录生物信息学网站时,所留下的登录信息通过网站传递到推荐算法部分;推荐算法根据该用户的用户名从数据库提取出推荐列表,并返回到网站的用户界面;用户访问的记录返回到数据库,系统定时调用推荐算法,对数据库中用户访问信息的数据进行分析计算,形成推荐列表。
本系统采用基于近邻的协同过滤推荐算法,其结构可以进一步细化为如图3所示。算法分为邻居形成和推荐形成两大部分,两部分可以独立进行。这是该推荐系统有别于其他系统的优势之一。由于信息获取后的用户—项目矩阵维数较大,使得系统的可扩展性降低。本系统采用SVD矩阵降维方法,减少用户—项目矩阵的维数,在计算用户相似度时大大降低了运算的次数,提高了推荐算法的效率。
(1)信息获取。用户对项目的评价是基于用户对某一个项目(为表示简单,以下提及的项目均指网站上的生物物种)的点击次数来衡量的。当一个用户注册并填写好个人情况以后,系统会自动为该用户创建一个“信息矩阵”,该矩阵保存了所有项目的ID号以及相应的用户评价,保存的格式为:S+编号+用户评价,S用于标记项目,每个项目编号及其评价都以“S”相隔开;编号是唯一的,占5位;用户评价是用户点击该项目的次数,规定其范围是0~100,系统设定当增加到100时不再变化。这样做可防止形成矩阵时矩阵评价相差值过大而使推荐结果不准确。(2)信息处理。信息处理是将所有用户的信息矩阵转换为用户—项目矩阵,使用户信息矩阵数值化,假设系统中有M个用户和N个项目,信息处理的目的就是创建一个M×N的矩阵R,R[I][J]代表用户I对项目J的评价。
(3)矩阵处理。协同过滤技术的用户—项目矩阵的数据表述方法所带来的稀疏性严重制约了推荐效果,而且在系统较大的情况下,它既不能精确地产生推荐集,又忽视了数据之间潜在的关系,发现不了用户潜在的兴趣,而且庞大的矩阵增加了计算的复杂度,因此有必要对该矩阵的表述方式做优化,进行矩阵处理。维数简化是一种较好的方法,本文提出的算法应用单值分解(SingularValueDecomposition,SVD)技术[8],对用户—项目矩阵进行维数简化。
(4)相似度计算。得到降维以后的用户矩阵US,就可以寻找每个用户的近邻。近邻的确定是通过两个用户的相似度来度量的。本文采用Pearson相关度因子[9]求相似度。(5)计算用户邻居。该方法有两种[10],即基于中心的邻居(Center-BasedNeighbor)和集合邻居(AggregateNeighbor)。本系统采用了第一种方法,直接找出与用户相似度最高的前N个用户作为邻居,邻居个数N由系统设定,比如规定N=5。
(6)推荐形成。推荐形成的前提是把当前用户的邻居ID号及其与当前用户的相似度保存到数据库中,而在前面的工作中已找出各用户的邻居以及与用户的相似度,推荐形成部分只需要对当前登录用户进行计算。推荐策略是:对当前用户已经访问过的项目不再进行推荐,推荐的范围是用户没有访问的项目,其目的是推荐用户潜在感兴趣的项目;考虑到系统的项目比较多,用户交互项目的数量很大,所以只筛选出推荐度最大的N个项目,形成Top-N推荐集,设定N=5。
3生物信息学推荐系统的实现
生物信息学推荐系统的实现可以用图4来表示。数据库部分主要存储用户信息和项目信息,用SQLServer2000实现。
数据访问层实现了与用户交互必需的存储过程以及触发器,也使用SQLServer2000,主要完成以下功能:初始化新用户信息矩阵;插入新项目时更新所有用户的信息矩阵;用户点击项目时更新该用户对项目的评价;删除项目时更新所有用户的信息矩阵。用户访问层主要涉及网页与用户的交互和调用数据访问层的存储过程,在这里不做详细的介绍。
推荐算法完成整个个性化推荐的任务,用Java实现。(1)数据连接类DataCon。该类完成与SQLServer2000数据库的连接,在连接之前必须要下载三个与SQLServer连接相关的包,即msutil.jar、msbase.jar和mssqlserver.jar。
(2)数据操作类DataControl。该类负责推荐算法与数据库的数据交换,静态成员Con调用DataCon.getcon()获得数据库连接,然后对数据库进行各种操作。把所有方法编写成静态,便于推荐算法中不创建对象就可以直接调用。
(3)RecmmendSource与CurrentUserNeighbor。这两个类作为FCRecommand类的内部类,RecmmendSource用于保存当前用户的推荐列表,包括推荐项目号和推荐度;CurrentUserNeighbor用于保存邻居信息,包括邻居ID号、相似度及其访问信息。
(4)协同过滤推荐算法FCRecommand。该类实现了整个推荐算法,主要分为邻居形成方法FCArithmetic和推荐形成方法GenerateRecommend。
下面给出方法FCArithmetic的关键代码:
Matrixuser_item=this.User_Item_Arry();//获取用户—项目矩阵
user_item=this.SVD_Calculate(user_item);//调用SVD降维方法
Vectorc_uservector=newVector();//当前用户向量
Vectoro_uservector=newVector();//其他用户向量
Vectorc_user_correlate_vector=newVector();
//当前用户与其他用户之间相似度向量
for(inti=0;ifor(intj=0;jc_uservector.addElement(user_item.get(i,j));
//1.获得当前用户向量
for(intk=0;ko_uservector.clear();
for(intl=0;lo_uservector.addElement(user_item.get(k,l));
//2.获得其他用户的向量
//3.计算当前用户与其他用户的相似度
usercorrelativity=this.Correlativity(c_uservector,o_uservector);
c_user_correlate_vector.addElement(usercorrelativity);
}
//4.根据当前用户与其他用户的相似度,计算其邻居
this.FindUserNeighbor(i,c_user_correlate_vector);
}
根据邻居形成方法FCArithmetic,可以得到每个用户的邻居。作为测试用例,图6显示用户Jack与系统中一部分用户的相似度,可以看出它与自己的相似度必定最高;并且它与用户Sugx访问了相同的项目,它们之间的相似度也为1,具有极高的相似度。
4结束语
在传统推荐系统的基础上,结合当前生物信息学网站的特点,提出一个基于生物信息平台的推荐系统,解决了传统生物信息网站平台信息迷茫的缺点,为用户推荐其感兴趣物种的DNA或蛋白质序列。
优点在于协同过滤的推荐算法能发现用户潜在的兴趣,能促进生物学家之间的交流;推荐算法的邻居形成与推荐形成两部分可以单独运行,减少了系统的开销。进一步的工作是分析生物数据的特点及生物数据之间的关系,增加用户和项目数量,更好地发挥推荐系统的优势。
参考文献:
[1]PAULR,HALRV.Recommendersystems[J].CommunicationsoftheACM,1997,40(3):56-58.
[2]陈新.生物信息学简介[EB/OL].(2001).http://166.111.68.168/bioinfo/papers/Chen_Xin.pdf.
[3]林毅申,林丕源.基于WebServices的生物信息解决方案[J].计算机应用研究,2005,22(6):157-158,164.[4]邢仲璟,林丕源,林毅申.基于Bioperl的生物二次数据库建立及应用[J].计算机系统应用,2004(11):58-60.
10. 从生物信息学课程学习中,哪部分对你的学位论文有帮助,你计划如何应对该内容
林学与业,课程改革
生物信息学,是一门综合学科。涉及到数学,生物学和计算机的内容。但在我看来,计算机的基础需要,但要求不是很高,关键是要有很好的生物学知识,包括遗传学的、生物化学的、发育生物学的、分子生物学的、植物生理学的知识等等,也就说需要达到这样的一个要求:在进行数据分析时,能对各种分析结果进行生物学的评价,并给出最优的分析策略。同时也应该有纯熟的数理基础,包括统计学的、拓扑学的,这样才能把待分析的问题转换成可计算的模型,最后能给出实现的程序。
从个人来说,因为生物信息学是一个非常大的领域,所以,关键是要确定自己的研究方向。比如,以关联分析为方向的生物信息学,那么就要掌握好各种关联分析的统计分析方法,有很强的数据管理能力,足够好的序列分析能力(这是进行variation查找和分析的基础)