① 如何运用生物信息学方法筛选mrna差异基因
1、使用寡核苷酸磁珠选择带有polyA尾的mRNA
2、构建cDNA 文库,测序
3、将测序reads比对到参考基因组
4、转录组重建
5、转录本表达定量
6、差异表达分析:edgeR、DEseq
② 生物信息学有哪些方面的应用
1,测序与序列比对(Sequence Alignment)
测序是生物信息学的基础和主要数据来源,可以是人类数据也可以是其他的数据。序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,着名的BALST和FASTA算法及相应的改进方法均是从此前提出发的.
2, 蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要.
3, 基因识别,非编码区分析研究.
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因;Paralogous: 相同种族,不同功能的基因;Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现.
5, 序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题.
6, 遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材.
7, 基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益.
8.生物系统的建模和仿真
随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。
9.生物信息学技术方法的研究
生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难, 需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。
10, 生物图像
没有血缘关系的人,为什么长得那么像呢?
外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合?
有什么生物学基础?基因是不是相似?我不知道,希望专家解答。
11, 其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.
③ 一个物种的全基因组测序后,你应该怎么使用生物信息学的方法对其进行研究请从基因的功能研究,进化等多
首先进行基因分类,比如说编码性基因占多大比例,非编码性基因又占多少比例;转录差亏因子占多少比例,蛋白激酶类基因又占多少比例等等。
然后将该物种基因组与其它已测稿庆山序基因组进行比较,包括大键中小、同源度等等。
你可以下载一篇报道某种物种已完成测序的文献,看文献中怎么分析。这种文献应该有很多。
④ 如何利用生物信息学筛选靶蛋白的抑制剂
如何利用生物信息学筛选靶蛋白的抑制剂
基因组包含了构成和维持一个生活有机体所必备的基本信息,由细胞内进行的多种分子生物学反应将这些信息转化为真正的生命现象。基因组的一部分编码蛋白质和RNA,其它部分调控这些大分子的表达。表达的蛋白质及RNA折叠成高度专一的三维结构,在体内的特定位置上实现其功能。这些过程的大量细节都是在分子生物学研究的实验室里揭示出来的,所形成的大量数据,存储于数据库中。生物信息学试图从这些数据中提取新的生物学信息和知识,是一门深深植根于全面深入的实验事实和数据的理论生物学。从目前生物信息学的研究情况来看,国际上公认的生物信息学的研究内容,大致包括以下几个方面: 生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;生物信息的在线服务;生物信息可视化和专家系统。 基因祥游组序列信息的提取和分析。包括基因的发现与鉴定,如利用国际EST 数据库 (dbEST) 和各自实验室测定的相应数据,经过大规模 并行计算发现新基因和新SNPs以及各种功能位点;基因组中非编码区的信息结构分析,提出理论模型,阐明该区域的重要生物学功能;进行模式生物完整基因组的信息结构分析和比较研究;利用生物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与DNA折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。 功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测的研究。 生物大分子结构模拟和药物设计。包括RNA(核糖核酸)的结构模拟和反义RNA的分子设计;蛋白质空间结构模拟和分子设计;具有不同功能域的复合蛋白质以及连接肽的设计;生物活性分子的电谨胡销子结构计算和设计;纳米生物材料的模拟与设计;基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于DNA结构的药物设计等。 生物信息分析的技术与方法研究。包括发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具,诸如电子网络等远程通讯工具;改进现有的理论分析方法,如统计方法、模式识别方法、隐马尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学方法、多序列比较方法等;创建一切适用于基因组信息分析的新方法、新技术。包括引入复杂系统分析技术、信息系统分析技术等;建立严格的多序列比较方法;发展与应用密码学方法以及其他算法和分析技术,用于解释基因组的信息,探索DNA序列及其空间结构信息的新表征;发展研究基因组完整信息结构和信息网络的研究方法等;发展生物大分子空间结构模拟、电子结构模拟和药物设计的新方法与新技术。 应用与发展研究。汇集与疾病相关的人类基因信息,发展患者样品序列信息检测技术和基于序列信息选择表达载体、引物的技术,建立与动植物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。 总的来说近期生物信息学将在以下几方面迅速发展:大规模基因组测序中的信息分析;新基因和新SNPs(单核苷酸多态性)的发现与鉴定;完整的比较基因组研究;做启大规模基因功能表达谱的分析;生物大分子的结构模拟与药物设计。而其长远任务是非编码区信息结构分析和遗传密码起源与生物进化的研究。读懂人类基因组,发现人类遗传语言的根本规律,从而阐明若干生物学中的重大自然哲学问题,像生命的起源与进化等。 以下就若干方面再做一定的介绍 1. 数据库 据保守估计,目前世界上平均每一分钟就有一个序列增加到核酸序列数据库中,能够从飞速增长的序列数据更高效的提取信息,建立生物信息中心,通过互联网实现全球范围内的信息共享成为必然。欧美各国及日本等西方国家相继成立了生物信息资源和研究中心,如美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)、位于英国的欧洲生物信息研究所(European Bioinformatics Institute,EBI)、位于瑞士日内瓦的蛋白质专家分析系统(The Expert Protein Analysis System,ExPaSy)、日本国立遗传学研究院(National Institute Genetics,简称NIG)等。以西欧各国为主的欧洲分子生物学网络组织European Molecular Biology network (EMBnet),成立于1988年,是目前国际上最大的分子生物信息研究、开发和服务机构。它把欧洲乃至世界各国的生物信息中心联系在一起,实现信息共享,并合作进行开发、研究、培训。 2. 基因组 在后基因组时代,生物信息学家不仅有大量的序列和基因而且有越来越多的完整基因组。有了这些资料人们就能对若干重大生物学问题进行分
⑤ 如何利用生物信息数据库开展试验研究 举例
近年来大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它扮旅们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理的服务。随着因特网的普及,这些数据库大多可以通过网络来访问,或者通过网络下载。
一般而言,这些生物信息数据库可以分为一级数据库洞闹和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整纳缺罩理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上着名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。
下面将顺序简要介绍一些着名和有特色的生物信息数据库。
⑥ 生物信息学有哪些方面的应用
生物信息学是一门利用计算机技术研究生物系统之规律的学科。
目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。
生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学,1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议,生物信息学发展到了计算生物学、计算系统生物学的时代。
生物信息学目前主要应用于:
1,序列比对;
2, 蛋白质结构比对和预测;
3, 基因识别,非编码区分析研究.;
4, 分子进化和比较基因组学;
5, 序列重叠群(Contigs)装配;
6, 遗传密码的起源;
7, 基于结构的药物设计;
8.生物系统的建模和仿真;
9.生物信息学技术方法的研究;
10, 生物图像;
如果你有意献身于科研事业,为人类未来的发展做出自己的贡献,这门学科还是有很大的发展前景的,如果想毕业找工作,估计会很难
⑦ 怎样利用生物信息学方法进行数据挖掘
生物信息学中数学占了很大的比重。统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理论或多或少在生物学研究中起到了相应的作用.但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明. Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.
问题规模不同的处理:Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用动态规划,而在大规模序列对齐时不得不引入启发式方法,如BLAST,FASTA. 综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密。在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果。那么,要得到真正的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力。毫无疑问,正如Dulbecco1986年所说:人类的DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关。但要完全破译这一序列以及相关的内容,我们还有相当长的路要走。
⑧ 怎么利用生物信息学分析公共数据
生物信息学(Bioinformatics)是生物学与计算机科学以及应用数学等学科相互交叉而
形
成的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而
达
到揭示这些数据所蕴含的生物学意义的目的。在推动生物信息学发展的各种动力中,人
类
基因组计划(HGP)和生物医药工业是其中的两个主要力量。
就人类基因组来说,得到序列仅仅是第一步,后一步的工作是所谓后基因组时代 (Post
-
genome Era) 的任务,即收集、整理、检索和分析序列中表达的蛋白质结构与功能的信
息
,找出规律。近几年来在公共数据库中DNA序列数据的数量以每年1.8倍的速度快速增长
,
到1997年底已经超过1.2×109bp。对如此巨量的数据进行存储、分类、检索、比较,并
预
测可能的基因和基因产物的结构和功能,如果没有计算机参与处理,那是不可想象的。
生物医药工业也是推动生物信息学发展的重要动力。HGP所推动的大规模DNA测序也为生
物
医药工业提供了大量可用于新药开发的原材料。有些基因产物可以直接作为药物,而有
些
基因则可以成为药物作用的对象。生物信息学为分子生物学家提供了大量对基因序列进
行
分析的工具,不但可以从资料的获取、基因功能的预测、药物筛选过程中的信息处理等
方
面大大加快新药开发的进程,而且可以大大加快传统的基因发现和研究,因而成为各赢
利
性研究机构和医药公司争夺基因专利的重要工具,这一竞争又反过来极大的刺激了生物
信
息学的发展。
2、研究内容
生物信息学与计算生物学或生物计算有着密切的关系,但又不尽相同,目前归入生物信
息
学研究领域的大致有以下几个方面:
(1)各种生物数据库的建立和管理。这是一切生物信息学工作的基础,通常要有计算机
科
学背景的专业人员与生物学家密切合作。
(2)数据库接口和检索工具的研制。数据库的内容来自万千生物学者的日积月累,最终
又
为生物学者们所用。但不能要求一般生物学工作者具有高深的计算机和网络知识,因此
,
必须发展查询数据库和向库里提供数据的方便接口。这是专业人员才能胜任的工作,通
常
在生物信息中心里进行。
(3)人类基因组计划的实施,配合大规模的DNA自动测序,对信息的采集和处理提出了
空
前的要求。从各种图谱的分析,大量序列片段的拼接组装,寻找基因和预测结构与功能
,
到数据和研究结果的视像化,无不需要高效率的算法和程序。研究新算法、发展方便适
用
的程序,是生物信息学的日常任务。
(4)生物信息学最重要的任务,是从海量数据中提取新知识。这首先是从DNA序列中识
别
编码蛋白质的基因,以及调控基因表达的各种信号。其次,从基因组编码序列翻译出的
蛋
白质序列的数目急剧增加,根本不可能用实验方法一一确定它们的结构和功能。从已经
积
累的数据和知识出发,预测蛋白质的结构和功能,成为常规的研究任务。
(5)DNA芯片和微阵列的发展,把一定组织或生物体内万千基因时空表达的研究提上日
程
.研究基因表达过程中的聚群关系,从中提取调控网络和代谢途径的知识,进而从整体
上
模拟细胞内的全部互相辅合的生化反应,在亚细胞层次理解生命活动。只有掌握已有数
据
、发展崭新算法,才能创造新的知识。这是生物信息学刚刚掀开的新篇章。
⑨ 如何利用生物信息学研究一个蛋白分子
基因组包含了构成和维持一个生活有机体所必备的基本信息,由细胞内进行的多种分子生物学反应将这些信息转化为真正的生命现象。基因组的一部分编码蛋白质和RNA,其它部分调控这些大分子的表达。表达的蛋白质及RNA折叠成高度专一的三维结构,在体内的特定位置上实现其功能。这些过程的大量细节都是在分子生物学研究的实验室里揭示出来的,所形成的大量数据,存储于数液侍据库中。生物信息学试图从这些数据中提取新的生物学信息和知识,是一门深深植根于全面深入的实验事实和数据的理论生物学。从目前生物信息学的研究情况来看,国际上公认的生物信息学的研究内容,大致包括以下几个方面:
生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;生物信息的在线服务;生物信息可视化和专家系统。
基因组序列信息的提取和分析。包括基因的发现与鉴定,如利用国际EST 数据库 (dbEST) 和各自实验室测定的相应数据,经过大规模 并行计算发现新基因和新SNPs以及各种功能位点;基因组中非编码区的纳埋高信息结构分析,提出理论模型,阐明该区域的重要生物学功能;进行模式生物完整基因组的信息结构分析和比较研究;利用生物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与DNA折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。
功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测的研究。
生物大分子结构模拟和药物设计。包括RNA(核糖核酸)的结构模拟洞尺和反义RNA的分子设计;蛋白质空间结构模拟和分子设计;具有不同功能域的复合蛋白质以及连接肽的设计;生物活性分子的电子结构计算和设计;纳米生物材料的模拟与设计;基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于DNA结构的药物设计等。
生物信息分析的技术与方法研究。包括发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具,诸如电子网络等远程通讯工具;改进现有的理论分析方法,如统计方法、模式识别方法、隐马尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学方法、多序列比较方法等;创建一切适用于基因组信息分析的新方法、新技术。包括引入复杂系统分析技术、信息系统分析技术等;建立严格的多序列比较方法;发展与应用密码学方法以及其他算法和分析技术,用于解释基因组的信息,探索DNA序列及其空间结构信息的新表征;发展研究基因组完整信息结构和信息网络的研究方法等;发展生物大分子空间结构模拟、电子结构模拟和药物设计的新方法与新技术。
应用与发展研究。汇集与疾病相关的人类基因信息,发展患者样品序列信息检测技术和基于序列信息选择表达载体、引物的技术,建立与动植物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。
总的来说近期生物信息学将在以下几方面迅速发展:大规模基因组测序中的信息分析;新基因和新SNPs(单核苷酸多态性)的发现与鉴定;完整的比较基因组研究;大规模基因功能表达谱的分析;生物大分子的结构模拟与药物设计。而其长远任务是非编码区信息结构分析和遗传密码起源与生物进化的研究。读懂人类基因组,发现人类遗传语言的根本规律,从而阐明若干生物学中的重大自然哲学问题,像生命的起源与进化等。
以下就若干方面再做一定的介绍
1. 数据库
据保守估计,目前世界上平均每一分钟就有一个序列增加到核酸序列数据库中,能够从飞速增长的序列数据更高效的提取信息,建立生物信息中心,通过互联网实现全球范围内的信息共享成为必然。欧美各国及日本等西方国家相继成立了生物信息资源和研究中心,如美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)、位于英国的欧洲生物信息研究所(European Bioinformatics Institute,EBI)、位于瑞士日内瓦的蛋白质专家分析系统(The Expert Protein Analysis System,ExPaSy)、日本国立遗传学研究院(National Institute Genetics,简称NIG)等。以西欧各国为主的欧洲分子生物学网络组织European Molecular Biology network (EMBnet),成立于1988年,是目前国际上最大的分子生物信息研究、开发和服务机构。它把欧洲乃至世界各国的生物信息中心联系在一起,实现信息共享,并合作进行开发、研究、培训。
2. 基因组
在后基因组时代,生物信息学家不仅有大量的序列和基因而且有越来越多的完整基因组。有了这些资料人们就能对若干重大生物学问题进行分
⑩ 如何利用生物信息学分析一个基因的DNA序列
如何利用生物信息学分析一个基因的DNA序列
基因克隆是70年代发展起来的一项具有革命性的研究技术,可概蚂姿括为∶分、切、连、转、选。最终目的在于通过相应技术手段,将目的基因导入寄主细胞,在宿主细胞内目的基因被大量的复制。
"切"是指用序列特异的限制性内切酶切开载体DNA,或者切出目的基因;"连"是指用DNA连接酶将目的橘胡DNA同载体DNA连接起来,形成重组的DNA分子;"转"是指通过特殊的方法将重组的DNA分子送入宿主细胞中进行复制和扩增;"选"则是圆物拦从宿主群体中挑选出携带有重组DNA分子的个体。基因工程技术的两个最基本的特点是分子水平上的操作和细胞水平上的表达,而分子水平上的操作即是体外重组的过程,实际上是利用工具酶对DNA分子进行"外科手术"。