① 如何运用生物信息学方法筛选mrna差异基因
1、使用寡核苷酸磁珠选择带有polyA尾的mRNA
2、构建cDNA 文库,测序
3、将测序reads比对到参考基因组
4、转录组重建
5、转录本表达定量
6、差异表达分析:edgeR、DEseq
② 如果发现一个有意思的性状,如何用传统的方法拿到控制这个性状的基因用生物信息学的方法呢谢谢!
传统的方法就是基因敲除(knock-out). 用生物信息学的方法就是数据挖掘,看看是否文献中有相关的实验研究,如果没有,现在的生物信息学方法也无能为力。
③ 如下哪个生物信息学方法可以用来寻找新基因
生物信息学方法可以用来寻找新基因.
1,序列比对(Sequence Alignment)
序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,着名的BALST和FASTA算法及相应的改进方法均是从此前提出发的.
2, 蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要.
3, 基因识别,非编码区分析研究.
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因;Paralogous: 相同种族,不同功能的基因;Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现.
5, 序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题.
6, 遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材.
7, 基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益.
8.生物系统的建模和仿真
随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。
9.生物信息学技术方法的研究
生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难, 需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。
10, 生物图像
没有血缘关系的人,为什么长得那么像呢?
外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合?
有什么生物学基础?基因是不是相似?我不知道,希望专家解答。
11, 其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.
④ 生物信息学查找基因
NCBI里面你点进去,如果是文献报道过的基因,一定会有对基因的描述的。
如果你是在基因组里搜索ORF或者是预测的基因,那么只有检索号是正常的。因为很多基因还没有研究其功能,因此只有标号,没有名称。
⑤ 细胞生物学:设计一个实验,用细胞生物学的方法,研究新基因的作用
随着分子生物学的进展,新基因功能的研究手段不断增多。现从生物信息学分析、离体与在体和基因编码蛋白相互作用方面综述近年来有关新基因功能研究的进展,为基因工程等相关领域的研究提供参考。各种方法都有各自的特点和局限性,,实现对特定基因功能研究的目的。
⑥ 我想要的序列在全基因组的缺口里,那个缺口已经找到,把这个缺口的基因弄到手都有哪些方法
的北京三博远志猎枪鸟枪法测序的:
全基因组鸟枪法测序(全基因组鸟枪测序)并不需要建立各种复杂的物理图谱和遗传图谱,使用最具成本效益的基因组鸟枪法测序/猎枪鸟枪法测序(全基因组鸟枪法测序)并不需要建立各种复杂的物理图谱和遗传图谱,最具成本效益的实验设计,并指导建立的整个基因组标记的DNA片段大小不同的猎枪图书馆库中随机测序,最后利用生物信息学的方法,为了全基因组序列的测序片段拼接。
全基因组鸟枪测序步骤:第一,建立高度随机的基因组文库,插入片段大小为1.6kb的约4KB。的克隆数必须达到一定的数量,即,经过克隆的片段的序列分析的两端的碱基的总数应达到6?10倍的基因组的大小。二,高效,大量的克隆双向测序。三,序列组装。在序列组装与PHRED,Phrap Consed软件产生一定数目的重叠群。四,填补了国内空白。为了填补缺口,有两个未决首先的,有没有物理间隙对应的模板DNA,用PCR方法填补;模板DNA,但不测量序列的差距,我们直接测序引物上设计的模板DNA。
鸟枪法测序范围:BAC粘粒粘粒,线粒体DNA,叶绿体DNA。
全基因组鸟枪法测序的主要步骤:第一,建立高度随机4KB基因组文库插入片段大小为1.6kb的。的克隆数必须达到一定的数量,即,经过克隆的片段的序列分析的两端的碱基的总数应达到6?10倍的基因组的大小。二,高效,大量的克隆双向测序。三,序列组装。在序列组装与PHRED,Phrap Consed软件产生一定数目的重叠群。四,填补了国内空白。为了填补缺口,有两个未决首先的,有没有物理间隙,通过PCR的方法填充相应的模板DNA;第二,有一个模板的DNA序列的差距,但不进行测量,直接在设计引物,测序的模板DNA。
⑦ 急求:基因预测的方法和步骤
方法1:最长ORF法
将每条链按6个读码框全部翻译出来,然后找出所有可能的不间断开放阅读框(ORF),只要找出序列中最长的ORF,就能相当准确地预测出基因。最长ORF法发现基因的一般过程(包括基因区域预测和基因功能预测2个层次):
步骤1:获取DNA目标序列
① 如果已有目标序列,可直接进入步骤2;
② 可以通过PubMed查找感兴趣的资料,通过GenBank或EMBL等数据库查找目标序列。
步骤2:查找ORF并将目标序列翻译成蛋白质序列
利用相应工具,如ORF Finder、Gene feature (Baylor College of Medicine)、GenLang (University of Pennsylvania)等查找ORF并将DNA序列翻译成蛋白质序列。
步骤3:在数据库中进行序列搜索
利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索。
步骤4:进行目标序列与搜索得到的相似序列的全局比对(global alignment)
虽然步骤3已进行局部比对(local alignment)分析,但全局比对有助于进一步加深对目标序列的认识。
步骤5:查找基因家族
进行多序列比对(multiple sequence alignment),获得比对区段的基因家族信息。
步骤6:查找目标序列中的特定模序
分别在Prosite、BLOCK、Motif数据库中进行profile、模块(block)、模序(motif)检索。
步骤7:预测目标序列蛋白质结构
利用PredictProtein(EMBL)、NNPREDICT(University of California)等预测目标序列的蛋白质二级结构。
步骤8:获取相关蛋白质的功能信息
为了了解目标序列的功能,收集与目标序列和结构相似蛋白质的功能信息非常必要。可利用PubMed进行搜索。
方法2:利用编码区与非编码区密码子选用频率的差异进行基因预测
编码区的碱基组成不同于非编码区,这是由于蛋白质中20种氨基酸出现的概率、每种氨基酸的密码子兼并度和同一种氨基酸的兼并密码子使用频率不同(即密码子偏好)等原因造成的。该方法是目前各种预测程序中广泛应用的一种方法,如GCG(Genetic Computer Group研制的核酸、蛋白质分析软件包)的TestCode和Baylor Medcine College的BCM Gene Finder等程序均利用了这一方法。
方法3:利用ESTs预测基因
Expressed Sequence Tags (ESTs) 代表基因序列,若DNA序列和 EST严格匹配,这段DNA序列属于基因或假基因。此法对ESTs进行聚类和拼接,聚类和拼接的目的就是将来自同一个基因或同一个转录本的具有重叠部分(over-lapping)的ESTs整合到单一的簇(cluster)中。通过聚类可产生较长的一致性序列(consensus sequence),降低数据的冗余,纠正错误数据,并最终得到基因的全长序列。
随着信息学方法在基因预测中的进一步充分应用,一批新的基因预测方法被相继提出,如人工神经网络、隐马尔可夫模型(Hidden Markov Model, HMM)、动态规划法(dynamic programming)、法则系统(ruled-based system)、线性判别分析(Linear Discriminant Analysis, LDA)、决策树(decision tree)、傅立叶分析(Fourier analysis)等。这些方法是基于编码区所具有的独特信号,如剪接的供体和受体位点、起始和终止密码子、启动子特征、转录因子结合位点等进行预测。相关的基因预测软件包括:Procrustes、GeneID、GenScan、GRAIL等。
⑧ 生物信息学在分离克隆基因中有哪些应用
生物信息学(bioinformatics)是生物学、计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科,它以计算机为主要工具,开发各种软件,对日益增长的DNA和蛋白质的序列和结构等相关信息进行收集、储存、发行、提取、加工、分析和研究,同时建立理论模型,指导实验研究。基因组信息学的首要任务之一就是发现新的基因。
如利用EST数据库发现新基因(电脑克隆),寻找到与克隆有关的EST后,用电子cDNA文库进行筛选;通过生物信息学软件进行分析和查询,最终获得一个基因的全长cDNA;通过保守区发现和克隆基因,即利用同源蛋白质的保守序列或同源基因区段进行电子筛选,再进一步拼接、延伸从而获得全长的cDNA;从大规模cDNA文库测序的序列中确定新基因,首先确定获得的cDNA是否为基因全长cDNA,确定是否有典型的阅读框(ORF)及3′端及5′端。而后可以通过网上搜索确定是否为新的基因,若通过检验则为新基因。
除上述几种基本的方法外,随着生物技术的发展和传统技术的改良,基因克隆的方法又有许多新的技术出现,如基因表达序类标记分析(SAGE);由DDRT-PCR演变而来的代表性差异分析(RDA),包括基因组DNA(gDNA)的RDA和cDNA的RDA;转录活动的DNA差减杂交技术(TADSH)、利用限制性片段多态性的cDNA-AFLP等等,这些技术作为基因分离克隆的方法,较以前的技术都具有一定的优点,又有各自的不尽相同的用途。