基因测序

DNA图谱 / 问答 / 标签

分子标记(包括基因测序)

在最开头,我们来说下两种遗传模式: 1核基因组是双亲遗传的(一条染色体来自母本,一条来自父本),只有性染色体是单亲遗传的,但不是所有生物都有性染色体。 2细胞器基因组是单亲遗传的:植物动物都具有的线粒体基因组是母体遗传的(maternal inheritance),植物具有的叶绿体基因组在被子植物中是母体遗传的,在裸子植物中是父体遗传(paternal inheritance)。那么,什么是分子标记呢? 分子标记就是在基因组中有其特定位置的DNA片段。 有的人错误地将蛋白标记(protein marker)纳入分子标记,这是不对的。蛋白质是由DNA编码的,不是DNA。蛋白标记是生物化学标记(biochemical marker),可以和分子标记(molecular marker/DNAmarker)一起纳入遗传标记(genetic marker)中。简单地说就是,蛋白是表型,DNA是基因型。 1等位酶(allozymes) 等位酶是第一个遗传标记,出现在1960s,通过淀粉凝胶电泳方法实现,让我们可以看到表型的多态性。 同工酶(isozymes):不同位点的基因编码的相同功能的酶。 等位酶(allozymes):相同位点的不同等位基因编码的酶。2 限制性长度多态性(RFLP,RestrictionFragment Length Polymorphism)是第一个DNA标记(1974),用来探究同源DNA序列的变异。 后来又出现了很多其他的DNA标记,大体分为两类: 1)共显性标记:能够区分杂合体和纯合体,包括SSR(simple sequence repeat)、RFLP(restriction fragment length)、SNP(single nucleotide polymorphism) 2)显性标记:同时产生多个位点的数据,但是不能够区分杂合体和纯合体。 包括AFLP(amplified fragment length),RAPD(random amplified polymorphic DNA)和ISSR(Inter simple sequence repeata) 这里有一个网上的例子帮助理解什么是共显性标记和显性标记 (http://blog.sina.com.cn/s/blog_62d925fd0101aay3.html): 显性标记RAPD是随机引物(可以理解只有正向引物,没有反向引物)进行扩增。因此,它扩增出来的为引物结合位点到终点的长度。一条链上会有很多该引物结合位点,也就出现了很多片段。对于一个特定位点,我们可以理解只有一条正链可被扩增。因此,在该链上只有两种情况,有和没有。不能看出是纯合还是杂合。共显性标记SSR,用一对引物(正向引物和反向引物)。对于一个特定位点,两条链都可被扩增,因此有三种情况:纯合A型,纯合B型,杂合AB型。能够看出是纯合还是杂合。 注:什么是共显性?一对等位基因,没有显隐性区别,在杂合子状态时,两种基因的作用都能表达。比如ABO型血的遗传就是共显性实例。ABO血型的基因已定位于第9号染色体上的9q4.2位点,在这一基因座位上,由A.B和O三种基因组成复等位基因。基因A对基因0为显性。基因B对基因O也是显性,基因A和基因B为共显性。基因型AA和A0都决定红胞膜上机抗原A的产生,这种个体为A型血,基因型BB和B0都决定红细胞膜上抗原B的产生,这种个体为B型血,基因型00则只有H物质的产生面而不产生抗原A和抗原B,这种个体为O型血,基因型AB决定红细胞膜上有抗原A和抗原B,故为AB型血,为共显性遗传。(来自百度) 3 DNA序列也是一种分子标记,而且是最准确,信息量最多的一个,是我们现在进行各种分析时广泛使用的。 1 Sanger测序 Sanger测序也被称为一代测序,原理就是我们熟悉的双脱氧终止法,网上具有大量的介绍。Sanger测序会产生ABI文件。 2 鸟枪法 这种方法是美国塞莱拉遗传公司创始人克雷格·文特尔发明的,大家可能听说过他和官方的人类基因组计划团队打擂台的故事。 在这个方法中,目的基因被打成随机片段进行测序,然后再依据片段之间的重叠区域进行组装。 3 二代测序 二代测序也是要将目的基因打碎成片段,然后大量片段同时平行测序,同时产生成千上万 的序列,因此也称为高通量测序。 基于二代测序技术,针对不同的研究问题和需要也发展出了很多测序方法:基因组测序(genome sequencing),基因组重测序(genome resequencing),转录普(transcriptome profile/RNA-seq),表观基因组特征(epigenome characterization)。 二代测序产生FASTQ文件。 4 三代测序 又称为纳米孔测序(Nanopore sequencing),开发出来的测序方法包括1)标定DNA聚合酶;2)一条链的上的碱基逐一通过纳米孔,读取序列碱基信息。 三代测序的优点就是一次性测得的片段长度较长,解决了二代测序时,复杂重复片段组装不准确的问题。缺点是贵和准确性不确定。

基因测序哪些文章影响因子比较低

全基因组测序项目发表文章档次的三个影响因素随着高通量测序技术的迅速发展及成本的不断降低,物种全基因组测序项目从最初耗时10年并花费几十亿美元的人类基因组计划到现在仅需几个月、花费几百万甚至几十万即可完成。因此,物种全基因组测序项目已成为众多实验室或研究者的首选课题。自2013年3月至今已有三四十个物种的基因组测序成果相继发表,但文章的档次良莠不齐,有的项目同时在Nature杂志上发表两篇文章,而有的项目只发表影响因子为10以内的文章。同样是全基因组测序项目的研究成果,是什么原因导致如此大的差异呢?通过对大量物种基因组测序文章的解析,我们将与大家分享几点心得。首先,组装结果的差异是否直接导致文章发表档次的高低?这通常是研究者开展全基因组项目时比较关注的因素,然而事实并非如此。组装结果是评价一个物种基因组项目结果好坏的重要的指标,如Scaffold N50的长度、基因组的覆盖率等。其中,Scaffold N50是指通过shotgun文库测序的数据及mate pair文库的数据组装后得到的所有Scaffold按照长度从大到小的顺序依次累加,待总和为所有Scaffold总长一半时遇到的那个Scaffold长度。因此,Scaffold N50越长说明组装结果越好。最理想的组装结果是物种有几条染色体就组装得到几个Scaffold,即每个Scaffold都是一条染色体。基因组覆盖率是指组装得到的序列占物种基因组大小的比例,假如一个物种的基因组大小是1Gb,组装得到0.8Gb,则基因组覆盖率为80%。然而,由于物种基因组中重复序列的存在及基因组杂合度的影响,大型真核生物的全基因组测序项目很难达到100%的覆盖率。纵观全基因组测序项目发表的文章,小麦基因组项目连续发表3篇Nature文章,而Scaffold N50只有19Kb及60多Kb;发表在Nature杂志的轮虫基因组Scaffold N50为仅259Kb。然而,发表在Nature Communication杂志的双峰驼基因组Scaffold N50高达2Mb多;发表在GB杂志的中国莲基因组Scaffold N50达3.4Mb。从这些案例中不难看出,组装结果对文章档次的影响并非至关重要的。当文章的其他方面如分析等处于同等水平时,更好的组装结果会使文章锦上添花,然而反之未必亦然。其次,物种基因组的大小是否直接导致文章发表档次的高低?基因组大小为几Gb的小麦基因组、大麦基因组,甚至十几Gb的云杉基因组的发表,可能会给很多研究者造成一种误区,即目前小基因组的文章相对于大的基因组没有竞争力。然而,事实也并非如此。好的文章主要取决于选材的好坏及整个故事的完整性,并非受基因组大小的直接影响。例如,轮虫基因组只有244Mb,由于研究人员通过全基因组测序解析了蛭形轮虫中缺少减数分裂现象的机理并为后续深入研究奠定了基础,这一研究成果发表于Nature杂志。桃子基因组为265Mb,基因组测序成果发表于Nature Genetics杂志;剑尾鱼基因组为669Mb,基因组测序成果发表于Nature Genetics杂志;棕榈基因组为1.8Gb,基因组测序成果近期同时发表两篇Nature文章。第三,研究的物种与其他研究者相同但进度落后,是否无法发表高水平文章?答案当然是否定的。随着物种测序项目越来越多,出现这种情况的几率也越来越大,只要双方的研究思路不同,能够挖掘到有意义的分析角度并很好地阐明问题,物种基因组测序就不再怕重复。例如,2012年先后发表于Nature Genetics(2012.08)及Nature(2012.12)的两篇棉花基因组测序的文章,今年先后发表于Nature(2013.04)及Genome Research(2013.07)的两篇腔棘鱼文章,及今年5月分别发表的挪威云杉和白云杉基因组文章。
 首页 上一页  1 2