基因组剖析简介之K-mer剖析
分类:ca88 热度:

  在对某物种停止全基因组测序时,若该物种没有已知的参考基因组信息(或许说该物种第一次被测序),那么我们若想具体得知该物种的基因组特点,就必须起首对测序序列停止拼接组装(基因组De novo),终究掉掉落该物种的全基因组图谱后才可停止更精细的剖析,如基因结构猜测及功用注释等。

  固然说当今的测序成本也在逐年降低,全基因组测序的价格也愈来愈轻易被广阔试验室所接受,随同着愈来愈多物种的全基因组图谱被宣布。然则关于初等真核生物(特别是初等植物)来讲,它们的基因组通俗比拟复杂,平日随同着较高的杂合度或许重复序列等,停止基因组De novo也并不是一件轻易的工作。特别是停止高精细基因组图谱的构建时,只基于惯例DNA文库的二代测序基本没法满足需求,还需联合三代测序、BioNano、Hi-C数据等才可取得高质量的基因组。相对而言,这时候的测序成本也会是相昔时夜的一笔开支,需求慎重看待。因此在对初等真核生物停止全基因组De novo之前,我们需求想法提早获知该物种基因组特点的一些信息,为后续的测序计划、基因组组装计划、基因组结构注释等供给参考依据。

  这类状况下,我们通俗会在基因组大年夜范围测序或许正式组装之前,起首构建DNA小片段文库停止中低深度的二代测序,应用PE文库测序所得的reads信息停止基因组Survey剖析以初步评价基因组特点,这是很主要的一步(除非你们试验室很土豪不在乎,直接上三代测序,便可以当我没说了......)。基因组Survey剖析的中间内容即为k-mer剖析,应用k-mer剖析可直接在相对较小数据量的二代测序reads水平上(直接应用原始测序reads数据,无需组装拼接),对该物种基因组大年夜小、GC含量、杂合度高低和重复序列比例等停止评价。

  基因组二代测序中,起首对原始下机数据Raw reads停止过滤质控,掉掉落Clean reads;以后再停止一系列的reads去Duplication和纠错环节,以去除PCR扩增中带来的重复reads和测序毛病所引入的毛病碱基后,这时候的测序reads数据便可停止k-mer剖析了。

  那么,甚么是k-mer剖析?经过基因组二代测序的k-mer剖析,我们可以取得哪些有效的信息呢?

  作甚K-mer

  这里起首需求知道一个专有名词的概念,mer,其在分子生物学范围中意义为单体单位 (monomeric unit,mer)。平日用于核酸序列中的单位,代表nt或许bp,例如,100 mer DNA代表这段DNA序列单链长度100nt,或许双链长度100bp。

  而k-mer则是指将核酸序列分红包罗k个碱基的字符串,即从一段延续的核酸序列中迭代地拔取长度为K个碱基的序列,若核酸序列长度为L,k-mer长度为K,那么可以掉掉落L-K+1个k-mers。以下图所示,假定这里存在某序列长度为21,设定拔取的k-mer长度为7,则掉掉落(21-7+1=15)个7-mers。

上一篇:(终稿)甘肃阳山金矿新建项目可行性建议书. 下一篇:没有了
猜你喜欢
各种观点
热门排行
精彩图文
  • 基因组剖析简介之K-mer剖析
    基因组剖析简介之K-mer剖析
    在对某物种停止全基因组测序时,若该物种没有已知的参考基因组信息(或许说该物种第一次被测序),那么我们若想具体得知该物种的基因组特点,就必
  • (终稿)甘肃阳山金矿新建项目可行性建议书.
    (终稿)甘肃阳山金矿新建项目可行性建议书.
    1、甘肃林业职业技巧学院“十一五”开展计划》(甘 林院发号) 6、总投资及构成 甘肃林业职业万元,师资部队建立万元,专业公共效劳 平台建立万元,
  • 到明天的局面下
    到明天的局面下
    原题目:到明天的局面下 这也是我国少数平易近族题材影片在国际影坛上取得的少有的佳绩我们就提出‘影、视、录一体化’,分享到大年夜约 1 小时Visu
  • 公司网站域名icp立案若何恳求
    公司网站域名icp立案若何恳求
    近年国际的互联网行业提速十分的快,同时国际域名的注册持有量也在大年夜幅的上升,然则在上升的同时,也存在着一些平安隐患。而工信部关于域名的
  • 举例说明你对六书的看法
    举例说明你对六书的看法
    前人其实不是先有六书才造汉字。因为汉字在商朝时,曾经开展得相当有系统,那时还未有关于六书的记录。六书是后来的人把汉字剖析而归结出来的系统