人类基因组序列变异图,其中包含142万个单核苷酸多态性

微信号:8149027
不接反杀,想去别人群里开挂,开不了不用加。
复制微信号
  通过检测对齐序列的高信心基础差异来鉴定候选SNP。对于TSC,对序列读数进行过滤,以排除低质量读数和主要已知重复序列的读数。序列使用还原的表示弹枪(RRS)方法和基因组比对(GA)彼此对齐,如上所述。对于GA的TSC数据,将读取与GenBank的可用大插入克隆(完成和具有可用phrap质量得分的草稿)进行了比较。为了分析克隆重叠,对所有可用的成品和未完成的基因组序列登录都对齐。使用两种方法检测SNP。NQS依赖于SNP底座周围的序列痕量质量来增加基本置信度18,22;使用NQ发现的大多数数据是使用SSAHASNP(基于超快的,基于哈希的算法实现)处理的(Z.N.,A。Cox和J.C.M,手稿中的手稿)。第二种方法基于贝叶斯分析的置信分数计算置信度24。多种方法用于在表达的序列标签(EST)重叠中找到SNP 24,25,27和用于靶向重新方程。剩余SNP的详细信息可以在单个DBSNP条目(http://www.ncbi.nlm.nih.gov/snp/)中找到。   Megablast44用于将TSC SNP侧翼序列与基因组序列登录结合。如果在不少于270 bp的可用侧翼序列上发现了高质量的匹配(99%的身份或更高),则考虑使用SNP。匹配超过三个配置> 98%的SNP被认为是可能的重复区域,并留出了。使用D. Haussler提供的AGP格式文件(http://genome.ucsc.edu),相对于基因组组件的OO18构建(2000年9月5日)和OO15构建(2000年7月15日)生成了SNP坐标。   使用NCBI SPIDEY比对工具将NCBI RefSEQ mRNA转录物31与基因组组装对齐。MRNA和基因组序列之间需要比对> 97%的序列相似性;通过考虑捐助者/受体站点来完善对齐。在GenBank记录中可用CD的注释的情况下,将CD的外显子在mRNA比对的范围内对齐。使用ReponMasker直接注释已知的人重复的区域(A. Smit,未发表)。   为了表征核苷酸多样性,我们需要一个数据集,其中可以分析所有数据的高质量基础数量符合SNP检测质量标准的数量以及SNP的数量。为了确保分析的同质性,我们对来自桑格中心,圣路易斯华盛顿大学和怀特黑德基因组研究中心的450万个高质量TSC读物进行了单一分析。这些读取的GC含量为41%,与整个基因组相同,并且跨基因组分解数(按GC含量排序)的读取GC含量分布在所有垃圾箱的预期值的10%以内。读取覆盖范围分布良好:88%的连续200,000 bp窗口包含10,000多个对齐基础(5%)的SNP(见下文)。使用单个分析工具(SSAHASNP,NQS; Z.N.,A。Cox和J.C.M的实现),这些读取与可用的基因组序列(具有质量得分的完成和草稿)以及高质量基础(Meeting NQS)和SNP计数的数量对齐。我们将分析限制在基因组比对发现的SNP中,以使每个比较的簇深度恰好是两个染色体。我们通过计算符合NQ的职位数量来精确地测量了SNP发现的目标大小。这是理想的选择,因为对齐含有高质量和低质量的位置,但是只有符合NQ的人才是SNP发现的候选人。如果单个TSC读取与HGP的多个(重叠)BAC对齐的单个TSC,我们将SNP的数量和对齐BP的数量平均为所有读取的所有成对对齐。这些均匀的读取映射到单个BAC,并与重叠区域保持一致。使用经过验证的标准18,22排除代表重复基因座的读数:如果它们与99%相同,则将其与基因组的读数比对被排除在外。然后将基因组分为200,000 bp的连续垃圾箱(基于染色体搭配坐标)。对重复进行过滤单个读数:与基因组组装中多个垃圾箱保持一致的任何读数都被拒绝。最后,计算了与NQ相遇的杂合位置和基地。作为包含高比例重复序列的区域的最终过滤器,我们拒绝了任何bin,其中10%以上的读取映射到该箱也映射到另一个染色体。最后,为了避免由于采样不足而导致的统计波动,我们仅检查了88%的垃圾箱,其中至少10,000个对齐碱基符合NQ,因此可以检查SNP的SNP。   通过模拟38进行合并建模,并假设根据其GC含量(图2C)和长度,对每种读取的恒定种群和每个读取的突变率进行了调整。为了评估围绕此估计值的标准偏差,重复了100次模拟。对于观察到的数据,由于紧密链接的位点的基因历史相关,计算CV周围的标准偏差很难。预期的是,这种相关性不应改变观察到的变异系数的平均值,而应影响其方差。为了估算观察到的数据周围的简历周围的差异,我们选择了100个还原数据集,每个数据集包含一个从常染色体沿每个200,000 bp bin的随机读取。在使用这种方法时,我们假设这些读数分开了200,000 bp并从无关的个体中取样,具有独立的家谱。重复该随机抽样程序100次,以估计观察到的CV的平均值和方差。   杂合性分析的数据,包括每个垃圾箱的坐标,所检查的碱数和已识别的SNP的数量,可作为补充信息获得。

本文来自作者[yjmlxc]投稿,不代表颐居号立场,如若转载,请注明出处:https://yjmlxc.cn/jyan/202506-4261.html

(10)
yjmlxc的头像yjmlxc签约作者

文章推荐

发表回复

作者才能评论

评论列表(3条)

  • yjmlxc的头像
    yjmlxc 2025年06月18日

    我是颐居号的签约作者“yjmlxc”

  • yjmlxc
    yjmlxc 2025年06月18日

    本文概览:  通过检测对齐序列的高信心基础差异来鉴定候选SNP。对于TSC,对序列读数进行过滤,以排除低质量读数和主要已知重复序列的读数。序列使用还原的表示弹枪(RRS)方法和基因组比对...

  • yjmlxc
    用户061805 2025年06月18日

    文章不错《人类基因组序列变异图,其中包含142万个单核苷酸多态性》内容很有帮助