微信号:8149027
不接反杀,想去别人群里开挂,开不了不用加。
复制微信号
先前已详细描述了从已发表文献创建GO主要(实验)注释的过程54。其他出版物的新注释以每月约4,000的速度添加,如果根据本体学中捕获的生物学代表性的新实验结果或更新,则对其进行了一些注释,请修改或删除。用来支持实验GO注释的科学出版物在可能的情况下用PubMed Linkout55标记,并可以在https://pubmed.ncbi.nlm.nih.gov/?term=loprovgeneontol%5BSB%5D上检索。PubMed并未索引少数其他出版物。我们的分析使用了GO知识库版本22-03-2022(https://release.geneontology.org/2022-03-22/index.html,https://doi.org/10.5281/zenodo.6399999963)中的本体和注释。有713,330个主要注释,包括对人类基因的147,872个注释,其他生物体中的基因为565,458。对于所有注释计数,我们排除了“蛋白质结合”类的直接注释,因为这些陈述代表观察到的相互作用,但与其他GO注释相同的函数描述并非与其他GO注释56相同,因此不考虑将其包含在pan-go集合中。
我们的方法13在代表这些基因相关的系统发育树的背景下,将所有基因家族成员的实验支持的GO注释汇总在一起,以生成成员现在拥有的函数的进化过程模型。这是一种长期以来,用于重建通常应用于物种28,29,30,31的特征或特征的演变。在这里,我们将类似的方法应用于基因树而不是物种和功能特征,而不是表型特征。但是,建模基因功能特征涉及实验数据稀疏且分布不均的主要额外挑战。根据科学和医学兴趣,已经对基因进行了广泛的研究,并且这种兴趣主要集中在人类和少数模型生物的基因上。为了应对这一挑战,我们还使用了许多其他证据,例如蛋白质结构结构,已知的活跃位点残基,来自UniprotkB/Swiss-Prot知识Base37的自由文本功能描述等。
对于每个基因家族,我们生成了一个进化模型,该模型指定了如何在进化过程中获得或丢失的每个功能特征。具体而言,我们用三种类型的事件来描述功能的演变:根,增益和损失。根部事件被定义为蛋白质家族LCA中存在的GO类。增益事件被定义为整个家庭LCA中不存在(或不能自信地推断出的)的GO类,但后来沿着树的特定分支出现。损失事件被定义为较早出现的GO类(通过根或增益事件),但随后沿着树的特定子分支丢失(即,在某些但不是所有原始根或增益的后代)。
每个根或增益事件必须由至少一个但通常是多个树的后代的直接实验证据来支持。结果,每个事件都是基于首次出现该函数的进化点(树中的根或特定分支)的可追溯实验证据和策展人推断的组合。使用证据和结论本体论(ECO)57证据法规IBD(ECO:0000319“从生物后代推断”)表示表示这种证据,并且所有带有实验证据的基因都存储为元数据以提供可追溯的证据。损失事件阻止GO类是由从增益事件中降下的特定子基础继承的;下面更详细地描述了用于损失事件的证据。
然后,使用基于树中祖先的继承来为每个家庭成员创建针对每个家庭成员的推断注释的进化模型:go类是由根的所有子女或该类别的获得事件继承的,除非沿着树的路径遇到同一阶级的损失。因此,如果家庭只有根本事件,则所有家庭成员将收到相同的GO注释,但是如果树的特定内部分支有任何收益或损失事件,则将获得不同的注释。这些推断的注释包括我们在此处描述的人类基因函数集,可以通过“从生物祖先推断”(IBA)(ECO:0000318)在GO知识库中识别。每个IBA注释还包括以下元数据,以提供可追溯的证据跟踪:(1)遗传注释的树节点的持久标识符(注释增益分支的根节点或终端节点);(2)用于支持根或增益事件的实验数据的来源。
图4中显示了对生产和更新泛滥注释过程的更详细描述。该过程包括为每个家庭的进化模型的手动构造,使用作为输入Panther系统发育树和主要的GO注释。自动化和手动更新都是为了响应用户反馈,本体论中的生物学知识的变化,主要注释的变化以及Panther树拓扑的变化而进行的。更新的Pan-Go基因注释(IBA)是通过这些更新的模型每月生成的。在本节中介绍了导致最终泛基因注释的不同步骤。
基因树是从Panther知识库15获得的。The PAN-GO annotation set presented here was generated using v.15.0 of the knowledgebase, released in 2020. Trees were constructed using the GIGA tree reconstruction algorithm58 for protein-coding genes in 142 organisms that span the tree of life, but the selection of organisms (https://pantherdb.org/panther/speciesTree.jsp) was biased with the aim of重建人类的基因组进化和良好的模型生物。树木与已知的物种树完全调解,所有节点均以事件类型(物种形成,基因重复和水平基因转移)和共同的祖先物种或用于物种淋巴结的进化枝来注释。每棵树都有相关的蛋白质序列比对,用于重建系统发育。蛋白质序列是从Uniprot参考蛋白质组资源37获得的,该蛋白质蛋白质组的每个基因组中每个蛋白质编码基因选择一个规范蛋白序列。
为了实现Pan-Go过程,我们为功能演化模型的手动策划创建了一个特定的软件工具,我们称为Paint13。油漆用户界面提供了系统发育树的集成视图,该图是由本体关系构成的实验GO注释矩阵,该矩阵由Uniprot/Swiss-Prot Records37的功能位点注释的多个序列对齐以及PFAM Resource5的域。它还显示了树木中每个基因的蛋白质产物的简短自由文本描述,蛋白质名称以及在包括Uniprot/Swiss-Prot和模型有机体数据库在内的知识库中的蛋白质名称以及链接。油漆使专家生物疗法科学家能够转化输入信息,这是一棵在树的末端(叶片)节点的实验性GO注释的系统发育树,如上所述。https://wiki.geneontology.org/paint_user_guide详细介绍了蛋白质家族中构建功能演化模型的特定指南,以促进进化模型的一致性和可重复性。策展人还定期开会,以审查每个策展人的样本家庭,以审查并交叉检查进化模型。将进化模型保存到关系数据库中,可以在https://pantree.org上访问和查看。从模型中得出的泛GO注释以基因注释格式出口(GAF)(https://geneontology.org/docs/go-antocs/go-annotation-file-file-gaf-format-2.2/),并沉积在Goswardingbase中。它们也包括在诸如Uniprot-goa59之类的GO注释提供者分发的数据中。这些注释标记了证据代码IBA,并包含元数据,其中包括证据或出处的详细信息,包括其继承其功能(表示为稳定的Panther Tree Tree node标识符)和提供原始实验证据的基因。github可以找到油漆工具的源代码 (https://github.com/pantherdb/db-paint)。
Pan-Go策展过程的第一步包括对系统发育树的结构的分析,以收集有关家族进化的线索。仔细考虑了物种,重复和水平转移事件。物种事件定义了家庭的年龄和不同进化枝中相关基因的分类分布。此信息有助于根据已知在树或子树中存在的物种中已知的功能来指导GO类的选择。由于重建古代功能的不确定性,更古老的祖先(通常导致物种分布)可能会导致更保守的注释。该树还可以提供其他重要线索来识别功能演化事件。随着这些事件通常会导致功能的增益和/或损失,对重复事件进行了仔细检查。水平基因转移,包括一些真核线粒体或质体基因,其起源于祖先原核生物内共生体中,也经过了仔细的评估,因为转移后传递的基因的功能特征可能已经修改。
由于活生物体的多样性多样性,因此无法覆盖所有具有分类单元中和本体的物种,并且在GO本体论的许多分支中都有固有的分类单元特异性。一个标志性的例子是细胞成分“线粒体”,它特定于真核生物。分类单元约束的显式形式化60用于避免分类单元不适当的注释。油漆策划工具突出显示了构建进化模型时分类单元约束和注释之间的任何矛盾。
对所有可用实验数据的分析能够选择基因家族进化模型中最相关的类别。一个必要的指标是MF,BP和CC类的一致性与树木中代表的物种的各种成员相关。如果相关基因的进化枝中的注释是一致的,则它们可能都从其LCA遗传了功能的那些方面,这表明这些功能在LCA之前演变。如果它们不一致,策展人将试图识别一致的子级别的子级别,这些子级进化了不同的功能,或者获得或丢失了功能。评估在本体结构中没有明确相关的GO类之间的一致性是具有挑战性的,并且通常需要策展人的深层生物学知识。为了确定哪个类别适合与蛋白质家族的成员相关联,Pan-Go策展人使用其他资源:他们可以通过油漆工具提供的直接链接来查看模型有机数据库或uniprotkb/swiss-prot(https://www.uniprot.org)的内容。策展人通常会评估其他参考文献以确认或使某些数据无效。最后,特定预测的位点和域的存在(活动位点,跨膜区域或蛋白质结构域)可能会为沿树上的特定分支而发展的特定功能提供更多支持。
原则上,对于每个GO类,泛滥的策展可能导致树中的进化根或增益事件,而从实验证据中注释给至少一个家庭成员。但是,实际上,这些GO类之间通常存在相当大的冗余和重叠,并且并非所有术语实际上都代表了不同的功能特征。因此,Pan-Go策展过程是选择性的。我们提供了下面的一些示例。为了提供对选择性的定量估计,我们为每个家庭计算了非冗余函数类的数量(即,在本体学中更通用类别的注释不包括策展人的较大类别);这些都是家族进化模型中可以使用的所有类别。然后,我们计算了本体学各个方面的进化模型中实际使用的类数。扩展数据表2显示了所有家庭的这些值的平均值。在系统发育策划过程中,平均只有24%,28%和13%的实验注释的MF,CC和BP GO类别以扎根或获得事件。通常,这种高选择性是由于该过程的综合方面造成的:所有家庭成员的所有实验GO注释都是整体上的。相比之下,实验GO注释旨在从单个出版物中报告的实验中捕获特定发现。结果,Pan-Go策展人可以在实验注释之间选择最有用的GO类,并认识到何时不同的实验注释可能与同一基础函数有关。通常,与功能相关的术语在本体论中也有相关(油漆工具组均与等级相关的术语以促进选择过程)。然后,策展人可以将这种明显的功能差异与家庭成员之间的实际功能差异区分开。扩展数据表2表明,与GO本体的其他方面相比,泛滥的策展过程可导致选择相对较小的GO生物过程类别的比例。这部分是由于本体论的生物过程分支的复杂性(大约30,000个类,而对于MF和CC,每个班级<10,000个),部分是由于参与过程与其他方面的严格标准较少。许多排除的类别是相关的,但内容较少,但内容较少,或者是基因的主要功能的下游效应,例如外周函数或表型和表型和读数,这些函数代表了基因功能的后果,但对功能本身的描述不准确。
BP类选择的一个示例在扩展数据中显示了图5a:各种白介素的产生和下游目标的转录是“细胞质模式识别受体信号通路”的观察值(实验读数)。相同基础函数的主要注释经常使用相关但不完全相同的GO类:主要注释在时空和时间上都分布,并且每个物种通常都由其他策展人处理。事实是,某些功能特征(GO术语)在几种物种中很重要,但对于纳入进化模型来说太具体了。此外,绘制主要注释的文章的作者使用了广泛不同的术语。仅由大规模实验的数据(最通常是细胞定位)支持的主要GO注释,或与所有其他可用于家庭数据的其他数据不一致的注释都被搁置,直到其他注释得到强有力的支持为止。
在许多情况下,父母和子阶层(表明较少具体的功能特征表示)都用于整个家庭的主要注释,但是在泛型过程中仅选择了最相关的注释(扩展数据图5B):“ GO术语”“对病毒对病毒的先天免疫反应的调节”和“对病毒的细胞反应”的概念更为普遍的概念,而概念是“抗病性的”,而不是本质上的一般性。对家庭及其主要注释的综合分析使Pan-Go策展人能够选择最合适的类(或类)在进化模型中包括。
就像在“三个盲人和大象”寓言中一样,描述个别实验性观察的主要注释通常是正确的,但有时只能说明故事的一部分。Pan-Go策划的目的是尽可能提供更集成的图片,同时仍提供全面的GO功能注释。
功能丧失基于特定类型的证据。在某些情况下,可用的负主GO注释(由非限定词指示),在这种情况下,损失事件(例如根和增益事件)使用IBD证据代码。在其他情况下,当已知重要的残基或域是该功能所需的时,多个序列比对可以揭示某些分支中的这些重要特征,并提供了功能丧失的证据。这些用“从已知残留物中推断出”(IKR)(ECO:0000320)的证据代码表示。对于某些家族的文献中,由于特定氨基酸(例如活性位点残基)的突变而引起的功能丧失(例如,PTHR24418,非受体蛋白激酶家族)。对于具有相对良好的基因的家庭,通常可以推断出缺乏佐证的GO注释表明该功能已经丢失。在这些情况下,策展人检查Uniprotkb/瑞士 - 普罗特知识库以及文献以提高这种推论的信心。在较少良好的家庭(即,实验性GO注释稀少)中,策展人可能会决定引入损失(尤其是基因复制后),以避免假阳性注释。这些事件用“从快速差异”(IRD)(ECO:0000321)证据代码表示表示。此步骤的主要目的是在泛滥的推理过程中保持保守,以确保产生的注释集的高质量。应当指出的是,标记为IBD或IKR的损失事件会导致否定GO注释(表明基因没有给定的功能特征),并且这些注释在GO知识库中可用。但是,为了清楚起见,我们在https://functionome.geneontology.org上可用的一组人类基因函数中不包含阴性注释,而这些仅出现在进化模型中。
目前有994个人类基因,这些基因主要是在豹家族中,而这些主要编码短蛋白,其中许多蛋白质没有表现出明显的进化保护。这些基因中只有114个具有主要注释。对于这些基因的61个,我们能够选择信息丰富的原始注释,并将其包括在人类基因函数的泛术中。
随着GO本体论和主要基因注释不断响应新的实验数据和解释,不断扩大和修订,泛型过程包括在每个新的GO Inswarecnellbase版本(大约每月)或每个New Panther版本(每年)(每年)的自动更新和发布步骤。此外,通过GO策展人的反馈和更广泛的GO用户社区所确定的问题导致对祖先注释(或者不那么常见的是树木)的手动审查。Pan-Go项目已开发了一个广泛的软件套件,以支持这些更新和改进。
每个新的GO知识库发布后,每月自动更新步骤都会处理任何必需的动作,这是由于本体学类别(术语)或实验性GO注释的变化,这些动作被用作进化模型中功能进化事件的证据。这些动作包括过时和合并类的更新,以及不再由实验数据或失败分类单元限制支持的任何注释。
还根据新实验数据的可用性和随后的主要GO注释进行了进化模型,因为新类和新注释不能自动集成,而是通过对实验证据进行的手动分析。例如,在对与转录相关的本体的完整审查期间,创建了“组蛋白伴侣活动”类,并修改了主要注释。该新类用于更新适用的Panther家族的进化模型,例如PTHR21315或PTHR12040。
基于Uniprot参考蛋白质组的蛋白质序列数据的年度发布,并寻求直系同源物工作61。Pan-Go进化模型直接指稳定的树节标识符。也就是说,每个增益和损失事件都与事件发生的分支的终端节点的标识符相关联。随着可能的情况下,由于树节标识符会在豹版本之间保留,因此这些分支的泛进注释保留在较新版本的黑豹树中。但是,树木重建算法的改进和增加的物种有时会导致家庭结构的修改:有些家庭可以分为几个较小的家庭,也可以合并为一个较大的家庭。因此,有些分支可以从一个家庭转移到另一个家庭或丢失。当这种情况发生在泛滥进化模型中注释的分支时,将“要求审查”通知添加到受影响的家庭中,策展人在必要时审查和修改进化模型。
来自多个模型生物数据库的专家的广泛反馈允许将额外的质量控制层添加到Pan-Go进化模型中。通过GitHub(https://github.com/geneontology/go-annotation/labels/paint%20annotation)的GO注释问题跟踪器来处理反馈。The two largest contributors of feedback tickets have been PomBase, the scientific resource for Schizosaccharomyces pombe (fission yeast) (https://www.pombase.org/)62, with nearly 600 update requests, and FlyBase, the scientific resource for Drosophila melanogaster (fruit fly) (https://flybase.org/)63, with over 200 update要求,在7年内。果蝇物种的基因组包含许多或多或少古老的重复事件的痕迹,这也使人们能够更好地了解整个系统发育树中这些事件,并有助于改善我们的功能增益或丧失的进化模型64。GO财团中的其他资源,包括模型生物数据库和Uniprotkb,也有助于验证注释(总计100个更新请求)。
可以在https://functionome.geneontology.org/download/functionome_release.gaf.gz.gz上下载用于此处介绍的分析的PAN-GO注释。
没有绝对的真理来源能够评估GO注释的正确性。为了解决这个问题,以前已提出了一种称为“可靠性”的替代措施,可以为GO注释进行计算。38。该措施利用了随着时间的推移添加和删除GO注释的事实,并且可以在不同的时间点进行比较以计算旧注释的可靠性。具体而言,如果后来将实验注释添加到GO知识库中,该注释比较旧的注释相同或更具体的术语,则认为较旧的注释被认为是确认的。相反,如果以后将实验注释添加到使用非预选程序的GO知识库中(表明已经证明基因没有该功能特征),并且比较旧的注释相同或更具体,则认为较旧的注释被认为被拒绝。因为在GO知识库中不是很少见的注释,所以拒绝注释的数量在实践中很少,从而导致可靠性膨胀。先前的研究38提出可以计算另一种特性,即后来删除的旧注释的数量,该假设后来被认为是不正确的。然后,他们将可靠性定义为:
如果nconfired确认的是,注释集的较旧版本(在时间点T0上)中存在的GO注释数量,后来在时间点T1之前得到了确认,则NEREDED是在时间T0上拒绝的GO注释的数量,该数量在时间点T0和T1之间被拒绝,并且NREMEVER之间被删除了时间T0和T1之间的数量。
使用此方法,我们计算了泛GO注释的可靠性。我们首先使用每次注释的日期邮票在2019年10月至2022年3月之间从GO知识库中收集了所有主要注释。然后,我们将它们与2019年10月GO知识库发行中的泛滥注释进行了比较。该比较包括11,102个新的主要注释和21,145个pan-go注释,适用于同一4,007个人类基因。如果来自新的主要注释的GO类与泛GO注释相同或更具体,则被认为可以确认pan-go注释。根据此定义,确认了1,608个基因的2,354个泛pan pan批评。扩展数据表3显示了通过证据代码确认主要注释的细分;其中大多数来自对特定基因产物(IDA)的直接测定,只有29个来自高通量研究(HDA)。
在新的实验注释中,有54个阴性(不是预选符)注释,其中只有三个不同意泛滥注释。After reviewing these three negative annotations, we found that one was specific to one protein isoform but not the canonical protein encoded by the gene (so the PAN-GO annotation is correct), and the remaining two were to the same transporter gene and refer to zinc as a substrate (SLC30A10 NOT ‘zinc ion transmembrane transporter activity’, and SLC30A10 NOT ‘intracellular zinc ion稳态’)。但是,其他论文(支持其他主要的GO注释)已经证明了SLC30A10的这些功能,因此确认了泛术注释。结果,有0个负面的GO注释可以被认为拒绝泛滥注释。我们认识到54个阴性注释是一个小样本,这将低估实际的泛错误率。遵循先前描述的方法38,我们还检查了我们2019年10月发行的泛滥注释,但后来删除了。我们发现已删除了4,809次泛滥注释,但是在大多数情况下,由于使用了另一种更有信息的泛滥注释(注释集的微调),因此删除了注释,而不是由于错误。为了估计错误率,我们审查了500个删除注释的随机样本,并将每个样本分类为正确但不符合泛型选择标准(对建模的选定注释进行微调),不正确(在实验性注释的进化模型中的选择中,实际上是不正确的)或不确定的(在植物学中证明的,但可能会出现在植物学中,但可能是对人类的概念性概念的。我们发现7(1.4%)不正确,而20个(4%)尚不确定。假设这些百分比大约在整个删除的注释中占据,我们估计67(因为它们不正确,被删除,4,809×1.4%)和260 (由于错误而被删除,因为它们要么不正确或不确定,因此删除了4,809×5.4%)由于错误而被删除。这将给出泛GO注释的可靠性(公式(1))在90%(260/(2,354+260))和97%(67/(2,354+67))之间。
在Carnitine O-酰基转移酶家族(PTHR22589)中发现了一个明显不正确的泛滥注释的一个例子。与CPT1A和CPT1B旁系同源物相比,线粒体中没有“ Carnitine O-Palmitoyltransferase酶活性”,但在内质网中位于内质网中,它显示出“棕榈酰基(蛋白质)水解酶活性” 65,66。通过古老的重复事件,这种功能保护的不正确推断,因此在进化建模中存在错误,是我们在审查过程中发现的最常见的错误之一。当发现此类错误时,更新了Pan-Go进化模型以纠正错误。
泛GO注释的重要微调的相对频繁的情况与BP的GO术语和相应的GO术语之间的细微差异有关,以调节该过程。通常,通常基于遗传操纵(例如缺失)的效果,使用调节术语来得出的主要注释。但是,其他实验可能表明所讨论的蛋白质直接参与了过程(导致对过程本身而不是其调节的注释)。更新了几个泛滥注释(我们的500个样本中的5个),以始终反映出特定bp的参与,而不是调节。其他常见的更新是由于酶复合物的主要注释中的不一致所引起的“复杂组件”(在我们的500个随机样本中10中的10),我们认为这是微调的,因为即使没有高度信息,它们也是正确的。
为了促进泛滥注释的浏览,为了可视化图3中人类基因功能的景观,我们将每个注释映射到一组所选的,相对较高的GO类别。广泛的功能类别取自通用GO子集,该类别可在https://release.geneontology.org/2022-07-01/ontology/sobsets/subsets/goslim_generic.obo上获得。请注意,这些是注释的类别,而不是基因,因此注释到多个不同GO术语的基因可能会出现在多个类别中。还请注意,其中一些广泛类别是其他类别的子类别。在这种情况下,仅将基因分配给更具体的子类别,而不是更通用的类别,以最大程度地减少类别之间的重叠,从而促进可视化和浏览。
我们开发了一种简单的基于Web的工具,用于探索人类基因功能集,包括与所有实验证据和系统发育树的链接。它是使用Elasticsearch实施的,可在https://functionome.geneontology.org/上找到。代码可从GitHub(https://github.com/pantherdb/pango)获得。
主要的GO注释(由已发表的实验证据支持)用于所有泛滥注释。我们为每个模型生物体详细介绍了这些证据(扩展数据表1)。第2列报告了由一个或多个出版物支持的泛GO注释数量,该出版物具有该生物体中基因功能的实验证据。从人类基因实验获得的证据分为两行:一个是给定基因的直接证据,一个是有关相关(副词)人类基因的证据。第3列报告了仅由同源基因的实验证据支持的泛GO注释数(也就是说,它不包括任何具有直接实验性证据的人类基因的pan-go注释)。这些注释是从其他人类旁系同源物或非人类同源物中推断出来的,但尚未通过实验证实。第4列计算仅基于非人类实验数据的Pan-Go注释。第5列计算仅基于仅来自一个物种的证据的泛滥注释。第6列计算每个生物体中的所有实验注释,这些注释可能被用作人类泛滥注释的文献证据。
对于每个泛术注释,我们检索了进化树的分支,该分支被建模为获得该功能特征,代表该特征首先演变为人类基因的祖先。由于系统发育方法在现有物种的LCA方面定义了祖先,因此我们的进化模型指定了这些LCA中的两个之间的间隔,在此期间,功能特征进化。这些LCA中的每个LCA的近似日期都已确定67,因此我们可以将LCA间隔转换为时间间隔。例如,如果现在在人类基因中发现的基因功能特征首次出现在来自真核病和古细菌LCA(大约42.5亿年前)到达植物和动物的LCA(真实动物的LCA(大约15.98亿年前),大约15.98亿年前),那么至少在4,250亿年前就经历了1,598亿年前的企业,并在1,598亿年前进化,并以前是59.8亿年前的发展。16亿年一直到现代人类。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。
本文来自作者[yjmlxc]投稿,不代表颐居号立场,如若转载,请注明出处:https://yjmlxc.cn/life/202506-5517.html
评论列表(3条)
我是颐居号的签约作者“yjmlxc”
本文概览: 先前已详细描述了从已发表文献创建GO主要(实验)注释的过程54。其他出版物的新注释以每月约4,000的速度添加,如果根据本体学中捕获的生物学代表性的新实验结果或更新,则对其...
文章不错《从进化建模得出的人类基因函数的纲要》内容很有帮助