微信号:8149027
不接反杀,想去别人群里开挂,开不了不用加。
复制微信号
使用Olink Explore 3072作为UKB-PPP的一部分(UK Biobank申请编号65851),使用Olink Explore 3072测量了从54,265名UKB参与者收集的血浆样品。所有参与者均提供知情同意。大部分样品都是在英国生物库中随机选择的,只有这些样本用于此处提供的分析。许多使用UKB Data56的GWASS基于规定的409,559名参与者的规定的欧洲血统子集,他们自称为“白人英国” 57。为了更好地利用更广泛的UKB参与者的价值,我们根据自我描述的种族和受监督的祖先推断的微阵列基因型的遗传聚类,涵盖了450,690个人,其中包括431,805个人,与英国或爱尔兰人(UKB-BI)(UKB-BI,46,218),OLINK,46,218Accesties(UKB-AF,1,513个具有Olink数据的)和9,252个有南亚祖先(UKB-SA,953的人,带有Olink Data)。
根据蛋白质水平对性别的个体预测以及基因型的蛋白质水平,鉴定了可能错误地标记的样品。UKB-PPP数据中排除了整个板或单个行或样品列(被确定为多数标签)的样品。从扩展的测定集中,这导致排除13个整板和5行或样品列的总共1,179个样本。从1536种测定中,总共404个样本中排除了四个整个板和7行或样品列的排除。此外,在1536年的测定中,一个面板被排除在两个板上,影响174个样品。
我们使用Somascan V4(参考文献2)测量了35,892冰岛的血浆蛋白水平。所有捐赠样本的参与者均给予了知情同意,冰岛国家生物伦理委员会批准了这项研究,该研究与冰岛数据保护局颁发的条件一致(VSN_14-015)。参与者的数据和生物样本的个人身份是由数据保护局批准和监视的第三方系统(身份保护系统)加密的。此外,我们使用相同的等离子体样品通过Olink探索3072平台测量了1,514个冰岛人。
我们使用了1,474和227个样品的其他重复测量,以评估Olink Explore(UKB套件)和Somascan(冰岛36K)平台的测定精度。对于测量超过两次的样品,随机选择了两个测量值。
URLs for external data used are as follows: the GWAS catalogue (https://www.ebi.ac.uk/gwas/), the GTEx project (https://gtexportal.org/home/), the Human Protein Atlas (https://www.proteinatlas.org/), STRING database(https://string-db.org/;文件名:9606.protein.actions.v11.txt.gz)和uniprot(https://www.uniprot.org/)。
我们与上述算法一起使用了以下公开可用的软件。BAMQC(V1.0.0,https://github.com/decodegenetics/bamqc),graphTyper(v2.7.1,v1.4,v1.4,v2.7.2,https://github.com/decodegenetics/graphtyper),gs:// genomics-public-data/resources/broad/hg38/v0),svimmer(v0.1,https://github.com.com/decodegenetetet/svimmer),popstr(v2.0,v2.0,https://github.com/decodegenetics/popopstrics/popopstr)https://dalexander.github.io/admixture),dipcall(v0.1,https://github.com/lh3/dipcall),rtg工具(v3.8.4,v3.8.4,https://github.com/github.com/realaltimegenomics/rtg-tools/rtg-tools ),https://support.illumina.com/sequencing/sequencing_software/bcl2fastq-conversion-software.html),samtools(v1.9,v1.3,v1.3,https://github.com/github.com/samtools/samtools/samtools),samblaster(samblaster)https://github.com/gregoryfaust/samblaster),bwa(v0.7.10 mem,https://github.com/lh3/bwa),genomeanalysistklite(v2.3.9https://broadinstitute.github.io/picard), Bedtools (v2.25.0-76-g5e7c696z, https://github.com/arq5x/bedtools2), Variant Effect Predictor (release 100, https://github.com/Ensembl/ensembl-vep), BOLT-LMM (v2.1,https://data.broadinstitute.org/alkesgroup/bolt-lmm/downloads),Impute2(v2.3.1,https://mathgen.stats.ax.ac.ac.ac.uk/impute/imptute/imptute_v2.html)宾果游戏(v3.0.3,https://www.psb.ugent.be/cbd/papers/papers/bingo/download.html),cytoscape(v3.7.1,https://cytoscape.org/download.html)https://github.com/chr1swallace/coloc)。基因组学和PQTL处理管道已在先前已广泛描述2,12。为了处理Olink平台上生成的数据,我们使用了Olink Explore(v1.9.0,https://www.olink.com/products-services/data-analysis-products/npx-explore/)。分析了数据,并使用Python(版本3.9.1)生成数字,以及包装(版本1.20.3),Scipy(版本1.7.1),Matplotlib(版本3.4.3), 和Pandas(版本1.3.0)和R(版本3.6.0)。
Olink Explore 3072接近扩展测定(PEA)平台基于两个多克隆抗体库与靶蛋白的结合,并随后杂交并富集了两个独特的单链DNA探针,以创建抗原58唯一的双链条代码。该平台由2,941个靶向2,925种蛋白质的免疫测定组成。每个测定基于一对多克隆抗体。抗体与靶蛋白上的不同位点结合,并用单链互补寡核苷酸标记。如果匹配的抗体对与蛋白质结合,则附着的寡核苷酸杂交,然后使用下一代测序59,60进行测量。Olink Explore 3072由8个通过下一代测序分析的384个测定面板组成。这些面板中有四个构成了平台的先前迭代,Olink Explore 1536,可以将其视为Olink Explore 3072的子集,以及扩展集。Olink测量基于制造商建议的NPX值,其中包括标准化58。
在瑞典Uppsala的Olink设施中测量了UKB等离子体样品。在交付之前,所有样品均由英国生物银行实验室团队随机分配和镀板。在三个Novaseq 6000测序系统中处理样品。在Olink的设施上进行了广泛的质量控制测量和蛋白质浓度的归一化,每个参与者为每种蛋白质产生NPX值。NPX是Olink在Log2量表上的相对蛋白质定量单元。
根据Olink Explore Manual61,在Decode的设施上进行了冰岛等离子体样品的奥林克测量值。质量控制措施与Olink用于英国生物库样品使用的质量措施相同。
Somascan平台利用蛋白质与通用聚苯二元竞争者一起的表面结合,以防止短暂的非特异性相互作用62。Somascan V4由4,907种基于适体的测定法组成,旨在4,719种蛋白质。适体是与蛋白质靶标结合的短而单链的寡核苷酸。然后使用DNA微阵列技术对结合的适体进行定量62,63。在大多数使用SOMASCAN进行的研究中,标准化过程的最后一步都将每个个体的中位蛋白水平调整为参考5,64。由于这可能会影响蛋白质水平与其他因素的相关性,因此一些研究忽略了这一步骤2。我们将以前的数据称为归一化,后者是非归一化的。除了像以前的2一样使用非归一化的somascan蛋白测量值,我们还应用了somalogic的SMP归一化64,并使用非归一化和归一化数据进行了所有分析。可以在补充注释4中找到两种归一化方法的比较。
我们将特定测定法的结果称为蛋白质水平,并指出该测定法实际上可能无法测量靶蛋白。
Olink和Somascan都使用血浆样品的稀释液补偿质量13,59,62中不同浓度的蛋白质。对于两个平台靶向的蛋白质集,这两个平台通常都一致地将蛋白质放置在低,中间或高稀释组中(补充表1、2和7)。
使用Illumina Technology12将150,119名UKB参与者的整个基因组测序为32.5倍。使用GraphTyper65进行序列变体调用。此外,所有UKB参与者都是用Affymetrix SNP芯片66,67的单核苷酸多态性(SNP)。过滤后,Bycroft等人的序列变体以及阶段的SNP芯片数据被用于创建单倍型参考面板。然后,使用先前描述的工具和方法将序列变体归纳为芯片生成的样品。68,69。以前已经在更大的详细信息中描述了UKB数据集的基因分型和归因。我们将分析限制为MAF> 0.01%和插入信息> 0.9的变体,导致UKB-BI的5770万个变体,UKB-SA的3650万个变体和UKB-AF数据集的6860万个变体。
使用Illumina Technology68将63,118个冰岛人的全基因组测序为32倍。使用GraphTyper65调用序列变体。此外,将样品用Illumina SNP芯片和远距离分阶段进行SNP基因分型,并且数据用于估算基因型。总共将173,025名冰岛人基于SNP基因分型,远程分阶段并根据测序数据集进行估算。如果缺少用于关联研究的个体的基因型,则应使用家谱信息推断出它们。插补学习集基于15%的冰岛人的全基因组测序,这允许罕见的插补。冰岛数据集上的基因分型和归因于先前的详细信息50。我们将分析限制为MAF> 0.01%的变体,插入信息> 0.9,导致3350万个变体。Other software tools used for various tasks in the genotyping pipeline were BamQC, GATK resource bundle, Svimmer, popSTR, Admixture, Dipcall, RTG Tools, bcl2fastq, Samtools, samblaster, BWA, GenomeAnalysisTKLite, Picard tools, Bedtools, Variant Effect Predictor, IMPUTE2, dbSNP, BiNGO and Cytoscape.
在UKB中,我们使用医疗保健记录根据相应的ICD10代码的前三个字母来确定疾病或疾病类别的诊断,无论是先验还是等离子体后的诊断。当诊断的个体数量超过50时,我们估计蛋白质水平与疾病诊断的关联。这分别为UKB-BI,UKB-AF和UKB-SA的324、29和20个病例对照表型。此外,我们在UKB-BI,UKB-AF和UKB-SA的测量值分别为208、56和60个定量性状,每个特征的测量至少为50个个体。定量性状是在可用时在收集血浆的同时测量的。
在冰岛,我们使用医疗保健记录来构建疾病诊断清单,包括先验和后血浆收集。这导致了275个病例 - 对照表型。此外,我们还测量了来自各种来源的110个定量性状,通常在收集血浆的同时测量。
我们使用线性回归估计了蛋白质水平与定量性状的关联。我们使用逻辑回归估计了UKB和冰岛蛋白质水平与以前或过去疾病的关联。在等离子体收集时,对所有分析进行了对个体的性别和年龄的调整,此外,定量测量是反向正常转化的。
我们为制造商提供的每种测定法分配了基因组坐标来测定目标。在Somascan平台上的4,963种有效测定中(不包括非人类蛋白质和制造商标记为有缺陷的检测),这导致了4,961个测定法,因此分配了其预期目标的基因组坐标。在Olink Explore平台上的2,941个有效测定中,这导致了2,923个测定法被分配了其预期目标的基因组坐标。
我们使用其Uniprot ID确定了针对相同蛋白质的测定法。这导致了2,023对针对1,848个Uniprot ID的测定;1,864个Olink测定法和1,994种SOMASCAN分析(补充表4)。
在Olink58之后,我们假设蛋白质水平的对数正态分布。在对数尺度上,将平均蛋白质水平与差异表示,蛋白质水平的平均值和方差为和。简历定义为S.D.除以平均值,因此等于假设对数正态分布。
为了评估测定的精度,我们估计了可用的重复测量值的CV,并在假设两个重复物是彼此独立的假设下对CV的期望,也就是说,如果重复测量不是相同的样本,而是在人群中随机选择的样品(补充图1)。我们使用强大的中值绝对偏差估计器来估计S.D.在对数尺度上的重复测量结果,并将该估计值插入上面的CV公式中(图1,补充图1和补充表1和2)。
Olink和Somascan均使用对平台特有的控制样品的重复测量进行质量控制。当在同一板上使用同一对照样品的两个测量值以评估CV时,评估不包括板间变化,而假设样品未在同一板上测量,而是从所有样品集中随机选择的CV估计的CV估计,则确实包括板间变化。因此,将两个平台之间的重复对照样本中计算出的简历比较可以有助于对批处理效应进行比较,而值更接近一个表明该平台不太容易受到批处理效应的影响,并且更接近平台更接近零(补充注释2,补充注释,补充图9)。
我们使用Spearman相关性计算了在相同样品中测量的蛋白质水平之间的相关性。
我们以与以前描述的方式相同的方式进行了PQTL分析2。以下三个部分简要描述了此过程。
我们对正常情况进行了分级,对每种测定法进行了测量,并针对年龄,性别和样本年龄进行了调整。我们使用级别正常转换标准化了残差,并将标准化值用作使用线性混合模型(Bolt-LMM71)的全基因组关联测试的表型。我们使用LD评分回归来说明由于隐性相关性和分层而导致的测试统计量的通胀72。
我们使用似然比测试计算了P值,并通过使用与先前对冰岛数据集的研究相同的显着性阈值(1.8×10-9)来调整多次测试。
如果PQTL位于编码靶蛋白的基因的转录起始位点的1 MB之内,我们将PQTL关联定义为CI,如Uniprot报道,否则可以进行trans。
在Olink Explore 3072平台上的2,941种测定中,UKB的数据使用了2,931个测定法进行GWAS分析。
我们在冰岛测试的变体数量(3350万)比UKB(5770万)低约40%。差异很大程度上是由于非常罕见的变体。但是,它们之间的差异将导致UKB的多个测试校正阈值为8.7×10-10而不是1.8×10-9。总共153个(1%)在这两个阈值和1,608(5%)的反式PQTL之间。
对于平台之间的复制,P值阈值为0.05,要求初始和复制关联朝着相同的方向。
我们基于个体水平的基因型分别为每个测定法和每个染色体分别进行了递归条件分析。为了计算效率,我们将此分析限制在与P一起测定的候选序列变体集<5 × 10−6. If the variant, v1, with the lowest P value had P <1.8 × 10−9, we removed v1 from the candidate set and the association of all other variants in the candidate set was recomputed, conditional on v1. If any variant in the candidate set had P < 1.8 × 10−9, we assigned the label v2 to the variant with the lowest P value, removed v2 from the candidate set, and calculated the conditional association of the variants remaining in the candidate set given v1 and v2. We repeated this process until no variant in the candidate set had P < 1.8 × 10−9. Conditional analysis for two assays did not finish for all secondary signals but did return values for sentinel pQTLs.
We observe that 92% and 97% of secondary variants have an r2 below 0.2 and 0.5, respectively, to the primary variant on Olink (based on r2 calculated in the UK Biobank British and Irish set).
In addition, we estimated significance and effect based on a joint model of all variants at the locus to the phenotype for the variants selected in the stepwise model. When jointly estimating the effect on a protein at a locus, and examining pQTL associations at loci that contain more than 1 variant associated to a protein, 96% and 92% of the associations detected using SomaScan and Olink, respectively, remained significant when using the same genome-wide significance threshold as in the stepwise model (that is, 1.8 × 10−9).
We considered sequence variants from the conditional analysis to belong to the same region if they were within 2 Mb of each other. Furthermore, we considered the major histocompatibility complex (MHC) region (build 38 chr. 6:25.5-34.0MB) as a single region. We refer to the most significant variant in each region as the sentinel variant for the assay in the region, and other variants as secondary variants.
We used the ‘LD-based clumping approach’ proposed by Sun et al.6 to identify pQTLs associating with multiple assays: we considered variants associating with a different assay to belong to the same pQTL if they are in high LD (r2 > 0.8).
For replication between platforms, the P value threshold was 0.05, with the requirement that initial and replication associations were in the same direction.
For a given P value threshold P, sample size N, effect size β, and MAF f, the probability of rejecting the null hypothesis of no association is given by 1 − F(X − 1(1 − P), 2Nβ2f(1 − f)), where X–1(·) denotes the inverse cumulative distribution function (inverse CDF) of the chi-squared distribution with one degree of freedom, while F(a, b) denotes the CDF of the non-central chi-squared distribution with one degree of freedom for quantile a and non-centrality parameter73 b.
For each pQTL, we tested whether the variant itself and variants in high LD (r2 >0.8)可能会影响基因或其剪接的编码顺序,如前所述2。
基于Somascan,有40%的CIS PQTL变体和28%的具有反式PQTL的变体为高LD,PAV(R2> 0.80)和44%的CIS PQTL和38%的具有Trans PQTL的变体的变体与CIS EQTL(R2> 0.8)高。
基于Olink,有39%的CIS PQTL变体和23%的具有反式PQTL的变体为高LD,PAV(R2> 0.80)和47%的CIS PQTL和41%的变体和41%的具有Trans PQTL的变体在CIS EQTL(R2> 0.8)中高。
因此,当考虑±1 MB内的相邻基因时,我们注意到与Trans相比,在两个平台上,CIS PQTL更可能在两个平台上具有PAV或CIS EQTL的高LD。在两个平台上以及限制在测量两个平台靶向的蛋白质的测定时都观察到了类似的结果。
此外,对于顺式PQTL,我们还报告PAV或顺式EQTL是否用于编码靶蛋白的基因(补充表21和19)。
对于每个顺式PQTL,我们使用相同的方法和数据使用相同的方法和数据,测试了高LD(R2> 0.8)中的变体本身和高LD(R2> 0.8)中的变体是否对应于一个或多个基于73个组织和17个来源(包括GTEX Project)的来源,使用相同的方法和数据,如前所述2。
我们计算了R2值(基于Somascan-Iceland的冰岛人口和Olink-IKB的UKB-BI人群)在每个MB bin的所有前哨PQTL变体与TOP(最显着相关的)变体之间的R2值和实验因素本体学(EFO)(EFO)术语(EFO)术语(EFO)术语(EFO)术语(EFO)术语(EFO)在NHGRI-EBI GWAS CATALOGUE 74(7月7日)中所述。
我们确定了在High Ld(R2> 0.8)中的NHGRI-EBI人类GWAS74(不包括蛋白质组学研究)中报道的所有变体,其前哨PQTL基于Olink-UKB-BI数据和冰岛Somascan数据(补充表38和39)。对于每个哨兵PQTL关联,我们还确定了95%可靠的变体集(大多数com脚的变体解释区域关联75)可能包括因果变体76。然后,我们检查了可靠的集合中是否包含了具有PQTL变体(r2> 0.8)的高LD中的GWAS目录变体。除了疾病相关的变异与PQTL和可靠集合中的变体之间的高LD外,对于突出的例子,我们估计了与疾病和蛋白质水平相关的变体的后验概率,而当它们不相同时,并且我们可以访问必要的统计数据77。
为了测试PQTL信号与其他特征中信号的共定位,我们使用了R77中实现的COLOC软件包。使用PQTL A和特征B(即效应和P值)的摘要统计数据,我们计算了两个特征的相关区域中每个变体的贝叶斯因子,并使用COLOC来计算两个假设的后验概率:(1)与PQTL A和PQTL A和Thrait B与PPP Thrait Be Isseptals(PP)相关性(pp pu)(pp pu)(2)a a和2)共享信号(PP4)。默认情况下,将COLOC的先前概率留在。
使用与Sun等人相同的方法确定蛋白质亚细胞位置,该方法使用与Sun等人相同的方法来确定人类蛋白质atlas注释为“膜”的蛋白质的蛋白质,被认为是膜蛋白,被认为是蛋白质,被认为是蛋白质中的蛋白质,在人类蛋白质中被视为“蛋白质”作为“蛋白质”,但被认为是蛋白质的蛋白质,但被认为是分泌的“膜”,而蛋白质则是分泌的膜蛋白。细胞内。
在EDTA管中收集血液,该管子被倒4-5次,然后在4°C下3,000g离心10分钟。血浆样品在-80°C的等分试样中冷冻。血浆等分试样被允许在冰上融化,并在解冻过程中远离光线。在测量之前,将等分试样通过反转几次混合,然后在4°C下以3,220克离心10分钟。
根据制造商的协议(Meso量表诊断),使用MSD V-PLEX人IL-10(CAT:K151QUD)测量血浆中的IL-10。
在具有市售的Simoa NF-Light Advantage(SR-X)试剂盒(Quanterix,Cat。103400)的重复物中测量血浆样品。将样品稀释4:1,并在30°C下与25 µL抗NF抗-NF抗免疫接触珠和20 µL生物素化探测器抗体一起孵育30分钟。孵育后,将珠免疫子复合物洗涤并重悬于,然后在30°C下与100 µL链霉亲和素标记的β-半乳糖苷酶一起孵育10分钟。经过第二个洗涤步骤后,将珠 - 免疫子复合物和resorufinβ-乳乙酰吡喃糖苷加载到SR-X仪器(Quanterix)上进行加工和分析。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。
本文来自作者[yjmlxc]投稿,不代表颐居号立场,如若转载,请注明出处:https://yjmlxc.cn/zlan/202506-8745.html
评论列表(3条)
我是颐居号的签约作者“yjmlxc”
本文概览: 使用Olink Explore 3072作为UKB-PPP的一部分(UK Biobank申请编号65851),使用Olink Explore 3072测量了从54,265名...
文章不错《大规模的血浆蛋白质组学通过遗传学和疾病关联进行比较》内容很有帮助