微信号:8149027
不接反杀,想去别人群里开挂,开不了不用加。
复制微信号
为了确定每个区域的染色质可及性评分,我们使用了每个研究中的SCATAC-SEQ计数表和细胞注释表。为了将单个细胞汇总到“伪库细胞类型”中,我们使用了每项研究的卢文聚类结果。每个伪库尔克使用了每百万(logcpm)的日志计数。每个簇的注释用于确定生物细胞类型。从经验上讲,我们设定了600多个细胞计数的阈值,以确保选定的细胞簇的足够测序深度。可以在补充表1中找到训练过程中使用的伪库细胞类型的全面表。
总而言之,我们使用了参考文献中的ATAC-SEQ和表达数据。1,2,22。总共数据集包含130万个单核。数据仅以伪硫格式呈现。所有细胞类型都是正常组织中的主要细胞类型。预处理数据集中没有疾病状态。我们将更多的数据集纳入了肿瘤细胞中的下游任务,例如K562和零射分析。
为了识别细胞类型特异性可访问区域,使用每个数据集的原始研究的峰调用结果用于获得一组峰值。随后,为了汇编针对每种单元格类型的可访问区域的列表,我们没有计数过滤峰值。
在人类胎儿和成人染色质可及性地图集的背景下,我们使用了Zhang等人2所产生的峰集,其中包含了Domcke等人最初发表的胎儿染色质可及地图集。我们还使用Domcke等人的原始峰调用和细胞类型注释训练了仅胎儿获得模型的版本,从而产生了可比的表达预测和调节性分析性能。对于10×多组数据,我们使用了提供的峰片段计数矩阵。对于K562 Neat-Seq和Bulk染色质可访问性数据,使用MACS2(参考文献60)来调用更宽松的峰值,并将不同的logcpm截止量应用于所得的峰集,以选择可访问的区域。这种基于可访问性的数据增强增强了输入数据的多样性,并通过单个单元格类型进行微调数据模型。
在这项研究中,特定基因组区域的染色质可及性评分是由位于该区域内的碎片计数定义的,给定的细胞类型伪库。为了增强模型的普遍性,通过LogCPM程序进一步将这些计数进一步归一化。具体而言,令T为假卵中的总碎片计数,让CI为区域I的片段计数。然后,可访问性得分SI可以计算为:
对于大多数监管分析,GET模型的二进制ATAC版本用于全面评估TFS所施加的调节影响。在此特定模型版本的训练和推理阶段中,如果将区域识别为染色质访问峰,则可访问性得分均匀设置为1。这等同于在研究的情况下假设二进制染色质可及性状态。
为了计算特定基因组区域内的基序结合评分,使用Vierstra等人先前编制的2,179个TF基序位置权重矩阵对相应的序列进行了针对HG38参考基因组的扫描(可在https://wwwwwwwwwww.vierstra.org/resiorg/resources/motif_clistif_clisterife)。对于扫描过程,使用默认阈值61使用情绪工具。
更具体地说,要在减轻特征冗余时表示序列信息,实现了专门的主题评分过程。在维斯特拉(Vierstra)的研究基础上,我们将这2,179个图案分为282个图案簇,这是由位置重量矩阵相似性确定的分类。使用此建立的聚类定义,我们消除了冗余核苷酸级基序匹配,仅保留属于同一基序群集的重叠匹配中的最高分数的匹配。随后,将每个基序集群中所有非重叠基序匹配的分数汇总,为282个簇中的每个群集提供一个累积分数。作为最后一步,确定了给定细胞类型中所有区域的基序结合评分,并在整个区域进行最小玛克斯归一化。这种归一化促进了模型的概括和训练过程,从而确保以标准化的方式处理每个图案群集的得分。
预处理中使用的213个细胞类型的注释遵循胎儿和成人可及性地图中提供的原始细胞类型分类1,2,22。通过atac-seq计数谱的聚类来实现此分类,随后在已知标记基因的表达基础上进行了标记。在人类细胞地图集(http://catlas.org/humanenhancer/#!/celltype)中,可以找到组织和细胞类型的全面列表。原始地图集包括222种胎儿和成人细胞类型,但进一步过滤以去除细胞类型,其测序覆盖率低(小于600个细胞的数量)。这种方法确保了我们的模型在各种细胞环境中进行了训练,同时确保了染色质可及性伪造轨道的足够覆盖范围。数据没有进一步平衡或策划。
GET旨在捕获不同区域和调节器之间的相互作用。为了促进这一点,我们需要每个输入样本才能包含一定数量的连续可访问区域,从而模仿RNA polii的“接受场”。通过以前的实验,我们发现理想的当量基因组覆盖率约为或大于2 MBP,这是大多数染色质接触发生的范围。结果,根据我们当前的数据预科管道,我们选择了每个培训样本使用200个输入区域。我们在预处理过程中使用了非重叠的采样,并在微调过程中使用了滑动窗口。滑动窗口的步幅设置为一个样品中区域数量的一半(即,对于200个峰的样品,每步100个峰)。
选择每个样品的区域数量以在计算效率和涵盖每种细胞类型的调节景观的代表性样本之间达到平衡。重要的是要注意,这200个峰涵盖的实际基因组跨度可能会因几个因素而变化,包括几个因素,包括染色质访问性的细胞类型特异性变化,峰调用期间应用的阈值以及峰的染色体分布。在涵盖胎儿和成人细胞类型的均匀处理数据集的背景下,我们观察到200个峰通常对应于大约2-4 Mbp的基因组范围。该估计得出的源于以下理解:人类基因组具有约30亿个碱基对,经过全面分析,将产生约150,000个可访问的峰值。因此,考虑到不同细胞类型的峰的分布和密度,平均而言,200个峰的子集将代表2-4 Mbp的基因组跨度。在我们主要模型的训练中,边界完全取决于采样峰的边界。没有其他先验。从染色体的开头开始,在每个染色体中独立进行采样。
对于包含多组学的实验,可访问性和表达之间的对应关系是通过细胞条形码固有地确定的。在对可访问性和表达进行独立评估的伪库病例中,使用细胞类型注释来促进映射。具体而言,使用CAO等人的胎儿表达图集。23用于胎儿细胞类型,而从Tabula Sapiens24中提取了成人数据。当几个ATAC PSEUDOBULK共享相同的单元格类型注释时,分配了相同的表达标签。当前的多组测序数据的当前缺乏,这种妥协是必要的,这种情况预计在不久的将来会发生巨大变化。
为了提高训练稳定性,我们将表达值转换为log10(tpm+1)。为了克服大多数SCRNA-SEQ定量在基因水平而不是转录本水平的问题,我们使用以下方法将基因表达映射到可访问区域:如果一个与基因TSS重叠的区域,则将基因的表达值分配给该区域,将其分配给该区域;如果一个区域与多个基因的TSS重叠,则将相应基因的表达值求和,并将总和用作该区域的标签。如果区域没有与任何TSS重叠,则将相应的表达标签设置为0。此外,如果启动子的可访问性很低(例如,访问性CPM(ACPM)小于0.05),我们还将相应的表达值设置为0。最后,每个调节元件都将每个调节元件分配给表达目标值。
表达值分配给我们输入中的每个区域。由于poly(a)scrna-seq数据的局限性,只能捕获聚合的mRNA水平,从而导致值不反映与调节事件更紧密相关的新生转录率。但是,这些值提供了有价值的细胞类型特定信息。该过程首先将输入区域列表与Gencode v.40转录本注释相交,以查明启动子,然后将logcpm值分配给与这些启动子相对应的区域。所有其余区域均分配为0。尽管这并不能完全代表单元格中发生的所有转录事件,但我们认为非启动区域上的零标签有助于向模型传递信息的负面标签。
在与200×283输入矩阵的一致性中,目标输入是200×2矩阵,象征着正和负链中相应200个区域的转录水平。
GET架构由三个部分组成:(1)调节元件嵌入层(regionemb);(2)监管元素的注意层(编码器);(3)线性输出层作为表达式预测头,或者或其他输出头。获取200个调节元素,每个元素具有282个基序结合分数,并且可选为一个可访问性得分作为输入样本。结果,输入是200×283矩阵。当我们选择不使用定量可访问性分数时,我们将第283-列中的值设置为1。
我们将样品送入区域Emb层中,以生成每个峰值为768的调节元件。由于我们不想在原始调节元素的输入中丢失信息,因此我们应用线性层来捕获不同类TF绑定位点中的一般信息。为了学习调节元素和TF之间的顺式和跨性关系,我们将12个编码器层应用于调节元件嵌入,并具有多头注意(MHA)机制。
假设NH,DV和DK分别表示头部数量,值的深度和密钥深度。每个头H的输出计算为
可学习的线性转换在哪里。
然后,我们将每个头H的输出与调节元素的注意块相连。层归一化(LN),进料前向网络(FFN)和残差连接最终用于生成每一层的输出。因此,可以将监管元素的注意块背后的机制总结为:
其中表示块中的中间表示形式,表示块中的输出,LN是层的归一化,而FFN是进料前向网络。我们在进纸前网络层中应用两个线性层,其中具有GELU激活层。
GET架构类似于最新的模型Enformer4。但是,以下更改有助于我们改善并超过该模型的性能:GET使用调节元件嵌入层来捕获不同类TF结合位点不同类别的调节元素的一般信息。此外,使用掩盖的调节元件机制来学习来自不同人类细胞类型的调节元件与TF之间的一般顺式和反式相互作用。具体而言,一组随机的位置均匀选择以掩盖0.5的掩模。
类似于基于视觉转换器的蒙版自动编码器62,我们用共享但可学习的令牌代替了所选位置的区域。掩盖的输入调节元件用在其中的输入样本表示调节元件。培训目标是预测蒙版元素的原始值。具体而言,我们将蒙版的调节元素嵌入作为输入,而简单的线性层则作为预测头。因此,可以将自我监督培训的总体目标提出为:
其中表示要预测的蒙版区域。
我们在大型单细胞染色质可访问性数据中进行了预测。然后,我们在配对的染色质可访问性 - 元素表达数据上微调了具有与Enformer4的泊松负模样损耗函数4。
GET实现基于Pytorch框架。在第一个训练阶段,我们将ADAMW用作优化器,重量衰减为0.05,批次尺寸为256。该模型接受了800个时期的培训,其中有40个热身时期,用于线性学习率缩放。我们将最大学习率设置为1.5×10-4。该培训通常需要大约一周的时间才能获得16个V100 GPU的集群。在第二个微调阶段,我们使用ADAMW63作为优化器,重量衰减为0.05,批次尺寸为256。该模型经过100个时期的训练,使用八个A100 GPU在8小时内完成,该模型在8小时内完成。单个细胞类型中所有基因的推断需要几分钟,因此可以进行大规模筛选。
我们包括对优化超级计,计算基础架构和收敛标准的更详细描述,该标准在下面的部分中开发。
GET提供了通过低级适应(LORA)64对任何特定层进行参数有效调节的选项。这通常用于适应新的测定法或平台;我们将lora应用于嵌入区域和编码器层,同时在预测头上进行全面调查。这显着降低了参数的99%。
我们验证了超出星形胶质细胞以外的跨细胞型预测性能,包括更广泛的细胞类型。基准是在原始胎儿可及性ATLAS1中定义的胎儿细胞类型上进行的。此比较包括定量ATAC GE(n = 3),二进制ATAC GE,在BasenJI15训练集中训练的eNFormer Cage Outs Outper Track的线性探测,并在Basenji测试集中推断基因,以及训练细胞类型的平均表达基线。我们使用Pearson相关性,Spearman相关性和R2来评估所有设置中的预测性能。
使用与GET相同的输入数据,我们已经与以下方法对表达预测任务进行了比较。在我们的实施中使用了以下参数。
我们在所有染色体上进行了一个剩余的染色体基准测试,发现在同一测序平台和数据源条件下,性能保持一致。我们发现胎儿星形胶质细胞的平均皮尔逊相关性为0.78(最小值:0.73,最大:0.84)。我们还将对留下染色体的评估扩展到来自人类肿瘤网络IDH1野生型GBM患者的肿瘤细胞。我们对单个患者(病例ID:C3L-03405)的肿瘤细胞进行了微调,并在每个留下的染色体上评估了性能。该评估表明,在脱离染色体上,平均皮尔逊相关性为0.75(最小值:0.68,最大:0.81)。
对于K562 OmniATAC预测,我们对所有22个常染小体进行了一击染色体预测,发现平均Pearson相关性为0.81(最小值:0.72,最大:0.84)。对于K562 CAGE预测,我们用来预测K562 CAGE(Fantom5样本ID:CNHS12336)。我们注意到,这种比较特权Enformer在笼子轨道上进行了广泛的培训,包括K562(轨道ID:4828和5111),而需要将其转移到新测定中。在这里,我们评估了在两个CAGE输出轨道上汇总的Enformer预测的微调GET,该预测在14号染色体上的放出峰值设置。我们选择了14号染色体,因为它没有出现在公共Enformer检查点的训练或验证集中。预处理的获取以三种方式进行了微调。
这些实验利用Lora参数有效的微调来实现时间和存储复杂性的显着收益。在单个RTX 3090 GPU上,所有微调都在30分钟内收敛,从而导致3 MB K562-CAGE特异性适配器可以合并到基本模型中。
为了探索在输入功能中省略基序的影响,我们使用了来自Encode(登录:ENCFF998SLH)的K562 SCATAC-SEQ数据,并在保持随机选择的主题时评估了ATAC预测性能。我们首先将其称为Macs2的峰值,其阈值为Q = 0.05。然后,我们将这个峰值与来自胎儿预处理数据的联合峰设置合并,在K562中保持至少十个计数的峰值。为了进行微调计算效率,我们使用了在胎儿和成人ATAC数据上鉴定的二进制ATAC检查点的LORA参数有效的微调,该检查点具有200区接受场(图4和Onward中用于基序分析的预处理检查点)。
我们探索了随机选择的1、2、3、4、10和20个图案。对于每个图案,我们检查了峰值的结合分数是否大于整个基因组的得分分布中最高20%的分数。在训练阶段,如果一个峰具有通过该阈值的任何留出的基序,我们将该峰的所有输入基序以及观察ACPM设置为零。在这种方法中,这些“淘汰赛”峰并不能导致损失。在评估阶段,我们仅在原始观察到的ACPM上计算了ACPM的Pearson和Spearman相关性。例如,当只有一个放出的基序CTCF时,我们实际上是在训练训练,在训练染色体上的CTCF结合得分较低的峰的前20%,假设跨染色体均匀分布了结合位点。类似地,我们在测试染色体中使用20%的CTCF结合得分较高的峰进行评估。在这些实验中,我们评估了持有的染色体14。
总的来说,在留出一到十个图案时,获得表现出色的表现。当使用大部分训练数据的情况下,使用20个主题的20个主题,每个主题独立使用20%的临界值时,该性能会大大降级。
当转移到新的测序平台时,需要解决许多域移动。这些包括但不限于以下内容。
由于这些偏见,很难直接将在一个数据集上训练的模型应用于新平台而不会进行微调。因此,对于具有可用多种单元格类型的新数据集,我们采用了一个保留的单元格方法进行微调。对于只有一种单元格类型的分类单元类型的数据集,我们使用了留出的染色体训练。
将我们的模型改编为新数据的主要挑战在于确保培训的输入空间与新数据集之间的兼容性。细胞类型,测序技术和预处理管道的变化可能会导致ATAC峰值集显着不同,这可能导致不兼容的输入和嵌入空间。为了解决这个问题,我们制定了一种通过组合新的和训练峰值组来创建兼容峰值集的策略。当训练和新峰之间发生重叠时,我们将优先级分配给训练峰集坐标。新数据的独特峰值被合并。我们使用统一的峰值呼叫管道来保持一致的峰值长度(例如,胎儿成年地图集为400 bp)和新数据集。我们的仅胎儿/胎儿 - 成年峰集(1.3 m峰)的综合覆盖范围通常会导致新的,看不见的峰值不到总峰的10%。这种方法证明了对各种数据类型的有希望的可传递性,包括扰动的人类胚胎干细胞的股票数据和10×多重GBM数据。
例如,我们使用新的GBM患者数据集中的单个患者样本测试了“一次性”微调程序。然后,我们评估了这种微调模型的性能,该模型针对16个持有的患者样本的预定的“零射”模型。为了确保强大的评估,我们将两名患者排除在此分析中,以作为评估微调稳定性的单独测试集。结果是有希望的:在预测被预测患者表达时,对单个肿瘤患者样本进行微调可以达到超过0.9的相关性,而零射击性能达到0.67 Pearson相关性。这证明了该模型的强大概括能力及其对新数据集的快速适应潜力,并进行了最少的进一步培训。随着ATAC-SEQ和多组数据的可用性继续增长,更全面的参考峰集(例如编码DHS INDEX13和CPEAKS65)将进一步促进GET模型适应更广泛的细胞类型和实验条件。
在这里,我们显示了验证的转移到不同功能基因组学测定的结果。对于K562批量ATAC预测,我们收集了K562(ENCSR483RKN)的omniatac-seq数据。在使用默认参数的MACS2调用峰值后,我们通过计算位于峰内部的TN5插入并用log(ACPM)小于0.03的峰来计算LOG(ACPM)。其余峰和相应的ACPM用于基序扫描和预测。我们使用每个输入样本的200个峰进行了剩下的染色体式微调微调。对基本检查站进行了对胎儿和成人地图集的训练,其二进制ATAC设置和每个输入样品的200个峰。Lora用于所有层。每个微调大约需要160秒才能完成八个时期,此后该模型开始过度合适。在八个时期收集了Pearson相关性,以进行所有微调。为了进行笼子预测,我们从Fantom5收集了K562 CAGE(CNHS12336)BAM文件,并使用床托来提取从编码K562 K562 SCATAC-SESQ数据(ENCFF998SLH)的峰中提取对齐计数。在三个设置中使用每个输入样本的200个峰进行微调,具体取决于如何与主题功能结合使用ATAC信息,以及用于微调的基本模型。
总体而言,我们的结果表明,某些固有的细胞特征可能有助于观察到的模型性能变化。我们证明,Get可以应用并扩展到非生理细胞类型和状态,并捕获细胞类型的特异性转录信息。除了细胞类型之间的固有生物学差异之外,我们认为以下因素在推广到新数据集时也可能影响性能。
在这项研究中,我们进行了彻底的模型解释分析,以确保获得学习有用的监管信息并提供有价值的生物学见解。下面,我们概述了用于解释获取的方法。
我们培训了两个没有定量可访问性的数据的模型:
在我们的分析和法规解释中,我们主要使用了二元ATAC模型。这种方法提供了对序列特征的改进归因,从而确保模型不会过分依赖可访问性信号强度作为序列特征的替代物。
我们在不同的分析中使用了多个功能归因方法,并为包装中的用户提供了所有选项。更具体地说,模型输出相对于矢量代表的输入特征的梯度可以测量当我们沿维度更改少量输入时(例如,在顺式调节区域中的某个基序)时,模型输出(表达式)将会发生变化。在神经网络功能归因的背景下,对多个输出的概括扩展到雅各布矩阵,其中FI是ITH输出,代表正链或负链上的转录水平,XJ是jth输入功能,包括扫描和汇总282 TF Motif Motif Motefers clusension score binting binting bitesive score的jth输入功能。该公式可以计算Jacobian矩阵,这对于理解单个特征对转录水平的影响至关重要。
我们将基准数据集限制为胎儿成红细胞峰集或K562 DNase峰集以进行公平比较。为了从GET获得每个基因的增强剂的重要性得分,我们使用了嵌入Jacobian区域的ℓ2S标准,并用每个区域的ACPM加权将其作为GET Jacobian评分。例如,将来可以通过使用随机基因组背景作为Jacobian计算的基线和其他解释方法(例如Integrated-Gradients66或DeepLift67)来改善此过程。但是,我们认为,与基因组量表相比,此任务的当前基准数据集大小仍在限制(104对与106至107所需的测量基因组增强子 - 促进剂相互作用)。因此,我们将该任务的系统优化用于将来的工作。本研究中使用的其他分数如下。
该基准中的所有分数(ABC,Enformer,Get,Hyenadna,Deepsea和DNase/ATAC)在每个基因的±100峰上进一步归一化,以使它们跨基因可比。
最近的研究强调了一维基因组距离在管理CRISPRI增强子敲除效应中的重要性(例如,Gschwind等人33)。在此基准中,大多数方法都包含基因组距离的组成部分。例如,Enformer将指数衰减纳入其位置编码中。Hyenadna结合了在DNA序列上编码的正弦位置,我们的基准测试结果遵循TSS的指数衰减(图3C; NFIX)。我们还扩展了距离信息。特别是,我们设计了一个简单的DistanceContactMap模块,以使峰之间的成对一维距离映射转换为伪HI-C触点图。DistanceContactMap是一个简单的三层二维卷积神经网络(内核大小:3),其输入和尺度归一化观察到的接触频率作为输出。使用泊松阴性样品可能损失来训练模型。我们用相同的K562 HI-C数据(ENCFF621AIY)训练了DistanceContactMap,用于训练ABC PowerLaw,导致了0.855 Pearson相关性,该相关性主要捕获了接触频率中的指数衰减。我们称该模型为“ Get PowerLaw”的预测。图3D所示的其他两个分数定义如下:
通过将区域嵌入作为进一步的输入和学习预测细胞类型特定的三维触点,可以通过将区域嵌入作为进一步的输入来改善该模型。
实验过程涉及设计一个包含所需序列元素和迷你启动子的慢病毒载体库。通过病毒感染将载体随机插入基因组。然后,通过测序和计算转录RNA和集成的DNA拷贝的对数拷贝数来测量调节活性。
为了使用GET模拟这种方法,我们首先收集了序列元素库,并构建了插入的矢量序列,包括调节序列和微型启动子。然后,我们遵循相同的数据预处理程序,以获取插入元素的基序得分。对于每个元素,我们通过在基因组上的现有区域将其基序评分求和,我们在计算机插入中进行了进行。然后将围绕插入区域的±100个区域用作输入样本,以进行表达预测。将平均预测表达(LOG10(TPM))乘以预测可访问性作为预测的调节活性。对于每个区域,我们在整个基因组上进行了600次插入,以匹配实验插入计数。我们在K562 Neat-Seq数据上微调了GET模型来执行推理。总体而言,在K562的所有200,000个元素中,总共需要5天。
对于Enformer,我们进行了相同的分析,唯一的区别是,我们将矢量序列整合到基因组上的随机位置,并收集了以插入位点为中心的196,608 bp序列。Enformer在5,313个人类表观基因组轨道上进行了训练,专门针对K562进行了486个实验。为了计算调节活性,我们从K562 Cage Track中选择了输出,这是转录本5'区域的定量和核苷酸级图。遵循原始研究的实践,我们将序列中心三个仓的平均输出作为样品的预测表达式。每个元素还插入600个随机基因组位置,以计算最终的平均调节活性。由于Enformer推断的时间复杂性,我们只能为1,000个增强剂和1,000个非增强元素进行这些实验。与GET的比较是在相同的一组元素上进行的。
我们通过重叠了从组蛋白标记和K562的其他CHIP -SEQ数据计算出的注释的15个编码Chromhmm状态来对K562 Lentimpra元素(约200,000)进行了分层。我们选择了与国家“ 12 Enhbiv”,“ 6 Enhg”和“ 7 Enh”重叠的元素作为增强剂,以及与“ 13 reprpc”,“ 14 reprpcwk”和“ 15 quies”的元素作为压抑和静止区域。
我们首先通过生产以每个基因启动子为中心的200区窗户来收集推理样品。给定特定的基因g,可以使用应用于输入矩阵的GET模型F来推断表达值,其中R表示区域数,M包括主题和(可选的)可访问性功能:
索引选择算子在哪里是基因的链。
点(E,X)处的Jacobian矩阵(张量)JX评估当每个输入维度变化少量时,每个输出维度将如何变化。我们特别选择了与给定基因相对应的输出维度和链,以:
通过将梯度元素乘以原始输入和跨区域汇总的梯度元素来获得该功能(主题)重要性向量:
在哪里表示元素或哈达姆产品。由于基因基因矩阵主要用于特征 - 表相互作用分析,因此即使我们使用二进制ATAC模型推断,我们也会使用具有定量ATAC信号的。这有助于研究调节剂与观察到的染色质可及性之间的关系。
细胞型特异性基因组基因基因逐元基质用于C型C型,VC是通过在整个基因组中加成跨基因组而获得的。相同的过程可以应用于不同的单元格类型。
同样,区域重要性向量也由:
实际上,我们使用嵌入区域的Jacobian的L2-norm相对于计算区域重要性评分的输出,因为嵌入得分分布的偏差要小于输入基序结合分数,这可能会使Jacobian在整个地区更可比。每个基因的最高分数将雅各布评分归一化,以使分数在不同表达水平的基因之间可比。
使用基因基因矩阵,我们可以选择一个TF或基序(在我们的情况下为GATA),并询问哪些基因将主要受到该TF的影响,通过识别基序列中最大的条目。我们选择了前1,000个基因,并使用默认G_SC的G_SC进行多个假设检验校正进行了基因本体论富集分析。我们使用学期大小(术语定义中的基因号)过滤了结果,大于500,小于1,000。调整后的P值小于0.05的术语保留为重要条款。我们进一步选择了具有表达log10(TPM> 1)的“ hemopoiesis”项中的TF,以实现与GATA基序分数的可视化。
在此分析中,我们试图阐明在不同细胞类型中其目标基因之间的关系与其靶基因的表达之间的关系。汇总基因文件并组织成一个统一的结构,其中包括基因,基序和相应的细胞特征。我们确定了预定义基元簇中每个TF的靶基因,并计算了靶基因和相应TF的平均表达水平。为了避免通过实验批次效应引起的表达测量中的潜在伪影,我们仅分析了成人和胎儿细胞类型以及胎儿细胞类型,并发现了相似的结果。对特定于胎儿细胞类型的基序簇中的所有TF进行了迭代进行分析。
使用跨细胞型体系结构配置GET,以提取跨越各种细胞类型的基因的调节上下文,将它们嵌入共享的高维空间中。我们在每个变压器块的GET块后收集了每个基因的嵌入。基因G的嵌入定义为在ITH块的输出中启动子的嵌入向量。由于注意力机制,嵌入包含来自周围区域的启动子信息和信息。通常,层越深,其空间越多地由表达输出支配(补充图4)。由于数据大小,tsne-cuda用于可视化嵌入。在嵌入空间上进行了卢范聚类,以颜色可视化。分辨率是任意选择的,以使群集数保持在10左右并接近UMAP密度。对于基于细胞类型的子采样,使用UMAP68进行可视化,以更好地在簇之间进行视觉分离。
我们在两个不同的设置中计算了嵌入:细胞类型特异性设置,其中每个点是一个来自特定细胞的基因,以及细胞型 - 敏锐的环境,每个点是每个点嵌入从所有细胞类型中随机采样的基因;在第二种情况下采样了50,000个嵌入,以使UMAP计算可行。
我们使用细胞型特异性和细胞类型 - 刺激性设置中的基因矩阵进行了成对的长矛人相关性。输入×梯度得分用于构建计算效率的矩阵。对于细胞类型特异性设置,在相关计算中使用了所有带有开放式染色质峰的启动子与开放染色质峰重叠的基因。使用lingam69在基因基质上进行了因果发现。对于细胞类型 - 不合骨的设置,从所有细胞类型中随机采样了50,000个基因,并且所得矩阵经受了具有默认参数的因果发现工具箱Python包中实现的Lingam算法。
为了基准在细胞类型 - 不合骨环境中的预测因果边缘,我们从字符串v.11数据库39下载了已知的物理互动子网络,并以大于400的综合分数作为地面真实标签保持了交互。正如GET对成对所预测的那样,我们根据基元群集注释将TFS之间的物理相互作用映射到基序簇。然后将产生的基序及物理相互作用网络与我们计算精度的预测进行了比较。我们还下载并编译了所有由质谱法确定的所有重要相互作用40,并将它们映射到主题 - motif相互作用以进行比较。为了与芯片 - 隔离共定位进行比较,我们从TF地图集中的HepG2中获得了677 TF的芯片– Seq轨道之间的共定位结果。计算共定位的方法记录在Chip-Atlas储备库中。每个芯片seq峰集分为三个层(高,中和低)。然后,对于一对TFS P1和P2,我们检查了每个层对之间的共定位,并偏爱高高共定位(得分= 9)。如果P1的强结合峰与P2的强结合峰重叠,则认为P1 -P2相互作用比P1强结合位点仅与P2弱结合位点重叠的情况更强大。我们介绍了图4B中比中及相互作用(得分≥4)的共定位更强,因为这些相互作用代表了更可靠的相互作用。更强的截止值(得分≥9,仅保持高高相互作用)将性能降低到0.097宏观F1得分,以2%的回忆。
为了与基序共定位进行比较,我们为肝细胞收集了GET输入矩阵(可访问区域)或在所有胎儿和成人细胞类型中串联输入矩阵。在所有收集的区域中计算成对的皮尔逊相关性,从而为每对基序提供得分。对于GET目录中的细胞类型特异性基序 - MoTIF相互作用,我们使用所有细胞类型的基因矩阵进行了因果发现。在最终数据库中保留了与最高5%的绝对效应大小的相互作用。对于每种相互作用,我们在相应细胞类型中具有最高表达的两个TF之间进行了结构分析。
如果其TF家族中的两个成员在String v.11数据库中具有已知的物理互动,则我们将TF归类为室内活页夹,这是基于假设,即如果TF可以绑定为异二聚体,它也应具有因序列和结构相似性而成为同型二聚体的潜力(可能是不同的)。因此,我们使用Alphafold来预测所有已知TF的假设同型二聚体结构,并试图预测使用基于Alphafold的指标的室内粘合剂。我们使用了几个不同的基于AlphaFold的指标,包括均值_PLDDT(所有残基的平均PLDDT得分),PAE(所有链相互作用的预测对齐误差),PDOCKQ(使用接口PLDDT的dockq度量)和PDOCKQ×PAE。我们发现PDOCKQ×PAE导致接收器操作特性曲线(0.69)和精确 - 回程曲线下的区域(0.41),当时对内部内生物粘合剂TFS进行分类时。
由于其准确的结构预测性能,AlphaFold的PLDDT是可靠的蛋白质域调用者。我们将每个TF蛋白序列分为低和高PLDDT区域。从经验上讲,我们发现使用高PLDDT区域以及高电荷残基的比例很容易鉴定出已知DNA结合域的80%(召回)。更具体地说,我们首先使用十型氨基酸移动平均内核计算了平滑的PLDDT,然后通过最大分配得分归一化。此后,任何平滑PLDDT得分小于0.6的区域均定义为低PLDDT区域。如果两个低的PLDDT区域接近(小于30个氨基酸),则将它们合并为一个。任何不是低PLDDT区域的区域都被标记为高PLDDT区域。
LocalColabFold和ColabFold用于使用Alphafold多聚机v.2.3模型来预测多聚机结构。对于同型二聚体预测,我们将所有五个模型都带有三个回收。对于我们的大规模相互作用筛选,我们使用Model 3和三个回收件用于每个预测。PAE和PLDDT存储以进行下游分析。使用Folddock70的代码计算PDOCKQ。
如果多聚体结构具有新出现的峰值,我们将其视为潜在相互作用的证据。进一步检查了PAE,PDOCKQ和IPTM,以评估相互作用的置信度。释放AlphaFold3后,我们对全长PAX5 – NR2C2序列进行了重新形成的结构预测,并鉴定了相同的PAX5 G183-NR结构域相互作用。
初始配置是从Alphafold预测的PDB文件中制备的。AMBER99SB-DISPARSION(A99SBDISP)力场用于系统参数化。定义了一个立方模拟框,盒子尺寸为1 nm。随后,使用TIP4P水模型通过溶剂化模块溶解了系统。为了中和系统并产生生理离子浓度,使用该模块添加钠(Na+)和氯化物(Cl-)离子。能量最小化在达到1,000 kJ mol -1 nm -1以下的最大力后终止。每次最小化迭代都使用0.01的步长,并配置为最多50,000步。然后将系统分为两个步骤:首先在NVT(恒定数,体积,温度)集合中,然后在NPT(恒定数,压力,温度)集合中进行100 ps的模拟时间。然后进行100 ns的生产运行,并存储轨迹和能量曲线以进行后续分析。这些配置的所有配置均可在Proscope Repo(https://github.com/fuxialexander/proscope)上获得。在我们的分析中,我们发现多聚体结构中ZFX,IDR和TFAP2A的均值PLDDT得分与残基不稳定性密切相关,如通过均方根平均距离测量,与先前的研究结果一致,表明Alphafold隐含地学习了蛋白质折叠能量的功能。
Chimerax用于可视化预测的结构。
HELA细胞(CCL-2)和REH细胞(CRL-8286)购自ATCC。从认证的单元线库购买的细胞系未进一步验证。所有细胞系均对支原体测试。在研究中未使用普遍误识的细胞系。
在37°C和5%CO2的DMEM中培养HeLa细胞(Gibco,CatalogNo。11965),并补充了10%定义的胎牛血清(Hyclone,SH30070),在37°C和5%CO2中培养。用0.5%NP-40裂解缓冲液(50 mM Tris-HCl,150 mM NaCl,0.5%NP-40)产生HeLa细胞蛋白裂解物,并用磷酸酶和蛋白酶抑制剂鸡尾酒(Sigma-Aldrich,ppc1010)产生。将样品与5 µg琼脂糖偶联的TFAP2A初级抗体(Santa Cruz Biotechnology,SC-12726 AC)孵育,在4°C下过夜,然后在Laemmli加载缓冲液(Biorad,1610737)中运行。将蛋白质分离在10%Tris-甘氨酸凝胶(热燃料,XP00100)上,转移到聚乙烯二氟化物膜(Imbobilon-P,IPVH00010)中,并用针对TFAP2A(Abclonal,Abclonal,A2294,1:750),Zfx(Zfs),Zfsherofisherser,Zfisher,Zfisherser,Zfisher,Zfisher,Zfisher,Zfisher,Zfisher,Zfisher,Zfisherserser,Zfisherser,Zfisherser,500),探测了一级抗体。β-肌动蛋白(Santa Cruz Biotechnology,SC-47778,1:10000),然后进行化学发光检测。对共免疫沉淀阴性对照进行了重复实验,该对照对SRF(Abclonal,A16718,1:750)和β-肌动蛋白(细胞信号技术,4967,1:10000)探测,然后进行化学发光检测。
我们最初将PAX5-WT和PAX5 G183S突变体克隆到PCDNA3.1-MCS-13XLINKER-BIOID2-HA(Addgene,CatalogNo。80899)71中。经过验证后,我们将PAX5-WT-13XLINKER-BIOID2-HA和PAX5-G183S-13XLINKER-BIOID2-HA取代到PCDH-GFP-PURO矢量(System Bioscience,CD513B-1)。我们用PCDH-PAX5-WT-13XLINKER-BIOID2-HA-GFP和PCDH-PAX5-G183S-13XLINKER-BIOID2-HA-GFP转导了REH B-ALL细胞系(ATCC,CRL-8286),并使用PCDH-PAX5-G183S-13XLINKER-BIOID2-HA-GFP,并用呼吸菌(1μgml-1 gr- ml--- ml--- ml-1)生成。在先前发布的方法71,72,73之后,进行了接近标记测定法。简而言之,带有对照载体PCDH-13XLINKER-BIOID2-HA-GFP,PCDH-PAX5-WT-13XLINKER-BIOID2-HA-GFP和PCDH-PAX5-G183S-13XLINKER-BIOIDER-BIOID2-HA-GFP的REH稳定细胞系,与100μmmma-Aldrich undich unike uck.We collected the cells, washed them twice in cold phosphate-buffered saline and incubated them for 50 min on ice with occasional vortexing in lysis buffer (150 mM NaCl, 10 mM KCl, 10 mM Tris-HCl pH 8.0, 1.5 mM MgCl, 0.5% IGEPAL) supplemented with protease and phosphatase inhibitors (Life Technologies, catalogue no. 78443)和63 U的苯甲酶(Sigma-Aldrich,目录编号70746-3)。通过在4°C下以21,000克离心15分钟来阐明蛋白质。我们使用Pierce BCA蛋白测定试剂盒(Thermofisher Scientific,Catalog No.23225)进行了总蛋白质定量,并用100μL磁性链霉亲素珠(Dynabeads MyOne treptavidin c1,生命技术,生命技术,分解为65002)在45002上孵育1 mg总蛋白提取物(dynabeads myone treptavidin c1)。我们用裂解缓冲液两次用1 m kCl洗涤珠子,一次用0.1 m na2co3,一次用2 m尿素10 mm tris-hcl pH 8.0, 再次使用裂解缓冲液两次。通过在4x蛋白载荷缓冲液中煮沸,在95°C的4倍蛋白负荷缓冲液中煮沸10分钟。Biotinylated proteins in total protein extracts or immunoprecipitates were detected by western blotting using standard protocols and the following antibodies: streptavidin–HRP antibody (Life Technologies, catalogue no. S911, 1:1000), anti-PAX5 (Cell Signaling, catalogue no. 8970, 1:500), anti-HA (Cell Signaling, catalogue no.3724,1:1000),抗NR2C2(细胞信号传导,目录号31646,1:500),抗NCOR1(细胞信号,目录号5948,1:500),NRIP1 – HRP(Santa Cruz Biotechnology,SC-518071,1:200)和NR3和NR3和NR3和NR3(Santa Cruz Biotechnologic12041,1:500)。使用Li-Cor Odyssey OFC仪器检测蛋白质,并使用Gelanalyzer 23.1软件进行定量。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。
本文来自作者[yjmlxc]投稿,不代表颐居号立场,如若转载,请注明出处:https://yjmlxc.cn/zlan/202506-5008.html
评论列表(3条)
我是颐居号的签约作者“yjmlxc”
本文概览: 为了确定每个区域的染色质可及性评分,我们使用了每个研究中的SCATAC-SEQ计数表和细胞注释表。为了将单个细胞汇总到“伪库细胞类型”中,我们使用了每项研究的卢文聚类结果。...
文章不错《跨人类细胞类型的转录基础模型》内容很有帮助