整个小鼠大脑中细胞类型的高分辨率转录组和空间图集

微信号：inooooow
不接反杀，想去别人群里开挂，开不了不用加。
复制微信号

　　根据NIH的指南，所有与小鼠使用相关的实验程序均由AIBS机构动物护理和使用委员会批准。将小鼠安置在温度（21-22°C）的房间中，并且在AIB的体内湿度（40-51％）的对照中，每个笼子中相同性别的相同性别的相同性别不超过五只成年动物。为小鼠提供食物和水，并在常规的14:10 h轻：黑暗循环或反向12:12 h的光线上维持。将小鼠维持在C57BL/6 J背景上。我们排除了任何患有心律失常或微观心脏病的小鼠。　　我们使用了95只小鼠（41名雌性，54名男性），以收集10 xv2的2,492,084个细胞，而222只小鼠（112名雌性，110名男性）收集4,466,283个细胞，以10xv3的形式。在产后（p）53-59（n = 141），p50–52（n = 3）或p60–71（n = 173）时，动物被安乐死。没有使用统计方法来预先确定样本量。补充表2中列出了用于SCRNA-SEQ数据生成的所有供体动物。　　通过荧光激活的细胞分选（FACS），将转基因驱动线用于荧光阳性细胞分离，以富集神经元。大多数细胞是从泛神经Snap25-IRES2-CRE系（RRID：IMSR_JAX：023525）中分离出来的，越过AI14-TDTOMATO REPORTER119,120（RRID：IMSR_JAX：IMSR_JAX：007914）（007914）（007914）（279个317个捐助者，补充表2）。少数Gad2-ires-cre/wt; ai14/wt（6个供体）和slc32a1-ires-cre/wt; ai14/wt小鼠（4个供体）（gad2-ires-cre：rrid：rrid：rrid：imsr_jax：imsr_jax：imsr_jax：imsr_jax：imsr_jax：028867; slc32a; slc32a; slc32a; slc32a; slc32a;用于荧光阳性细胞分离，以丰富海马区，OLF和小脑在海马区域中的GABA能神经元的采样。对于无FACS的无偏采样，我们使用了SNAP25-IRES2-CRE/WT； AI14/WT或AI14/WT小鼠。　　贡献每个簇的小鼠数量在2到266之间变化，平均为19个，中位数为14。有23个簇少于4个供体动物。因此，单个小鼠的变异性不应影响细胞类型的身份（扩展数据图5）。　　对于在昼夜节律的黑暗阶段收集的细胞收集，在断奶时将小鼠随机分配到昼夜节时间组，并在反向的12:12 h光线上安装在光线：暗周期。所有小组的大脑解剖发生在早晨。从267个供体中，在光阶段的光阶段收集了5,836,825个细胞：黑暗循环。对于50个供体，在光的黑暗阶段收集了整个大脑的1,121,542个细胞：黑暗循环（补充表2）。　　我们使用CCFV3（RRID：SCR_002978）Ontology22（http://atlas.brain-map.org/，补充表1）来定义大脑区域的分析和解剖边界。我们使用在最重要的层面上采样涵盖了大脑的所有区域，并与邻近区域的明智连接（扩展数据图1D，E和补充表3）。这些选择的指导是，小区域的微解剖很难。因此，有时为了获得足够数量的细胞进行分析，有时需要对邻近区域的关节解剖。与随后生成的Merfish数据的比较表明，我们的基于CCFV3的微作用在细胞亚类和主要大脑区域水平上基本上是准确的（扩展数据图2H）。　　根据在AIBS23,121开发的细胞隔离方案后分离单细胞。将大脑解剖，浸入人造脑脊液（ACSF）中，嵌入2％琼脂糖中，并将其切成压缩机（精密仪器）上的350μm冠状切片。切片期间捕获了块状图像。然后将ROI从切片中显微解剖，并如前所述23。ROI解剖前后每个切片的荧光图像在解剖显微镜下拍摄。这些图像用于使用CCFV3的注释冠状板作为参考来记录ROI的精确位置。　　在30°C下用ACSF中的30分钟，用30 u ml -1蛋白酶（Worthington Pap2）消化解剖的组织块。由于在干烤箱中的短孵育周期，我们将烤箱温度设置为35°C，以补偿间接热交换，目标溶液温度为30°C。通过将木瓜蛋白酶溶液与猝灭缓冲液（ACSF为1％FBS和0.2％BSA）交换三次，从而淬灭酶消化。样品在三次之前将样品在冰上孵育5分钟。将淬火缓冲液中的组织块通过火抛光的移液器进行了三杆，直径约为20次，直径为600 µm。允许组织碎片沉淀，现在包含悬浮的单细胞的上清液被转移到新管中。将新鲜的淬火缓冲液添加到沉降的组织块中，并使用300 µm和150 µm的火抛光移液器重复进行Trituration和上清液转移。单细胞悬浮液通过70 µm的过滤器进入15毫升圆锥管中，底部有500 µL高-BSA缓冲液（ACSF，ACSF为1％FBS和1％BSA），在摇摆的桶中心设置中，在100g的100g中离心10分钟。将上清液丢弃，并将细胞颗粒重悬于淬火缓冲液中。我们收集了1,508,284个细胞，而无需执行FACS。定量重悬细胞的浓度，并立即将细胞加载到10倍基因组铬控制器上。　　为了富集神经元或活细胞，通过在AIBS122开发的FACS方案之后，使用130μm喷嘴通过荧光激活的细胞分选（FACS，BD ARIA II运行FACSDIVA V8）收集细胞。通过将悬浮液通过70 µm滤波器传递并添加Hoechst或DAPI（最终浓度为2 ng ml-1）来制备细胞进行分类。与示例Images122的分类策略如前所述23，大多数细胞是使用TDTomato阳性标签收集的。将大约30,000个细胞在10分钟内分类为包含500 µL淬火缓冲液的管。我们发现，将更多的细胞分为一个管，将收集缓冲液中的ACSF稀释，从而导致细胞死亡。我们还观察到较长的细胞活力降低。将每个等分的30,000个细胞的每个等分试样轻轻地层铺在200 µL的高-BSA缓冲液的顶部，并立即在带有摆动的桶旋翼的离心机中以230克离心10分钟（在管子底部的高泡沫缓冲液在管子底部放慢细胞的底部，它们到达底部的细胞死亡，最小化细胞）。用少量的细胞看不到颗粒，因此我们去除了上清液，并留在35 µL的缓冲液后面，其中我们重新悬浮了细胞。立即离心和重悬于以最小的ACSF稀释液中暂时存储在高-BSA缓冲液中。重悬的细胞在4°C下储存，直到收集所有样品，通常在30分钟内。合并来自同一ROI的样品，定量细胞浓度，并立即加载到10倍基因组铬控制器上。　　一些神经元类型很难使用细胞隔离程序分离。我们在中脑和后脑区域收集了其他单核10倍多组数据，以补充由于技术限制而损失的细胞类型。　　用2.5–3％的异氟烷和心心灌注小鼠，含有110毫米NaCl，10 mM HEPES，25 mm葡萄糖，75 mM蔗糖，75 mM蔗糖，7.5 mm MGCL2和2.5 mm KCl，可将血液从Brain1223中移除血液。灌注后，将大脑迅速解剖，在液氮蒸气中冷冻2分钟，然后在AIBS124开发的冷冻方案后移动至-80°C以进行长期存储。　　使用低温恒温器将冷冻小鼠的大脑分割，而冷冻温度温度集为-20°C，将物体温度设置为-22°C。大脑使用OCT（Sakura Finetek 4583）将小脑或嗅觉区域牢固地安装在低温恒温器上。使用20–50 µm的厚度修剪组织，并在所需的位置切片中产生300 µm的厚度，以在参考地图集后解剖ROI（S）。将解剖留在切割部分时拍摄图像。使用Raisins Method125对核进行分离，并在AIBS126上开发的细胞核分离方案中所述进行了一些修饰。简而言之，将切除的组织解剖转移到包含CST提取缓冲液的12孔板上。通过在冰冷的CST缓冲液中使用弹簧剪子切割剖析，进行机械解离10分钟。然后将整个井的全部体积转移到50毫升圆锥管中，同时通过100 µm滤波器，并使用ST缓冲液洗涤管的壁。接下来，将悬浮液轻轻转移到15毫升圆锥管中，并在500 rcf和4°C下在摇摆的桶离心机中离心5分钟。离心后，将大多数上清液丢弃，将颗粒重悬于100 µL 0.1×0.1×裂解缓冲液中，并在冰上孵育2分钟。添加1 ml洗涤缓冲液后，使用20 µm滤波器轻轻过滤样品，并像以前一样离心。离心大多数上清液被丢弃后，将颗粒重悬于10 µL冷藏的核缓冲液中，并计算核以确定浓度。将核稀释至靶向5,000个核每µL的浓度。　　对于10xV2加工，我们使用了铬单细胞3'试剂盒V2（120237，10X基因组学）。我们遵循制造商的说明，以进行细胞捕获，条形码，逆转录，cDNA扩增和图书馆构造127。我们每个端口加载了11,870±4,146（平均±S.D.）。我们针对每个细胞的测序深度为60,000个读取；在299个文库中，每个单元的实际平均值为54,379±34,845（平均值±S.D。）。　　对于10xV3处理，我们使用了铬单细胞3'试剂盒V3（1000075，10X基因组学）。我们遵循制造商的说明，以进行细胞捕获，条形码，逆转录，cDNA扩增和图书馆构建128。我们每个端口加载了13,404±2,798个单元。我们针对每个细胞的测序深度为120,000个读取；在482个库中，实际上达到的实际平均值为83,190±85,142读。　　对于10倍多重处理，我们使用了铬的下一个宝石单细胞Multiome ATAC +基因表达试剂束（1000283，10x基因组学）。我们遵循制造商的换位，核捕获，条形码，逆转录，cDNA扩增和图书馆构建129的说明。对于SNRNA-Seq库，我们每个端口加载了16,007±692个核，并针对每个核的测序深度为120,000个读取。在本研究中包括的核中，实际达到的实际平均值为1,687个核的每个核的读数为157,023±68,484。　　如前所述进行了10倍基因组学SCRNA-SEQ库的处理23。简而言之，在Illumina NovaseQ6000上对库进行了测序，并使用10x Genomics Cellranger Pipeline（版本6.1.1）将测序读数与小鼠参考转录组（M21，GRCM38.P6）对齐。　　在Illumina NovaseQ6000上对10X基因组学多组（10xMulti）库进行了测序，并将测序读取与从10X基因组学下载的鼠标参考对齐，其中包括ENSEMBL GRCM38（V98）FASTA和GENCA和GENCODE（VM23）GENCODE（VM23）GTF文件，使用10x Genomics cellomics amars amars amars amars（V2.0）。　　为了删除低质量的单元格，我们开发了一个严格的QC过程。在映射到现有的，初步的分类法之后，首先将细胞分为广泛的细胞类别，并根据基因检测，QC评分和双重分数评估细胞质量。QC评分是通过求和一组基因的对数转换的表达来计算的，该基因的表达水平在较差的质量细胞中显着降低。这些是管家基因，几乎在所有具有非常紧密的共表达模式的细胞中都强烈表达，并且与局部局部基因malat1抗相关（补充表4）。在选择的62个基因中，基于GO本体细胞成分，将30个注释为线粒体内膜类别，尽管它们不在线粒体染色体上。一些证据表明，其中一些基因或它们的同源物的mRNA被转移到线粒体表面130,131。我们使用此QC评分来量化细胞质mRNA含量的完整性，这趋于显示双峰分布。低端的细胞与单核非常相似，我们将其去除以进行下游分析。使用DoubleTfinder算法的修改版本（可在Scrattch.hicat，https://github.com/alleninstitute/scrattch.hicat，v1.0.9中获得），在DoubleT Cress得分> 0.3时删除了双重组（可在scrattch.hicat，https://alleninstitute/scrattute/scrattute/scrattch.hicat，v1.0.9）中识别双重球。使用针对不同细胞类别定制的QC评分和基因计数阈值，我们分别滤除了43％和29％的细胞，并分别保留了2,546,319个细胞和1,769,304个细胞的10xV3和10xV2数据（扩展数据图1）。阈值参数和过滤的细胞数量在补充表4中总结了。例如，对于神经元（不包括颗粒细胞），我们使用了2,000的基因计数，QC得分为200。　　我们采用了类似的策略来滤除10倍SNRNA-SEQ数据集的低质量核。在映射到现有的初步版本分类法之后，首先将核分类为宽细胞类别，并根据基因检测，QC评分和Doublet评分评估细胞质量。对于10xmulti snRNA-seq数据集，尽管与10xv3 scrna-seq数据集相比，总体基因计数较低，但它们显示出质量控制指标的双峰分布更强，因此我们可以负担得起保持高临界值。对于神经元（不包括颗粒细胞），我们应用了2,000个基因计数截止，QC得分临界值为100。　　Clustering for both 10xv2 and 10xv3 datasets was performed independently using the in-house developed R package scrattch.bigcat (v0.0.5, available via github https://github.com/AllenInstitute/scrattch.bigcat), which is a scaled-up version of R package scrattch.hicat23,26 to deal with the increased size of datasets.scrattch.bigcat采用了用于存储稀疏矩阵的镶木材料文件格式，该格式允许操纵矩阵，这些矩阵太大而无法通过内存映射到磁盘上的文件中的内存映射。将整个基因计数矩阵分解为较小的镶木档案，箱大小为50,000，基因为500，可以使用Arrow软件包（v12.0.1，https://github.com/apache/arpache/arlow/，https:/https:/https:/ https:/ https://arrow.apache.org/docs/r/），可以有效地和同时加载。　　我们提供实用程序功能，以将R中的Rement和Concatenate稀疏矩阵转换为此格式，并在此格式和其他常用的文件格式（例如H5，H5AD和ZARR）之间进行转换。我们还提供了一个函数，该函数将任何子矩阵加载到给定单元ID和基因ID的内存中。镶木木格式的选择是基于其在R中的出色性能，它允许持续使用旧版代码库。scrattch.hicat软件包的主要功能已重写，并在scrattch.bigcat中提供。我们使用了自动迭代聚类方法iter_clust_big，该方法以上向下进行聚类的方式进行了越来越细的分辨率的细胞类型，同时确保所有成对的簇，即使在最好的水平上，也可以通过严格的差异基因表达标准分离，如下所示：for sougns：for sours：for 10v2，q1.1.1.sscore = 0.4 = 0.4 = 0.4，q.diff = 0.4，q.diff.diff = 0. feiff = feiff.diff = 0.diff。min.cells = 10;对于10xV3，q1。= 0.5，q.diff.th = 0.7，de.score.th = 150，min。cells = 4。这些标准在任何一对簇之间至少转化为至少8个二进制二进制（每对deg对De.Score的贡献至少在20个基因时都需要8个基因，因此需要超过De.Score。将二进制DEG定义为在10xV2中前景集群中至少40％的细胞中表达的基因，在10xV3（q1.th参数）中表达50％，| log2（fc）|> 1，调整 <0.01, and difference between the fraction of cells expressing the gene in foreground and background divided by the foreground fraction was greater than 0.7 (q.diff.th parameter). 　　To enhance scalability, a randomly subsampled set of cells to be clustered were loaded into memory to compute high variance genes and perform principal component analysis (PCA), then projected to all the cells to obtain their reduced dimensions. Then Jaccard–Leiden clustering proceeded as before23. 　　10xMulti snRNA-seq datasets were clustered using the same pipeline, using more relaxed threshold: q1.th = 0.4, de.score.th = 130, min.cells = 10. 　　We performed differential gene expression both at the clustering step for each iteration, and after clustering between all pairs of clusters. In our original scrattch.hicat package, we applied limma package133 to perform this analysis. Given the significant increase of data size and complexities of the taxonomy, we re-implemented this method that provides essentially identical results, but drastically improves performance and scalability. The method first scanned the whole log-transformed cell-by-gene matrix once to compute, for each cluster and each gene, the average expression, the fraction of cells expressing the gene, and the sum of square of gene expression of all the cells within the cluster. These cluster-level summary statistics were then used in the linear model equivalent to the one used in limma to compute the pvalue, adjusted pvalue, log fold change, and the contrast between foreground and background based on the fraction of cells expressing the gene. This process was massively parallelized. Clusters were grouped into bins, and the DEG analysis results were stored on disk in chunked parquet files, split based on which bin the foreground and background clusters belonged to. In this way, we were able to compute DEGs between ~13.5 million pairs of clusters within a day on a single Linux server. Using the arrow package, we were able to query DEGs between any pairs of clusters very efficiently. 　　Before proceeding with integration between 10xv2, 10xv3, and 10xMulti datasets, we first needed to remove noise clusters. The presence of such clusters can confuse the integration algorithm and reduce the cell-type resolution. There are two main categories of noise clusters: clusters with significantly lower gene detection due to extensive drop out, and clusters due to doublets or contamination. 　　We first identified doublet clusters based on the co-expression of any pair of broad class marker genes using find_doublet_by_marker function in scrattch.bigcat package. To identify other doublet clusters, we searched for triplets of clusters A, B and C, wherein A was the putative doublet cluster, such that up-regulated genes of A relative to B largely overlapped with up-regulated genes in C relative to B, and up-regulated genes in A relative to C largely overlapped with up-regulated genes of B relative to C. This criterion ensured that A included the most distinguished signature of B and C. To rule out the possibility that A was a transitional type between B and C, we required that B and C could not be closely related types based on the correlation of their average gene expression of marker genes. After we systematically produced the list of all the candidate triplet clusters, the final determination was an iterative process that involved setting different thresholds and manual inspection of borderline cases. 　　After removing all doublet clusters, we then identified clusters with lower gene detection. To do that, we identified pairs of clusters such that one cluster with at least 50% fewer UMIs or >相对于另一个集群，QC得分较低，尺寸较小，不超过一个上调的基因为低质量簇。在这些情况下，一个集群是另一个群集的降级版本，因此被删除。　　我们在10xV3中鉴定了933个噪声簇，有153,598个细胞，在10xV2中鉴定了201个噪声簇，有38,073个细胞。从集成分析中除去了10xV3噪声簇，但意外包括10xv2噪声簇。幸运的是，在集成后的进一步的QC步骤中，将大多数来自10xV2噪声簇的细胞排除在外。　　为了提供一个基于〜2 M单元的10xV2和10xV3数据集提供一个共识的细胞类型分类法，我们扩大了集成聚类方法23的扩展，并通过scrattch.bigcat软件包提供了群集管道，该群集管线扩展了上述群集管道，以集成了由不同转录平台收集的集成数据集。如前所述进行分析，并进行了较小的修改。为了构建包含所有数据集的样本的通用图，将10xv2和10xv3都用作参考数据集。管道中的关键步骤是：（1）为每个参考数据集选择锚固单元格；（2）选择每个参考数据集中的高方差基因，优先考虑共享高方差基因；（3）在模态和交叉模态内计算KNN；（4）根据共享邻居计算Jaccard相似性；（5）基于jaccard相似性执行莱顿聚类；（6）基于相似细胞类型之间模态的保守DEG的总数和重要性合并；（7）重复群集中的单元的步骤1-6，以获得更优质的分辨率簇，直到找不到簇为止；（8）将所有迭代聚类步骤中的所有群集串联并执行最终合并，如步骤6。如果在第6步中，如果一个群集的数据集中的一个群集少于数据集中的最小数量（4个单元格的4个单元格为10xV3和10个单元格10xV2的单元格），则该数据集并非用于与给定的Pairs的差异表达的Gene Computation compairs ins gressive clistation came ins gene cmairs。此步骤允许检测仅在某些数据类型中存在的唯一簇。　　与以前的版本相比，关键改进是计算KNN的步骤3。我们使用Biocneighbor软件包（v1.16.0，https：//github.com/ltla/biocneighbors）来计算KNN使用Euclidean距离在模态和余弦范围内使用烦恼算法跨模态距离（v1.17.1，v1.17.1，v1.17.1，https://githubub.com.com.com.com/spotify/nannoy）。烦恼索引是基于参考数据集的锚式单元格构建的，并对所有查询单元并行计算了KNN。由于数据集大小显着增加，Jaccard相似性图可能非常大，无法适应内存。该方法根据用户指定的参数对数据集进行了下采样，并且如果将每种模式的群集成员身份作为集成算法的输入提供，我们通过模式内群簇对单元进行了下采样，从而确保了稀有细胞类型的保存。将所有锚单元添加到下采样的数据集中。Jaccard – Leiden聚类是在下采样的数据集上进行的，并根据步骤3中计算的KNN估算其他单元的簇成员身份。　　集成算法产生了5,283个簇，用于构建细胞类型分类法。在此过程中，通过手动检查鉴定出其他噪声簇，该检查表现出异常的QC统计数据，规范标记的异常表达或Merfish数据集中的缺失。这些簇中的大多数都是很小的，可能会损坏的细胞双重双重。去除这些额外的噪声簇后，我们有5200个簇，其中有4,041,289个单元。　　在根据Merfish数据集对每种单元类型的空间分布进行仔细检查之后，我们意识到Astro -Epen类中的某些现有簇并未完全捕获数据集中存在的丰富空间梯度。我们还确定了一些具有高群内异质性的后脑神经元簇。几个因素可能导致这些异质簇的存在。首先，这些细胞类型的采样不够全面。它们可能非常罕见，鉴于在这些区域中存在很大一部分的非神经元细胞以及高水平的髓鞘化，这些细胞可能很难收集。其次，后脑中的某些细胞类型特别容易受到组织解离的影响，使它们更难以剖析，并且存活的细胞倾向于泄漏更多的转录本。这就是我们在数据集中非常小的Purkinje神经元种群中观察到的。初始聚类后，我们分别鉴定出一对具有高基因计数或低基因计数的Purkinje神经元簇。在后处理管道中，低基因计数集群随后被丢弃为低质量簇。最后，与其他大脑区域的神经元类型相比，后脑神经元类型的转录组差异似乎是微妙的。这些微妙的差异使后脑神经元类型更难分类。为了解决上述问题，我们从Astro epen类中重新聚集了细胞，并具有更轻松的阈值：de.score.th = 80，min。cells.cells = 8。产生的更精致的剪贴器更好地映射到Merfish DataSet上，具有不同的Spatial Spatial and Spatial Center，MarkEn and Marker nister niction centers gene consece and center nistion nistion。　　通过将我们新生成的10倍SNRNA-SEQ数据映射使用SCRNA-SEQ分类法（请参阅“分配细胞类型的身份”），我们确定了几个具有明确转录签名的Scren-Scren-Seq细胞的10倍群集。这些簇在我们的scrna-seq分类学中的缺失导致我们的Merfish细胞型注释中的映射和“孔”不良。因此，我们将这些及其邻近的10xMulti簇添加到现有的分类学中，以增强SCRNA-SEQ数据集中这些耗尽种群的细胞类型分辨率。Considering the overall lower cell-type resolution of the 10xMulti snRNA-seq dataset due to smaller number of cells and lower gene detection compared to the scRNA-seq datasets, we did not proceed with full-scale integration of the entire 10xMulti snRNA-seq dataset which could compromise the many high-resolution clusters already present in our scRNA-seq taxonomy.因此，我们的最终细胞类型分类法包括5,291个SCRNA-Seq主导的簇，总共4,041,289个细胞和31个10xmulti snRNA-Seq主导的簇，总计为1,687个核。　　对于每个群集，我们计算了保守的DEG（在一个数据集中至少有意义，并且在另一个数据集中至少在相同方向上进行了两倍变化）。我们从每个方向选择了前20摄氏度，并从所有成对比较中汇总了此类基因，以产生总共8,460个基因标记（补充表5）。　　为了创建用于Merfish实验的基因面板，我们优先选择了选择标记基因，该标记基因将成对的成对的不同簇与> 100度分开，而成对的Mb/Hb细胞类型对具有> 20 dgs。我们还排除了在以前的Merfish实验中表现不佳的任何基因。我们从先前研究中策划的一组默认的默认标记基因开始，并选择了其他基因，以选择一个最小的集合，该集合在每个方向上至少包含所有此类对的2度。为此，我们使用贪婪的算法在一次分开尽可能多的未解决对的同时选择一个基因，同时仍考虑其相对统计显着性，该基因从SCRATTCH.BIGCAT软件包中实现，并从此列表中选择了前400个基因（包括默认基因）。然后，我们尝试使用相同函数在所选基因覆盖的任何剩余的簇中选择一个DEG。我们的目标是在子类水平上建立具有强大预测能力的固体基因面板，并在解决较细的细胞类型方面保持机会主义。除默认基因集外，其余基因在很大程度上以降低的预测能力排序。我们总共向Vizgen门户提交了700个基因，并选择了通过Vizgen应用的其他过滤器的前500个基因。最终基因集在聚类水平上提供了76.6％的总体交叉验证精度，在亚类水平上提供了97.2％。　　我们首先将关节聚类结果与每个数据集的独立聚类结果进行了比较。然后，我们计算每个数据集的标记基因的群集均值。对于每个标记基因，我们计算了在两个不同数据集中每个群集的平均表达式之间的Pearson相关性，以量化其在数据集之间的群集级别上表达的一致性（扩展数据图7D）。我们在10XV3和Merfish数据集之间进行了类似的分析。　　为了使每个级别的细胞类型复杂性可牵引，我们将5,322个簇组织为一个具有4个级别的层次结构：类，子类，超级型和群集。在“关节聚类”部分中按描述计算簇后，我们首先通过聚类簇定义了子类。这是通过Jaccard -Leiden聚类使用534个转录因子标记基因的平均表达，使用5个KNN，并改变莱顿算法的分辨率指数0.1、2.2、1.2、1、5和8。概括现有的细胞类型知识，包括空间分布和谱系关系。Leiden算法在分辨率索引0.2上生成了48个组，该组生成了“类”的初始版本，在分辨率索引8上生成了240个组，该索引8生成了“子类”的初始版本。　　使用单细胞数据可视化工具cirrocumulus（v1.1.56，https://cirrocumulus.readocs.ios.ios.ios.ios.io/en/latest/），使用单细胞数据可视化工具cirrocumulus将最初自动生成的类和子类别与所有其他元数据一起可视化。我们对边界案例进行了微调，并进一步拆分或合并了一些推定的子类，以达到子类的最终定义。我们应用了一个类似的过程来定义类并实现严格的层次结构，将一个子类中的所有集群分配给同一类。最后，我们在每个子类中的所有群集中应用了相同的Jaccard -Leiden算法，以分别定义超级型，并使用子类中所有群集的所有成对簇之间的顶部20摄氏度的结合作为特征。同样，根据对卷卷可视化的2D和3D UMAP和MERFISH切片的手动检查，对它们进行了调整，以提高子类之间的超构型定义的一致性。自动计算和手动修订的比较，细胞类和子类的最终定义显示为扩展数据中的混淆矩阵。　　我们使用10xV3参考的基于8,460个标记基因的估算基因表达基质进行了PCA。我们每个集群最多采样了100个单元，如果总数超过此数字，则进一步采样了250,000个单元，因此PCA可以在没有任何记忆问题的情况下进行。同样，将基于采样单元的主要组件投影到整个数据集。我们选择了前100个主要组件，然后删除与技术偏置矢量相关0.7相关的一个PC，该PC定义为每个单元的Log2（基因计数）。我们使用剩余的主组件作为输入来创建2D和3D UMAPS134，使用参数nn.nn.nn.nn.nn.nn.nn.nn.nn.nn.nn.nn.nn.nn.nn.nn.nn.nn.nn.nn.nn.nn。为了防止某些大簇占用太多空间，我们根据PCA空间中采样的细胞中的KNN邻居估算了每个群集最多采样1000个单元以构建UMAP，并估算其他单元的UMAP坐标。　　使用星座图可视化细胞类型之间的全局相关性（扩展数据图6）。为了生成星座图，每个转录组子类由节点（圆）表示，该节点的表面积以对数刻度的子类反映了子类内的单元格数。节点的位置基于UMAP坐标中相应子类的质心位置。节点之间的关系通过如下计算的边缘指示。对于每个单元，确定了缩小空间中的15个最近的邻居，并通过子类总结。对于每个子类，我们计算了分配给其他子类的最近邻居的分数。边缘连接了两个节点，其中至少一个节点在连接节点中具有> 5％的最近邻居。节点处的边缘的宽度反映了分配给连接节点的最近邻居的分数，并缩放到节点大小。对于图中的所有节点，我们确定了“外部”邻居的最大分数，并将其设置为边缘宽度=节点宽度的100％。scrattch.bigcat中包含创建这些图的功能，即plot_constellation。　　我们首先注释了每个子类及其最具代表性的解剖区域，并使用其代表区域，主要神经递质和某些情况下一个或两个标记基因的组合命名了子类。然后，我们根据分类树订购了子类，并相应地分配了子类ID。每个子类中的超级型名称是通过组合子类名称和子类中超级类的分组编号来定义的。根据子类的分类树顺序和每个子类中的超级型的组顺序，依次分配了超级型ID。群集ID还基于子类和超级型的顺序分配。最终的群集名称是通过将每个群集的ID与群集所属的超级型的名称组合在一起来分配的。基于Allen Institute的细胞类型命名法提案135，我们还将登录号分配给细胞类型，如补充表7所示。　　我们使用不同的标记基因集进行了五倍的交叉验证：所有8,460个标记基因（“标记基因选择”），534个转录因子标记基因和20组为534个随机抽样的标记基因，来自8,460标记列表。我们将每种模式中的群集质心定义为集群中所有训练单元的平均基因表达式，并根据所选标记列表基于用户指定的距离指标（默认情况下）构建烦恼KNN指数。对于每种模式中的测试单元，我们通过使用相应的烦恼索引将它们的细胞类型身份映射到最近的群集质心。此过程是在scrattch.bigcat软件包中在map_cells_knn_big函数中实现的，并且可以通过大规模并行化可以非常有效地执行映射。　　我们还开发了这种方法的层次结构版本，以使用基于上下文的不同基因列表为参考分配Merfish，MultioMe SNRNA-Seq或任何外部数据集的单元格类型身份。当需要映射置信度时，我们从标记列表中随机抽样了80％的基因，并进行了100次映射。将单元格分配给给定的单元格类型的时间的分数定义为映射概率。　　对于层次映射，我们首先建造了一个带有根，类，子类和簇的树。在每个内部节点上，我们选择了最能区分不同子节点的簇的标记，并根据所选标记将查询单元分配给儿童节点。在树的每个级别重复该过程，直到将查询单元映射到叶片级别的簇为止。该算法在Scrattch-Mapping软件包中实现，并公开访问（v0.2，https：//github.com/alleninstitute/scrattch.mapping）。　　为了促进来自不同平台的单元格的直接比较，我们将10xV2或Merfish数据集（查询）的基因表达投射到10xV3数据集（参考）。基本思想是在每个查询单元的参考单元中计算KNN（默认为k = 15），并使用每个基因的这些邻居的平均表达方式作为估算值。关键决定之一是选择用于计算KNN的距离度量。由于在簇水平上的基因表达总体保存，我们选择了余弦度量（扩展数据图7D）。另一方面，保护并不是完美的，并且使用过多的基因来推断KNN可以使推断更容易受到平台差异的影响。因此，我们使用了500个Merfish标记基因来计算KNN，因为它们在层次结构的各个级别上提供了良好的预测能力，并在群集水平上显示高度相关性在10xV2和10xV3平台之间（中位数0.945，扩展数据扩展图7d）。尽管一个良好的起点，但通过合并群集水平的DEG可以进一步提高分离较细胞类型的归合精度，因为其中较少的500种Merfish基因列表中包含了群集，并且不是完全二进制的。为了解决这个问题，我们利用已建立的细胞类型层次结构并进行迭代进行推定，首先是在最高级别，然后在每个类别和子类中。在最高级别，我们使用了500种Merfish基因计算KNN，然后估算所有8,460个标记基因的表达。对于每个随后的迭代，我们仅使用给定类别/子类中的群集之间的前10摄氏度来计算同一类/子类与查询单元的参考单元之间的KNN；然后，我们更新了给定类/子类中簇之间的顶部20度的估算表达式。　　一种替代的简单策略是简单地计算同一群集和/或相同子类中参考细胞之间每个查询单元的KNN，并将所有标记基因的表达归为表达。但是，使用此策略的插补值无法保留簇或子类之间的过渡，从而夸大了细胞类型之间的分离，尤其是在较细的水平上。　　Recent benchmark studies indicate that for simpler integration problems with relatively low biological complexity and relatively small batch effects in scRNA-Seq datasets, linear methods outperform nonlinear, more complex methods136,137, while for complicated integration tasks with large biological complexity and bigger batch effects, nonlinear methods such as scVI/scanVI outperform others138.在我们的情况下，10xv2和10xv3之间的整体批次效应相对较小，但生物复杂性很大。因此，为了以鸿沟和征服方式解决这种复杂性，我们使用了一系列的线性归精，并增加了分辨率越来越近似非线性关系，因为任何非线性曲线都可以使用一系列线性片段准确地近似。此方法为非常大的数据集提供了可伸缩性/鲁棒性，同时保留细粒细胞类型分辨率。该方法是在scrattch.bigcat中的Impute_cross_big函数中实现的，数据集的预定义分割在不同级别，用于KNN推断的基因以及用于输入的基因。　　同时，我们还测试了包括SCVI/SCANVI在内的非线性方法。为了使其适用于具有很高复杂性的大型数据集，我们将数据集采样并大大增加了神经元网络模型的大小，以实现合理的性能。我们需要探索一个巨大的参数空间，以进一步优化性能，这是进一步研究的积极领域。　　我们使用相同的策略将Merfish数据集的8,460个标记基因表达出来，只是仅使用500 Merfish基因面板中存在的DEG来计算类和子类水平的KNN。由于分割不完善，该策略仍然有助于减少邻近细胞受到污染的影响。验证结果在扩展数据中显示了图8。　　10xV2、10XMulti和Merfish数据集的插图结果以及10xV3数据集作为锚定，用于生成扩展数据中显示的集成UMAP图7a。　　我们根据规范神经递质转运蛋白基因的表达和合成酶的表达，系统地分配了对每个细胞簇的神经递质身份（图1E，图3，扩展数据图3E，扩展数据图9，补充表7）。使用的标准是：　　谷氨酸能（GLUT）：SLC17A6（也称为VGLUT2），SLC17A7（VGLUT1）或SLC17A8（VGLUT3）。　　GABA能（GABA）：（ SLC32A1（VGAT）或SLC18A2（VMAT2））和（GAD1，GAD2或ALDH1A1）。　　糖（GLYC）：SLC6A5。　　胆碱能（CHOL）：SLC18A3（VACHT）和聊天。　　多巴胺能（DOPA）：（ SLC6A3（DAT）或SLC18A2）和（TH和DDC）。　　血清素能（Sero）：（ SLC6A4（SERT）或SLC18A2）和（TPH2和DDC）。　　Noradrenrenagic（Nora）：（ SLC6A2（NET）或SLC18A2）和DBH。　　组胺能（历史）：SLC18A2和HDC。　　我们为这些基因使用了严格的表达式阈值（CPM）> 3，以将神经递质的身份分配给每个群集。　　这些标准非常严格，因为它们需要对神经递质转运蛋白和相应的关键神经递质合成酶共表达。它们也包含在内，因为包括替代性神经递质合成和释放基因。例如，我们将囊泡单胺转运蛋白SLC18A2（VMAT2）包括在所有单胺发送器和GABA中。众所周知，在许多中脑多巴胺神经元（在VTA和SNC中）中，在没有GAD1或GAD2的情况下，ALDH1A1用于合成GABA，而SLC18A2用于在缺乏SLC32A157的情况下共释放多巴胺和GABA。　　值得注意的是，据报道的一种非常规机制118 SNC多巴胺能神经元在SNC多巴胺和GABA中的基础不取决于细胞自治的GABA合成，而是取决于通过GABA Transporter Slc6a1（gaba on Concy on Contion ins of gaba ons on Contion ins of gaba on Contion insynaptic insynaptic insynaptic insynaptic intape），这可能使这些细胞中的AldH1A1不必要。但是，由于SLC6A1在所有GABA能神经元以及星形胶质细胞，甚至许多下皮层谷氨酸能神经元中都广泛表达，因此我们尚不清楚这种非常规机制（绕过所有GABA合成酶）的应用是多么广泛地适用。因此，我们没有将SLC6A1包括在我们的标准中，以最大程度地减少误报，即使有一些虚假负面因素的风险也是如此。　　为了鉴定与定义主要细胞类型有关的转录因子基因模块（图5D，补充表8），我们基于其在功率= 6的亚类水平上的平均表达在534转录因子标记基因上进行了WGCNA分析139，并进行了tomtype = 6和tomtype =“ Signed”，并检测到“签名”，并检测= 0.998。去除“灰色”模块中的基因，与所有其他基因的相关性较差，并且通常将富含神经元的基因排除在外。某些模块中的基因显然具有不同的模式，因此进一步拆分，并重新排序以更好地可视化。　　制定了标准程序来隔离，切割，固定和预处理组织，以保留宏观和细胞形态，并产生Merfish的最佳信号与噪声比。将小鼠从小鼠转移到手术室，并努力在转移过程中最大程度地减少压力。如果小鼠体重落在正常范围（18.8至26.4 g）之外，则在Merfish过程中不使用大脑。用0.5％的异氟烷麻醉小鼠。设计了一个网格衬里的冷冻室，以使大脑在块中的标准化放置，以最大程度地减少截面平面的变化。将冰冷的OCT放置在腔室中，并在干燥的冰乙醇浴中将腔室短暂放置在底部冷冻。大脑迅速解剖并放入OCT中。使用解剖范围调节大脑的方向，并在干冰/乙醇浴中冷冻包含OCT和大脑的冷冻室。大脑存储在-80°C。　　新鲜的冷冻大脑在Leica 3050 s的低温器上以10 µm的形式切片。将包含新鲜冷冻大脑的OCT块在低温恒温器中修剪，直到到达所需的起始部分。每200 µm收集切片，以均匀地覆盖从前到后均匀覆盖大脑，并将每个部分安装在用黄绿色（YG）荧光微球处理的功能化的20毫米盖玻片上（Vizgen，2040003）　　在盖玻片上进行空气干燥10-15分钟后，将组织切片加载到Leica Autostainer XL（Leica ST5010）中。将它们在1×PBS中洗涤1分钟，在4％PFA中固定15分钟，在1×PBS中洗涤5分钟3次，在70％乙醇中洗涤，然后在4°C下储存在70％的乙醇中。它们的存储至少一天，在继续前进不超过6周。　　为了用Merfish探针染色组织，使用了制造商提供的修改版本的指令。所有解决方案都是根据制造商提供的指示准备的。从70％的乙醇中除去杂交样品，并在含有Vizgen样品准备缓冲液的培养皿中洗涤（Vizgen，20300001）。吸气样品准备缓冲液，并用5 ml的Vizgen Formamide洗涤缓冲液（Vizgen，20300002）在37°C的加湿孵化器中平衡样品30分钟。通过抽吸去除去甲酰胺洗涤缓冲液，并将50μl的Merscope基因面板混合物添加到组织截面的中心。接下来，将组织截面覆盖，并储存在37°C的37°C细胞培养培养基中36-48小时。　　除去覆盖该切片的parafilm，并立即添加5 mL的Vizgen Formamide洗涤缓冲液。将切片在47°C下孵育30分钟。吸气甲酰胺洗涤缓冲液，然后重复上一步。第二次甲酰胺洗涤后用Vizgen样品预备洗涤缓冲液洗涤切片2分钟。将110 µL的Vizgen凝胶嵌入溶液（Vizgen 20300004）和TEMED添加到凝胶润滑涂层的显微镜载玻片的中心，并轻轻去除任何多余的嵌入溶液。　　为了使凝胶完全聚合，将切片在室温下孵育1.5小时。为了清除组织，根据制造商的说明，将截面与蛋白酶K（NEB p8107s）在5 mL的Vizgen清除溶液（Vizgen 20300003）中孵育至少24小时，或直到在37°C下在合并的孵化OVEN中清楚地清楚地清楚。　　清除后，将切片洗涤两次在样品洗涤缓冲液中（Vizgen，20300001）。将Vizgen Dapi和Polyt染色（Vizgen，20300021）应用于每个部分15分钟，然后在甲酰胺洗涤缓冲液中洗涤10分钟。在设置Merscope期间，卸下甲酰胺洗涤缓冲液，并用样品洗涤缓冲液代替。将100 µL的RNase抑制剂（新英格兰Biolabs M0314L）添加到250 µL成像缓冲液激活剂（Vizgen，203000015）中，并通过墨盒激活端口添加此混合物，以预先吸收和混合的Merscope ImaCtridge（vizgen，1040004）中添加到预醒的和混合的Merscope Imertridge（Vizgen）。将15毫升的矿物油（Millipore-Sigma M5904-6x500ml）添加到激活端口中，并根据Vizgen说明对Merscope Flicids System进行了启动。根据Vizgen规格，将流量室与杂交和清除的截面盖玻片组装在一起，并在收集10×马赛克DAPI图像并选择成像区域后开始成像疗程。对于通过最小计数阈值的样品，启动成像，并根据Vizgen专有协议完成处理。　　使用Vizgen软件（V231）对RAW MERSCOPE数据进行解码。如前所述140进行细胞分割。简而言之，基于DAPI和Polyt染色对细胞进行分割。分割在中位z平面（7中的第四个）上进行，并将细胞边界传播到上方和下方的Z平面。对所得的细胞表进行过滤，以保持细胞的体积> 100 µm3和<3,000 µm3，这些细胞至少检测到15个基因，至少包含40个，但不超过3,000个mRNA分子（扩展数据中的红色虚线图2d，e）以去除这些较低的细胞和二次元素。通过细胞体积和log2转化将基因的总体计数标准化。为了将群集身份分配给Merfish数据集中的每个单元，我们将Merfish细胞映射到SCRNA-SEQ参考分类法。为此，将10xv3 scrna-seq数据属于两个数据集共有的基因。我们的映射方法（如“分配细胞类型的身份”中所述）在SCRNA-SEQ参考数据集中找到了与共享基因相关的查询数据点中最近的群集质心。将最近邻居的群集标签分配为映射标签。以80％的标记基因取样进行引导，以使标签分配鲁棒。　　To facilitate alignment of MERFISH sections to the CCFv3, we assigned each cell from the scRNA-seq dataset to one of these major regions: cerebellum, CTXsp, hindbrain, HPF, hypothalamus, isocortex, LSX, midbrain, OLF, PAL, sAMY, STRd, STRv, thalamus and hindbrain.该描述是由SCRNA-SEQ实验的区域特异性解剖以及区域特异性的特异性驱动的。由于皮质区域之间细胞类型组成的梯度过渡更加梯度，但尽管更颗粒状的解剖区域，但皮质板区域的特异性仅限于等皮质，OLF和HPF。将SCRNA-SEQ数据集中的每个群集分配给该区域，大多数细胞均来自。我们确定了用于Merfish数据区域注释的锚簇。这些簇被定义为（1）一个区域中所有细胞的30％，以及（2）Merfish截面中的20个以上的细胞。除此之外，我们还使用了室心膜和脉络丛细胞来标记心室，并鉴定出富含白质区的少突胶质细胞的特定簇。为了说明在其主要区域以外的区域发现的群集，我们为每个单元计算了其物理空间中的50个最近的邻居，并将每个单元重新分配到主导其邻居的区域注释。接下来，我们使用了相同的方法将映射到非锚簇映射到非锚群的每个单元格为主导其直接周围的区域。最终的标签图被用作我们的注册工具的输入，以查找每个部分的大约位置，沿着大脑后轴的前轴以及分段期间引入的俯仰和偏航中的任何偏移。　　以10 µm的面板分辨率进行注册。对于每个部分，通过将每个基因探针的10×10 µM网格中检测到的斑点数汇总为解剖参考图像。通过为每个网格单元的最大计数，在所有探针中创建一个图像。中线是通过注释最大和最腹侧的注释来确定的。然后使用这些点来计算刚性变换，以将截面直立和中间旋转。这组校正图像以序列顺序堆叠，以创建用于注册的初始配置。　　通过将上述SCRNA-SEQ衍生区标签与CCFV3的相应解剖结构匹配，与Allen CCFV3对齐。通过将分配给该区域的单元格在10×10 µm网格中分配给该区域的单元格，使用计算的刚性变换来转换为初始配置，从而生成了标签图。使用相应的解剖标签，使用蚂蚁注册框架来通过三个主要步骤在Merfish数据和CCFV3之间建立2.5D可变形的空间映射：（1）执行3D全球仿射（12 DOF）映射，以将CCFV3对准Merfish空间。这从CCFV3产生了重新采样的部分，该部分为每个Merfish部分提供了截面的2D目标空间。由于CCFV3是带有各向同性体素的连续标签，因此避免了如果在Merfish Data上进行重新采样，则可能会导致插值伪像，该数据具有较大的部分间隙，并且可能包含缺失的部分。（2）在为每个Merfish段建立了重新采样的CCFV3部分后，进行了2D仿射登记以对齐每个Merfish部分，以匹配CCFV3脑的全局解剖结构。这解决了使用中线对Merfish部分的初始手动堆叠的未对准，并提供了全局映射以初始化局部可变形映射。（3）最后，在每个部分上都使用2D多尺度的对称差异编码（步骤尺寸= 0.2，Sigma = 3）来映射每个部分中相应的Merfish和CCFV3结构之间的局部解剖学差异。保留了这些注册步骤中每个步骤的全局和部分映射，并保留了串联（具有适当的反转），以允许在原始Merfish坐标空间和CCFV3空间之间进行点对点映射。　　After registration to CCFv3, we found that out of 554 terminal regions (grey matter only, Supplementary Table 1), there were only 7 small subregions completely missed in the MERFISH dataset: frontal pole, layer 1 (FRP1), FRP2/3, FRP5, accessory olfactory bulb, glomerular layer (AOBgl), accessory olfactory bulb, granular layer (AOBgr), accessory嗅球，二尖瓣层（AOBMI）和附件上方组（ASO）。　　基于CCFV3注册结果，将每个Merfish细胞分配给CCFV3结构。为了进行进一步的量化，我们将CCFV3在两个层次结构（CCFV3_LEVEL1和CCFV3_LEVEL2，补充表9）下汇总，仅关注灰质结构。只有51/59个部分落在CCFV3的边界内。此外，如果该区域中少于5％的细胞存在，则通过排除CCFV3_LEVEL1区域中亚类细胞的细胞来滤除可能未对准的细胞。这将用于空间分析的细胞数量限制为3,062,367个细胞。我们总结了一个区域内每个子类的所有细胞，并通过每个区域的最大子类数量进行标准化（富集，图6a）。通过CCFV3的图表（补充表9）排序区域，并按类别ID按类别按类订单。班级顺序略有改变，以较少强调神经递质类型，而对区域特异性的更多更改。我们不包括25类松果体，因为松果体不是CCFV3的一部分。为了计算神经元/胶质比，我们将各种类别分配为神经元或神经胶质（补充表7），并将每个CCFV3_LEVEL2区域的细胞总结。使用类似的方法根据每个群集的指定神经递质的身份来计算每个区域的神经递质组成（补充表7）。　　为了量化跨大脑区域的细胞类型的分布模式，我们计算了CCFV3_LEVEL2区域注释处的每个子类的GINI系数（图6A和扩展数据图14）。Gini系数是分布中不平等的量度。它是0到1之间的数字，其中0代表完美的平等（每个区域都有类型的相对相对数量），而1表示最大的不等式（仅在一个区域中找到单元格类型）。在计算GINI系数之前，每个区域中每个区域中每个子类的细胞数量都由每个区域的总细胞数量归一化，以解释体积差异，从而考虑各个大脑区域的细胞总数。我们使用R package desctools的GINI函数来计算每个子类的Gini系数。　　为了衡量大脑区域相对于细胞类型组成的复杂性，我们计算了香农多样性指数。香农多样性指数通过考虑细胞类型的分布及其丰度来量化系统中的不确定性或熵。它结合了丰富度（不同的细胞类型的数量）和均匀度，以提供多样性的度量，以反映系统中的信息内容或混乱。较高的值表明物种的多样性和更均匀的分布。我们使用了R包纯素食的多样性函数。我们计算了CCFV3_LEVEL2区域的香农多样性指数，用于亚类和超级型的组成（图6A）。　　为了检查神经元细胞的转录组身份和空间定位之间的关系，我们测试了基于空间位置可以预测转录组细胞类型的程度，反之亦然。随着谷氨酸能和GABA能神经元在许多大脑区域的共定义，为了简化问题，我们首先根据其类分配的神经元分裂，其中一组GABA类的细胞以及另一组的Glut，Dopa和Sero类的细胞。对于此分析，我们的目标是了解任一组内转录组和空间位置之间的关系。　　我们将Merfish数据集用于此测试。为了预测基于转录组的空间定位，我们使用了所有8,460个标记基因的估算的Merfish转录组。在每个组中，我们首先在组中的所有群集对之间计算了前20度，并将其汇总。然后，我们使用选定的标记在估算的Merfish转录组上进行了PCA，并选择了前100个组件来计算每个单元的KNN（不包括本身）。然后，对于每个细胞，我们根据其转录组KNN的CCFV3区域的多数票预测其CCFV3区域，如上所述。实际CCFV3区域与预测的CCFV3区域之间的混淆矩阵（扩展数据图16）表明哪些CCFV3区域与均匀的转录组特征共享细胞。　　同样，我们根据其3D空间坐标计算每个细胞的KNN，并根据其空间KNN的细胞类型的多数票来预测其在类，亚类和超级型水平的细胞类型身份。实际的细胞类型身份与预测的细胞类型之间的混淆矩阵（图15扩展数据）表明在同一空间位置共定位的细胞类型。　　该分析表明，对于大多数CCFV3区域，每个区域都包含具有不同区域的转录组特征不同的细胞，而混乱通常仅在邻近区域之间存在。一个例外是皮质GABA能细胞类型，它们在所有皮质区域共享，如我们先前报道的23,26（扩展数据图16B）。由于CGE和MGE神经元的富集，我们仍然可以观察到上层和下皮层层的部分分离。分析还表明，每个子类仅与同一组中的其他几个子类在空间上共定位，除了几个高度异质的HB亚类（扩展数据图15）。　　请注意，该分析的精度高度取决于CCFV3注册的准确性。邻近CCFV3区域引起的任何混乱都可能是由于注册不准确而引起的，这是我们正在积极努力改进的方面。　　有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。

本文来自作者[yjmlxc]投稿，不代表颐居号立场，如若转载，请注明出处：https://yjmlxc.cn/zsfx/202506-5474.html