banner

2024.11.21 10x 单细胞测序数据分析入门

Scroll down
TIP

这些是本篇文章的标签,来发现更多感兴趣的内容吧
科研
10x
产品介绍
Chronium单细胞
数据分析
生信分析

单细胞实验简介

单细胞数据可以回答什么生物学问题

  • 研究样本里面,每一个基因类型特异性表达的基因是什么
  • 所研究的样本里面有哪些细胞亚型,是否研究样本中存在新的或稀有的细胞亚群
  • 在不同的细胞亚群中,有哪些信号通路被激活了?
  • 不同样本之间的差异(药物处理前后的)
  • 通过trajectory分析,了解到发育或疾病发展过程中,细胞状态的变化

单细胞数据分析的流程

  • 分析流程:

    实际操作中,我们会在各个步骤中往复进行,也就是需要“来回横跳”,来获得更好的分析结果

    • 下机数据中得到的:原始的测序数据,通常是fastq文件
    • 对原始测序数据进行处理,并计算出每一个基因的表达量
    • 数据质控和细胞筛选
    • 数据整合
    • 聚类与可视化
    • 差异表达基因分析
    • 细胞注释分析
    • 更高阶的分析……

单细胞分析的主要软件工具

cell ranger

  • 10x研发的软件集,用于处理10x的单细胞数据

Loupe R & Loupe Browser

  • Loupe R是一个R的软件包,可以把Seurat数据转换成Loupe Browser文件
  • Loupe Browser是一个桌面软件,可以提供简单易用的界面,对10x的单细胞数据进行分析和可视化

有用的第三方软件工具

  • 以下简称“三方工具”,是一个意思
  • 独立运行的软件包
  • 虽然10x对这些第三方工具不提供技术支持,但是这些第三方软件大大拓宽了我们进行细胞分析的广度和深度

细致的单细胞分析流程

数据预处理

  • 首先,对原始测序数据的read进行预处理,用到的工具是cell ranger
    • cell ranger可以获取细胞的barcode信息,并将read比对到参考基因组上,以此计算出每个barcode内,每个基因捕获的RNA数目,也就是UMI
    • 在这一步之后,我们可以得到一个feature barcode的矩阵,这个矩阵包含着每个barcode,每个基因对应的UMI数(也就是转录本的数目)
    • 但是,有一些barcode不一定包含细胞,而只是背景噪音而已

质量控制与数据筛选

  • 对原始的feature barcode数据质控,过滤掉没有细胞的barcode
    • cell ranger可以进行基本的质控分析,提供一些重要的指标,帮助分析样本和数据的质量,去掉没有细胞的barcode,剩下有细胞的barcode,并给出测序和比对等重要的质量指标
    • Loupe browser可以去掉低质量细胞的barcode,过滤的标准包括每个barcode里面的基因总数,以及线粒体基因表达的百分比

      在质控和过滤到低质量的barcode之后,我们将得到高质量的细胞群,进行下一步的数据分析

(可选)数据整合与去批次效应

  • 数据整合
    • 当我们有很多样本的时候,通常我们可以考虑将这些样本整合起来,进行分析,这一步可以使用Cell Ranger,也可以使用三方软件
    • 目的:整合不同的样本得到的单细胞数据
    • 如果有批次效应(多种技术要素造成),还要去批次
    • 如果不同的样本间在tSNE或UMAP图上能显著的区分开(上图1),那就提示具有明显的批次效应,我们就需要对这两个样本进行去批次效应来整个分析
    • 批次效应是由多种技术因素造成的,如果对相同的生物样本使用相同的10x试剂,并同时处理,这样的批次效应可能就很小
    • 然而,如果样本是在不同的时间,由不同的人员进行处理,批次效应可能就比较显著

聚类和可视化分析(tSNE和UMAP哪个更好没有定论)

  • 根据细胞的基因表达谱对细胞进行分组,并在二维的图上进行数据的可视化(单细胞数据很复杂,我们需要降低维度,以便我们能在二维平面上看到单细胞数据)
  • 常见的可视化方式是tSNE和UMAP,对于相同的样本,这两种方法可以提供略有不同的,集群群体的结构
  • 单细胞数据分析是一个非常活跃的领域,tSNE和UMAP到底哪一个可视化效果更好,还没有明确的结论,可以根据自己的数据和参考文献来选择分析方法

差异基因表达差异分析

  • 对每个聚类进行差异基因表达分析,这个步骤可以在cell ranger的默认参数下进行,并且自动得到相应的结果
  • 也可以使用Loupe Browser和三方软件来实现同样的目的,使用这些软件进行差异基因表达的分析可以是高度定制化的
  • 在这个步骤中,我们经常要做的就是把每个cluster的细胞和其他cluster的细胞进行比较,然后找到他们之间的基因表达的差异,输出的结果是每个cluster中富集的基因列表,以及这些基因对应的倍数变化,还有调整后的p值
  • 在使用Loupe和三方软件的过程中,我们可以定制在两个特定的细胞群之间进行差异分析

细胞注释

  • 找到每个cluster,并且对每个cluster进行细胞注释
  • 进行这个步骤由很多选择,我们可以根据上一步发现的,每个cluster的marker基因进行手动注释,也可以用一些三方软件进行自动的细胞注释
  • 在这一步结束之后,所有的cluster都会被注释为特定的细胞类型

一些三方软件介绍

  • 非常流行、有用的分析工具:Seurat和Scanpy,都可以对单细胞数据进行分析和可视化
  • 更高阶的数据分析可以通过三方软件进行
    • 信号通路分析,找到不同cluster中富集了哪些基因
    • trajectory/RNA速率分析,判断细胞状态之间的转变
  • 可以通过scRNA-tools数据库来探索用于单细胞数据分析的工具目录
  • 10x的官网上也有不同主题的分析指南,包括single-cell, Visium(含HD)和Xenium,可以看analysis guide,这里有致力于解决高阶数据分析问题的内容,这些内容也将不断被丰富

Loupe R


* 虽然Loupe Browser提供了非常直观的分析界面和强大的分析功能,但一些高级分析,比如细胞的自动注释,或者批次矫正仍然无法在Loupe Browser中完成,而Seurat等三方工具可以完成这些分析
* 现在,用户可以使用Loupe R这个软件包,将两个平台进行结合,Loupe R允许用户将Seurat数据转化为Loupe Browser文件
* 比如,在使用Seurat进行批次矫正之后,我们可以使用Loupe Browser进行更多的下游的数据分析

各种软件的运行要求

Cell Ranger需要的技能

  • Linux系统执行各种程序
  • 了解实验设计
  • Linux系统中的命令行
  • 所在机构的数据管理系统
  • Linux系统出现问题的时候,我们要联系谁

Loupe R & Loupe Browser

![](</img/10x/> 来源:>)

  • Loupe R:基本的R编程的语言
  • Loupe Browser:苹果或微软操作系统
  • 实验设计与生物学知识
  • 诠释差异表达基因的结果

三方软件:例如Seurat和Scanpy

  • 实验设计与生物学知识
  • R与python的编程能力
  • 软件包的默认参数
  • 诠释数据分析的结果
  • 10x support官网有更多说明
Other Articles
cover
2024.11.20 10x 单细胞测序
  • 24/11/20
  • 14:05
  • 科研
Article table of contents TOP
  1. 1. 单细胞实验简介
    1. 1.1. 单细胞数据可以回答什么生物学问题
    2. 1.2. 单细胞数据分析的流程
  2. 2. 单细胞分析的主要软件工具
    1. 2.1. cell ranger
    2. 2.2. Loupe R & Loupe Browser
    3. 2.3. 有用的第三方软件工具
  3. 3. 细致的单细胞分析流程
    1. 3.1. 数据预处理
    2. 3.2. 质量控制与数据筛选
    3. 3.3. (可选)数据整合与去批次效应
    4. 3.4. 聚类和可视化分析(tSNE和UMAP哪个更好没有定论)
    5. 3.5. 差异基因表达差异分析
    6. 3.6. 细胞注释
    7. 3.7. 一些三方软件介绍
    8. 3.8. Loupe R
  4. 4. 各种软件的运行要求
    1. 4.1. Cell Ranger需要的技能
    2. 4.2. Loupe R & Loupe Browser
    3. 4.3. 三方软件:例如Seurat和Scanpy
Find Something Special?