banner

生信全书 Lesson 3 芯片标准分析流程

  • Home
  • 解螺旋·生信全书
Scroll down
TIP

这些是本篇文章的标签,来发现更多感兴趣的内容吧
科研
解螺旋
生信全书
基因芯片

流程介绍

准备工作

R语言软件和程序包

  • R语言软件:最新3.6.1版本
  • 芯片分析所需程序包

原始数据和注释文件

  • sample_group表格:样本分组信息
  • raw data:芯片原始数据,例如昂飞芯片的CEL文件
  • annotation表格:芯片注释信息

数据预处理

导入数据和分组信息

归一化

  • Affy包rma函数进行背景矫正、归一化和表达值计算
  • Impute包knn函数计算并补充缺失值

去除批次效应

  • Sva包ComBat函数消除批次效应batch effect

构建表达、分组和差异表达矩阵

  • 表达矩阵ExpMatrix
  • 分组矩阵design matrix,又叫实验设计矩阵
  • 差异表达矩阵contrast matrix,又叫对比矩阵

差异基因分析和可视化

计算差异基因(limma包)

  • ImFit:针对表达矩阵和分组矩阵做线性模型拟合,再引入差异比
  • eBayes:贝叶斯检验
  • topTable:按要求输出差异基因和检验结果

定义并注释差异基因

  • 根据logFC和P值定义表达差异
  • 导入芯片注释信息,注释基因,生成DEG结果文件

可视化基因差异

  • ggplot2包制作火山图
  • pheatmap包制作热图

在线分析流程介绍

进一步学习R语言在数据处理方面的应用选修课程

在线数据库简要介绍

NetworkAnalyst数据库

优点

  • 支持多个数据集的meta分析
  • 集成功能分析和网络分析模块
  • 注册后可以保存分析进度和项目

缺点

  • 芯片数据有50M大小限制
  • 某些分析模块自定义的部份很少,比如火山图

GEO数据库

  • 全称:Gene Expression Omnibus
  • 网址:https://www.ncbi.nlm.nih.gov/geo/
  • 存储微阵列芯片和测序数据等高通量数据
  • 由NCBI建立和维护
  • GEO2R是GEO内置的一种交互式网络工具,基于Bioconductor项目GEOquery和limma包对GEO高通量数据进行差异分析

优点

  • 可以访问和分析几乎所有的GEO高通量数据集

缺点

  • 无法对不同的数据集进行meta-analysis
  • 最多支持255个样本
  • 不能进行后续的功能分析和网络分析

GCBI数据库

  • 全称:Gene-Cloud of Biotechnology Information
  • 网址:https://www.gcbi.com.cn/gclab/html/index
  • 上海其明信息技术有限公司开发
  • GCBI提供了芯片和测序公共数据的快速查询方式,还可以将查询的数据一键发送到GCBI在线分析实验室,进行分析

优点

  • 支持自定义分析流程,分析项目全面

缺点

Other Articles
Article table of contents TOP
  1. 1. 流程介绍
    1. 1.1. 准备工作
      1. 1.1.1. R语言软件和程序包
      2. 1.1.2. 原始数据和注释文件
    2. 1.2. 数据预处理
      1. 1.2.1. 导入数据和分组信息
      2. 1.2.2. 归一化
      3. 1.2.3. 去除批次效应
      4. 1.2.4. 构建表达、分组和差异表达矩阵
    3. 1.3. 差异基因分析和可视化
      1. 1.3.1. 计算差异基因(limma包)
      2. 1.3.2. 定义并注释差异基因
      3. 1.3.3. 可视化基因差异
    4. 1.4. 在线分析流程介绍
    5. 1.5. 进一步学习R语言在数据处理方面的应用选修课程
  2. 2. 在线数据库简要介绍
    1. 2.1. NetworkAnalyst数据库
      1. 2.1.1. 优点
      2. 2.1.2. 缺点
    2. 2.2. GEO数据库
      1. 2.2.1. 优点
      2. 2.2.2. 缺点
    3. 2.3. GCBI数据库
      1. 2.3.1. 优点
      2. 2.3.2. 缺点
Find Something Special?