流程介绍
准备工作
R语言软件和程序包
- R语言软件:最新3.6.1版本
- 芯片分析所需程序包
原始数据和注释文件
- sample_group表格:样本分组信息
- raw data:芯片原始数据,例如昂飞芯片的CEL文件
- annotation表格:芯片注释信息
数据预处理
导入数据和分组信息
归一化
- Affy包rma函数进行背景矫正、归一化和表达值计算
- Impute包knn函数计算并补充缺失值
去除批次效应
- Sva包ComBat函数消除批次效应batch effect
构建表达、分组和差异表达矩阵
- 表达矩阵ExpMatrix
- 分组矩阵design matrix,又叫实验设计矩阵
- 差异表达矩阵contrast matrix,又叫对比矩阵
差异基因分析和可视化
计算差异基因(limma包)
- ImFit:针对表达矩阵和分组矩阵做线性模型拟合,再引入差异比
- eBayes:贝叶斯检验
- topTable:按要求输出差异基因和检验结果
定义并注释差异基因
- 根据logFC和P值定义表达差异
- 导入芯片注释信息,注释基因,生成DEG结果文件
可视化基因差异
- ggplot2包制作火山图
- pheatmap包制作热图
在线分析流程介绍

进一步学习R语言在数据处理方面的应用选修课程

在线数据库简要介绍
NetworkAnalyst数据库
优点
- 支持多个数据集的meta分析
- 集成功能分析和网络分析模块
- 注册后可以保存分析进度和项目
缺点
- 芯片数据有50M大小限制
- 某些分析模块自定义的部份很少,比如火山图
GEO数据库
优点
缺点
- 无法对不同的数据集进行meta-analysis
- 最多支持255个样本
- 不能进行后续的功能分析和网络分析
GCBI数据库
优点
缺点