Text source from https://rafalab.dfci.harvard.edu/
- 高通量技术已将基础生物学和生物医学科学从数据贫乏的学科转变为数据密集的学科。
- 一个具体的例子来自于研究基因表达的领域。
- 基因表达是将DNA(生命的蓝图)复制到RNA(蛋白质合成模板,生命的构建基石)的过程。
- 在1990年代,基因表达数据的分析相当于在纸上识别黑点或从标准曲线中提取几个数字。
- 随着微阵列等高通量技术的出现,这一过程突然变为处理成千上万个数字。
- 最近,RNA测序进一步增加了数据的复杂性。
- 生物学家从用眼睛或简单的总结来分类结果,转变为每个样本有成千上万(现在是数百万)的测量数据需要分析。
- 在本章中,我们将重点讨论高通量测量背景下的统计推断。
- 具体而言,我们关注使用统计检验检测组间差异的问题,并以有意义的方式量化不确定性。
- 我们还介绍了在分析高通量数据时应结合推断使用的探索性数据分析技术。
- 在后续章节中,我们将研究聚类、机器学习、因子分析和多层次建模背后的统计学原理。
- 由于有大量可用的公共数据集,我们使用了几个基因表达的例子。
- 尽管如此,您将学习的统计技术在其他使用高通量技术的领域也已被证明是有用的。
- 微阵列、下一代测序、fMRI和质谱等技术都生成数据来回答一些问题,而我们在这里学到的知识将是不可或缺的。
数据包
- 我们将在接下来的章节中使用的几个示例最好通过R包获取。
- 这些包可以从GitHub获得,并可以使用devtools包中的install_github函数安装。
三张表
- 我们在本书中用作示例的大多数数据都是通过高通量技术生成的。
- 这些技术测量成千上万个特征。
- 特征的例子包括基因、基因组的单个碱基位置、基因组区域或图像像素强度。
- 每个特定的测量产品由一组特定的特征定义。
- 例如,特定的基因表达微阵列产品由它测量的基因集定义。
- 一个特定的研究通常会使用一个产品对若干实验单位(如个体)进行测量。
- 最常见的实验单位是个体,但也可以由其他实体定义,例如肿瘤的不同部分。
- 我们通常按照实验术语将实验单位称为样本。
- 重要的是不要将这些与前几章提到的样本(例如“随机样本”)混淆。
- 因此,高通量实验通常由三张表定义:一张包含高通量测量数据,另外两张分别包含关于这张表的列和行的信息。
- 因为一个数据集通常由一组实验单位定义,而一个产品定义了一组固定的特征,所以高通量测量数据可以存储在一个n × m的矩阵中,其中n是单位数,m是特征数。
-
在R中,惯例是存储这些矩阵的转置。以下是一个基因表达数据集的示例:
library(GSE5859Subset)
data(GSE5859Subset) ##这会加载三张表
dim(geneExpression)
-
我们有来自24个个体(实验单位)的血液样本中8793个基因的RNA表达测量数据。
- 对于大多数统计分析,我们还需要关于这些个体的信息:dim(sampleInfo)
- 例如,在这种情况下,数据最初是为了比较不同族群的基因表达而收集的。
- 其中一列,filenames,使我们能够将此表的行与测量表的列连接起来。
match(sampleInfo$filename,colnames(geneExpression))
head(match(geneAnnotation$PROBEID,rownames(geneExpression)))