STAMP是一款分析微生物物种与功能组成的可视化软件,STAMP 1.0于2010年发表在Bioinformatics杂志,后期2014年的2.0版本同样在Bioinformatics发布,目前最新版本为2.1.3。该软件除了能够绘制探索性数据分析的降维、相关图之外,还提供了假设检验的差异比较统计分析功能。此外,STAMP采用了图形化界面,对用户比较友好
- STAMP的输入文件
STAMP允许导入制表符分隔(tab-seprarated)的文件,也可以与主流生信软件如QIIME、Mothur等对接(通过Fife–Create profile from…实现)。文件包含层级注释组成表和样本信息表两部分,文件第一行为表头,含有注释信息的列应当是从最高级到最低级排列,且必须形成严格的树型结构。鉴于目前很多的分类分级系统(包括GreenGenes和SILVA等流行的分类法)的标签错误以及其他一些问题,STAMP网站提供了checkHierarchy.py脚本,可用于识别STAMP配置文件当中所有的非层级条目。而对于未知的条目,应记为unclassified(不区分大小写)。STAMP对于读取计数的形式没有特殊要求,可以为整数或任何实数,这使得标准化的方法可以不止一种。考虑到生物学数据低准确度、低精密度的特点,对于样本数量,STAMP的作者没有建议最小的样本数量,具体的数量应当由样品本身决定,但如需进行假设检验则必须符合相应的数据分布。
图. 输入文件1.层级物种或功能组成表
STAMP允许通过元数据(metadata)文件定义与样本相关联的其他数据。这一文件也应当是制表符分隔的文件。该文件的第一列表示每个样品的名称,并与STAMP配置文件中的样本名称一一对应,其他列可以指定为与该样本相关的任何其他数据。
图. 输入文件2.样本元数据
- STAMP的假设检验
关于假设检验,STAMP提供了对多组、两组和两样品的统计检验方式,以及与之相应的事后检验 (Post-hoc test) 、置信区间和多重检验等。对于多组、两组以及两样品的假设检验方法分别如下面表1、表2和表3所示。对于多组样品,作者推荐使用ANOVA进行假设检验,两组样品则建议使用Welch’s t-test这一适用性更广泛的检验方式,同时建议使用Fisher精确检验应对两样品比较的情况。多重检验校正方面,可以选择传统的Benjamini-Hochberg方法,但作者更偏向使用Storey’s FDR。这一方法的计算量更大,效果较Benjamini-Hochberg也更好。
统计假设
方法 | 描述 |
ANOVA | 方差分析(analysis of variance)的缩写,用于检验多组均值是否相等的方法。可被认为是可分析多组的t-test |
Kruskal-Wallis H-test | 无参数的秩合检验方法,检验多组的中位数是否相等。它考虑样品排序位置而不是真实数值或比例。它不基于数据是正态分布的前提。此方法要求每组至少5个样本。 |
事后检验
方法 | 描述 |
Games-Howell | 当ANOVA产生了显著P值后,检验具体哪两个均值显著不同。用于组样本和方差不同。当方差不同,组样本量小时推荐使用Tukey-Kramer方法 |
Scheffe | 考虑所有可能的比较,而Tukey-Kramer只考虑成对均值。此种方法较保守 |
Tukey-Kramer | 用于ANOVA显著后进一步成对比较。考虑所有可能的均值队,并考虑多次比较的错误率控制。推荐使用Games-Howell输出最终结果,而Tukey-Kramer用于探索分析。推荐此方法的另一个原因是此法使用广泛,被研究者所熟知。 |
Welch’s(uncorrected) | 只是成队均值比较,但不进行多次比较的错误率控制 |
多重检验校正
方法 | 描述 |
Benjamini-Hochberg FDR | 控制假阳性率FDR |
Bonferroni | 控制整体错误率的经典方法,被批评太保守 |
Sidak | 在整体错误率控制中使用不多,但均匀分布数据上比Bonferroni更强,但需要假设个体检验是独立的 |
Storey’s FDR | 控制FDR的新方法,比BH更强。需要估计一些参数和更多的计算资源。 |
表1:STAMP提供的对于多组样本的假设检验、事后检验与多重校正方法。其中加粗为推荐方法,翻译自STAMP 2.1.3帮助文档第14页。
统计假设
方法 | 描述 |
t检验 | T检验,亦称student t检验(Student’s t test),假设两组有相同的方差,当假设成立时,它比Welch’s检验更强,主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布。 |
Welch’s t-test | t-test的一种变形,用于当两组无法满足方差相同的假设时使用。 |
White’s无参t-test | 无参数的检验,由White为临床宏基因组数据分析提出。此方法使用排序过程移除标准t-test的正态假设。此外,它使用启法式鉴定松散的特征,可采用Fisher精确检验和pooling的策略,适合组样本一致,或小于8个样品。大数据集计算耗时。 |
置信区间
方法 | 描述 |
DP: t-test inverted | 只有当方差相等的t检验可用。 |
Scheffe | 考虑所有可能的比较,而Tukey-Kramer只考虑成对均值。此种方法较保守 |
DP: Welch’s inverted | 为Welch’s t检验提供置信区间。 |
DP: bootstrap | 适合White’s 无参t-test |
多种检验校正
方法 | 描述 |
Benjamini-Hochberg FDR | 控制假阳性率FDR |
Bonferroni | 控制整体错误率的经典方法,被批评太保守 |
Sidak | 在整体错误率控制中使用不多,但均匀分布数据上比Bonferroni更强,但需要假设个体检验是独立的 |
Storey’s FDR | 控制FDR的新方法,比BH更强。需要估计一些参数和更多的计算资源。 |
表2:STAMP提供的对于两组样本的假设检验、置信区间与多重校正方法。其中加粗为推荐方法,翻译自STAMP 2.1.3帮助文档第17页。
统计假设
方法 | 描述 |
Bootstrap | 一种无参方法,与Barnard精确检验相似,假设放回抽样 |
卡方Chi-squre | 大样本与Fisher精确检验类似,但更自由 |
Yates卡方 | 在卡方基础上考虑了分布,比Fisher更保守 |
Fisher精确检验 | 条件精确检验,P值采用最大似然方法。宏基因组大数据样本计算速度快,应用广泛且公众认可 |
G-test | 大样本与Fisher近似,比卡方更合适,比Fisher更灵活 |
G-test with Yates’ | 大样本与Fisher类似,考虑自然离散校正,比Fisher更保守 |
G-test(w/Yates’)+Fisher’s | 当列联表中小于20使用Fisher精确检验,其它使用G-test。为了结果清楚,我们推荐只使用Fisher精确检验。而在探索数据阶段,使用混合的统计方法可能更有效 |
超几何分布 | P值使用两种方法的条件精确检验。比最小似然法(在R和StatXact中常用)更快。但更保守。 |
置换 | 与Fisher类似,假定无放回抽样 |
置信区间
方法 | 描述 |
DP: 渐近 | 标准的大样本方法 |
Scheffe | 考虑所有可能的比较,而Tukey-Kramer只考虑成对均值。此种方法较保守 |
DP: CC渐近 | 考虑自然离散分布和连续校正 |
DP: Newcombe-Wilson | Newcombe推荐的7种渐近方法中最优的 |
OR: Haldane adjustmet | 大样本方法结合校正解决退化问题 |
RP: 渐近 | 标准的大样本方法 |
多重检验校正
方法 | 描述 |
Benjamini-Hochberg FDR | 控制假阳性率FDR |
Bonferroni | 控制整体错误率的经典方法,被批评太保守 |
Sidak | 在整体错误率控制中使用不多,但均匀分布数据上比Bonferroni更强,但需要假设个体检验是独立的 |
Storey’s FDR | 控制FDR的新方法,比BH更强。需要估计一些参数和更多的计算资源。 |
表3:STAMP提供的对于两样品统计检验的情况所应用的假设检验、置信区间与多重检验校正方式。推荐方法加粗。CC = 连续校正,DP = 比例差异,OR = 让步比,RP = 比例。
如若转载,请注明出处:https://www.ouq.net/1332.html