STAMP:微生物物种与功能组成的可视化软件

STAMP是一款分析微生物物种与功能组成的可视化软件,STAMP 1.02010年发表在Bioinformatics杂志,后期2014年的2.0版本同样在Bioinformatics发布,目前最新版本为2.1.3该软件除了能够绘制探索性数据分析的降维、相关图之外,还提供了假设检验的差异比较统计分析功能。此外,STAMP采用了图形化界面,对用户比较友好STAMP:微生物物种与功能组成的可视化软件

  • STAMP的输入文件

STAMP允许导入制表符分隔(tab-seprarated)的文件,也可以与主流生信软件如QIIMEMothur等对接(通过Fife–Create profile from…实现)。文件包含层级注释组成表和样本信息表两部分,文件第一行为表头,含有注释信息的列应当是从最高级到最低级排列,且必须形成严格的树型结构。鉴于目前很多的分类分级系统(包括GreenGenesSILVA等流行的分类法)的标签错误以及其他一些问题,STAMP网站提供了checkHierarchy.py脚本,可用于识别STAMP配置文件当中所有的非层级条目。而对于未知的条目,应记为unclassified(不区分大小写)。STAMP对于读取计数的形式没有特殊要求,可以为整数或任何实数,这使得标准化的方法可以不止一种。考虑到生物学数据低准确度、低精密度的特点,对于样本数量,STAMP的作者没有建议最小的样本数量,具体的数量应当由样品本身决定,但如需进行假设检验则必须符合相应的数据分布。

. 输入文件1.层级物种或功能组成表

STAMP允许通过元数据(metadata)文件定义与样本相关联的其他数据。这一文件也应当是制表符分隔的文件。该文件的第一列表示每个样品的名称,并与STAMP配置文件中的样本名称一一对应,其他列可以指定为与该样本相关的任何其他数据。

. 输入文件2.样本元数据

  • STAMP的假设检验

关于假设检验,STAMP提供了对多组、两组和两样品的统计检验方式,以及与之相应的事后检验 (Post-hoc test) 、置信区间和多重检验等。对于多组、两组以及两样品的假设检验方法分别如下面表1、表2和表3所示。对于多组样品,作者推荐使用ANOVA进行假设检验,两组样品则建议使用Welch’s t-test这一适用性更广泛的检验方式,同时建议使用Fisher精确检验应对两样品比较的情况。多重检验校正方面,可以选择传统的Benjamini-Hochberg方法,但作者更偏向使用Storey’s FDR。这一方法的计算量更大,效果较Benjamini-Hochberg也更好。

统计假设

方法 描述
ANOVA 方差分析(analysis of variance)的缩写,用于检验多组均值是否相等的方法。可被认为是可分析多组的t-test
Kruskal-Wallis H-test 无参数的秩合检验方法,检验多组的中位数是否相等。它考虑样品排序位置而不是真实数值或比例。它不基于数据是正态分布的前提。此方法要求每组至少5个样本。

事后检验

方法 描述
Games-Howell ANOVA产生了显著P值后,检验具体哪两个均值显著不同。用于组样本和方差不同。当方差不同,组样本量小时推荐使用Tukey-Kramer方法
Scheffe 考虑所有可能的比较,而Tukey-Kramer只考虑成对均值。此种方法较保守
Tukey-Kramer 用于ANOVA显著后进一步成对比较。考虑所有可能的均值队,并考虑多次比较的错误率控制。推荐使用Games-Howell输出最终结果,而Tukey-Kramer用于探索分析。推荐此方法的另一个原因是此法使用广泛,被研究者所熟知。
Welch’s(uncorrected) 只是成队均值比较,但不进行多次比较的错误率控制

多重检验校正

方法 描述
Benjamini-Hochberg FDR 控制假阳性率FDR
Bonferroni 控制整体错误率的经典方法,被批评太保守
Sidak 在整体错误率控制中使用不多,但均匀分布数据上比Bonferroni更强,但需要假设个体检验是独立的
Storey’s FDR 控制FDR的新方法,比BH更强。需要估计一些参数和更多的计算资源。

1STAMP提供的对于多组样本的假设检验、事后检验与多重校正方法。其中加粗为推荐方法,翻译自STAMP 2.1.3帮助文档第14页。

 

统计假设

方法 描述
t检验 T检验,亦称student t检验(Student’s t test),假设两组有相同的方差,当假设成立时,它比Welch’s检验更强,主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布。
Welch’s t-test t-test的一种变形,用于当两组无法满足方差相同的假设时使用。
White’s无参t-test 无参数的检验,由White为临床宏基因组数据分析提出。此方法使用排序过程移除标准t-test的正态假设。此外,它使用启法式鉴定松散的特征,可采用Fisher精确检验和pooling的策略,适合组样本一致,或小于8个样品。大数据集计算耗时。

置信区间

方法 描述
DP: t-test inverted 只有当方差相等的t检验可用。
Scheffe 考虑所有可能的比较,而Tukey-Kramer只考虑成对均值。此种方法较保守
DP: Welch’s inverted Welch’s t检验提供置信区间。
DP: bootstrap 适合White’s 无参t-test

多种检验校正

方法 描述
Benjamini-Hochberg FDR 控制假阳性率FDR
Bonferroni 控制整体错误率的经典方法,被批评太保守
Sidak 在整体错误率控制中使用不多,但均匀分布数据上比Bonferroni更强,但需要假设个体检验是独立的
Storey’s FDR 控制FDR的新方法,比BH更强。需要估计一些参数和更多的计算资源。

2STAMP提供的对于两组样本的假设检验、置信区间与多重校正方法。其中加粗为推荐方法,翻译自STAMP 2.1.3帮助文档第17页。

统计假设

方法 描述
Bootstrap 一种无参方法,与Barnard精确检验相似,假设放回抽样
卡方Chi-squre 大样本与Fisher精确检验类似,但更自由
Yates卡方 在卡方基础上考虑了分布,比Fisher更保守
Fisher精确检验 条件精确检验,P值采用最大似然方法。宏基因组大数据样本计算速度快,应用广泛且公众认可
G-test 大样本与Fisher近似,比卡方更合适,比Fisher更灵活
G-test with Yates’ 大样本与Fisher类似,考虑自然离散校正,比Fisher更保守
G-test(w/Yates’)+Fisher’s 当列联表中小于20使用Fisher精确检验,其它使用G-test。为了结果清楚,我们推荐只使用Fisher精确检验。而在探索数据阶段,使用混合的统计方法可能更有效
超几何分布 P值使用两种方法的条件精确检验。比最小似然法(RStatXact中常用)更快。但更保守。
置换 Fisher类似,假定无放回抽样

置信区间

方法 描述
DP: 渐近 标准的大样本方法
Scheffe 考虑所有可能的比较,而Tukey-Kramer只考虑成对均值。此种方法较保守
DP: CC渐近 考虑自然离散分布和连续校正
DP: Newcombe-Wilson Newcombe推荐的7种渐近方法中最优的
OR: Haldane adjustmet 大样本方法结合校正解决退化问题
RP: 渐近 标准的大样本方法

多重检验校正

方法 描述
Benjamini-Hochberg FDR 控制假阳性率FDR
Bonferroni 控制整体错误率的经典方法,被批评太保守
Sidak 在整体错误率控制中使用不多,但均匀分布数据上比Bonferroni更强,但需要假设个体检验是独立的
Storey’s FDR 控制FDR的新方法,比BH更强。需要估计一些参数和更多的计算资源。

表3:STAMP提供的对于两样品统计检验的情况所应用的假设检验、置信区间与多重检验校正方式。推荐方法加粗。CC = 连续校正,DP = 比例差异,OR = 让步比,RP = 比例。

 

如若转载,请注明出处:https://www.ouq.net/1332.html

(0)
打赏 微信打赏,为服务器增加50M流量 微信打赏,为服务器增加50M流量 支付宝打赏,为服务器增加50M流量 支付宝打赏,为服务器增加50M流量
上一篇 03/06/2022
下一篇 03/07/2022

相关推荐

  • R:cnetplot的使用

    cnetplot用于Gene-Concept Network,将位于一个GO Terms下的基因用线连接起来。 cnetplot(x, showCategory = 5, foldChange = NULL, layout = “kk”, …

    R 05/16/2020
    675
  • had non-zero exit status

    解决方案1:install.packages(‘*package_name’, dependencies = TRUE)

    Python 11/07/2020
    122
  • RStudio开发环境下载安装

    RStudio是为R语言设计的一种跨平台集成开发环境。其特色包括可客制化的软件套件视觉化界面与同团队开发的一系列数据可视化与出版工具。RStudio有免费的自由软件版本及收费的专业版本,并分为在本地电脑上执行的桌面版和与在服务器上执行而可由…

    03/12/2020
    259
  • 从小鼠皮肤伤口分离巨噬细胞用于单细胞RNA测序

    了解组织修复中的巨噬细胞异质性是一个重大挑战。在这里,我们描述了一个协议,它结合了从皮肤伤口中分离免疫细胞和随后基于流式细胞仪的伤口巨噬细胞分拣和单细胞RNA测序。我们使用原始Smart-seq2协议的修改版来提高速度和准确性。该协议对于分…

    04/26/2022
    206
  • Clustal:多序列比对分析、序列同源性分析

    Clustal是一个单机版的基于渐进比对的多序列比对工具,由Higgins D.G.等开发。有应用于多种操作系统平台的版本,包括linux版,DOS版的clustlw,clustalx等。CLUSTAL是一种渐进的比对方法,先将多个序列两两…

    07/12/2020
    280