Make Distance Boxplots(组间距离关系盒形图)
将不同分类或环境的多组样本的距离进行四分位计算,比较不同样本组的组内和组间的距离分布差异。同时进行two-sample t-tests判断样本组间的显著性差异。
箱式图的作用:识别数据异常值;粗略估计和判断数据特征;比较几批数据的形状,同一数轴上,几批数据的箱形图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状信息一目了然。
箱线图(Boxplot)也称箱须图(Box-whisker Plot)[1],是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。简单箱线图由五部分组成,分别是最小值、中位数、最大值和两个四分位数。
输入:
样本距离矩阵
示例:distance matrix
Bio1 Bio2 Bio3 Bio4 Bio5
Bio1 0.0 0.483232790448 0.728662546493 0.652673920891 0.88918523617
Bio2 0.483232790448 0.0 0.644148006987 0.541510920158 0.868933369893
Bio3 0.728662546493 0.644148006987 0.0 0.655220559361 0.871789401126
Bio4 0.652673920891 0.541510920158 0.655220559361 0.0 0.887469388959
Bio5 0.88918523617 0.868933369893 0.871789401126 0.887469388959 0.0
样品分组信息表:
Bio1 G1
Bio2 G1
Bio3 G1
Bio4 G1
Bio5 G2
Bio6 G2
Bio7 G2
Bio8 G3
Bio9 G3
Bio10 G3
输出:
样本距离箱线分析图:
注:第一四分位数 (Q1),又称“下四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。 第三四分位数 (Q3),又称“上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
分析模块引用了Qiime(v1.9.0)中的make_distance_boxplots.py脚本。
相关文献如下所示:
[1] Abrahamsson T.R., Jakobsson H.E., Andersson A.F., Bjorksten B., Engstrand L., Jenmalm M.C. Low diversity of the gut microbiota in infants with atopic eczema. (2012) Journal of Allergy and Clinical Immunology, 129(2).
QIIME allows analysis of high-throughput community sequencing data J Gregory Caporaso, Justin Kuczynski, Jesse Stombaugh, Kyle Bittinger, Frederic D Bushman, Elizabeth K Costello, Noah Fierer, Antonio Gonzalez Pena, Julia K Goodrich, Jeffrey I Gordon, Gavin A Huttley, Scott T Kelley, Dan Knights, Jeremy E Koenig, Ruth E Ley, Catherine A Lozupone, Daniel McDonald, Brian D Muegge, Meg Pirrung, Jens Reeder, Joel R Sevinsky, Peter J Turnbaugh, William A Walters, Jeremy Widmann, Tanya Yatsunenko, Jesse Zaneveld and Rob Knight; Nature Methods, 2010; doi:10.1038/nmeth.f.303