共同丰度组 (CAG) 聚类分析工具

1. CAG 的概念与构建方法

共同丰度组 (Co-abundance Group, CAG) 是指在样本中表现出共同丰度变化的一组微生物或基因。这些微生物可能在功能上相关或生态上相互作用,通过聚类分析可揭示潜在功能模块和生态行为。

构建方法
  1. 数据准备:输入基因丰度表,行为基因/微生物,列为样本。
  2. 相似性计算:基于选定算法生成相似性矩阵。
  3. 聚类分析:使用聚类方法将基因分为多个簇,每个簇为一个CAG。

2. 相似性计算方法

SparCC

适用于稀疏组成数据,通过稀疏回归计算相似性,避免组成效应影响。

Pearson

用于线性相关性分析,适合快速计算。

Spearman

基于秩次关系的非线性相关性分析。

Kendall

衡量变量间排序一致性的相关性方法。

3. 聚类方法

Ward

基于最小方差的层次聚类方法。

K-means

通过迭代优化分配样本至簇,适合大规模数据。

Hierarchical Clustering

构建树状结构,无需预定义簇数。

Canopy

采用宽松和紧密阈值进行聚类,适合高维稀疏数据。

Chameleon

结合局部和全局密度关系捕获复杂簇形状。

4. 网络布局

网络图绘制采用ggClusterNet,该包是一个专注于微生物网络分析和可视化的R语言包,本工具主要涉及函数如下:

详细信息和方法可参考 GitHub文献

结果解读
                结果文件夹
                ├── cluster_results.txt              [CAG聚类结果]
                ├── corr_matrix.txt                  [相关性分析结果]
                ├── heatmap.svg                      [CAG与环境因子相关热图]
                ├── network.svg                      [CAG间相关性网络图]
                ├── pairwise_results.txt             [组间配对检验结果]
                └── top_cag_violinplots.svg          [平均丰度排名前9 CAG 的相对丰度小提琴图] 
            
CAG与环境因子相关热图
  • 横轴:CAG丰度,由CAG内特征丰度平均计算而来
  • 纵轴:环境因子参数
CAG间相关性网络图
  • 节点:CAG内每个特征作为节点,节点大小代表特征丰度大小,节点不同的颜色代表不同的蔟
  • 边线:不同的颜色代表相关性的正负,小于设定阈值的边自动被去除
相对丰度小提琴图
  • 横轴:展示分组变量
  • 纵轴:展示相对丰度(Relative Abundance)的数值范围

6. 参考文献

Liu, Rui., Zhang, Chenhong., Shi, Yu., Zhang, Feng., & Li, Linxia.. (2017). Dysbiosis of Gut Microbiota Associated with Clinical Parameters in Polycystic Ovary Syndrome. Frontiers in Microbiology