CAG Clustering Analysis Tool

1. CAG 的概念与构建方法

共同丰度组 (Co-abundance Group, CAG) 是指在样本中表现出共同丰度变化的一组微生物或基因。这些微生物可能在功能上相关或生态上相互作用，通过聚类分析可揭示潜在功能模块和生态行为。

构建方法

数据准备：输入基因丰度表，行为基因/微生物，列为样本。
相似性计算：基于选定算法生成相似性矩阵。
聚类分析：使用聚类方法将基因分为多个簇，每个簇为一个CAG。

2. 相似性计算方法

SparCC

适用于稀疏组成数据，通过稀疏回归计算相似性，避免组成效应影响。

Pearson

用于线性相关性分析，适合快速计算。

Spearman

基于秩次关系的非线性相关性分析。

Kendall

衡量变量间排序一致性的相关性方法。

3. 聚类方法

Ward

基于最小方差的层次聚类方法。

K-means

通过迭代优化分配样本至簇，适合大规模数据。

Hierarchical Clustering

构建树状结构，无需预定义簇数。

Canopy

采用宽松和紧密阈值进行聚类，适合高维稀疏数据。

Chameleon

结合局部和全局密度关系捕获复杂簇形状。

4. 网络布局

网络图绘制采用ggClusterNet，该包是一个专注于微生物网络分析和可视化的R语言包，本工具主要涉及函数如下：

randomClusterG
PolygonClusterG
PolygonRrClusterG
PolygonModsquareG
model_maptree

详细信息和方法可参考 GitHub 和文献。

结果解读

                结果文件夹
                ├── cluster_results.txt              [CAG聚类结果]
                ├── corr_matrix.txt                  [相关性分析结果]
                ├── heatmap.svg                      [CAG与环境因子相关热图]
                ├── network.svg                      [CAG间相关性网络图]
                ├── pairwise_results.txt             [组间配对检验结果]
                └── top_cag_violinplots.svg          [平均丰度排名前9 CAG 的相对丰度小提琴图]

CAG与环境因子相关热图

横轴：CAG丰度，由CAG内特征丰度平均计算而来
纵轴：环境因子参数

CAG间相关性网络图

节点：CAG内每个特征作为节点，节点大小代表特征丰度大小，节点不同的颜色代表不同的蔟
边线：不同的颜色代表相关性的正负，小于设定阈值的边自动被去除

相对丰度小提琴图

横轴：展示分组变量
纵轴：展示相对丰度（Relative Abundance）的数值范围

6. 参考文献

Liu, Rui., Zhang, Chenhong., Shi, Yu., Zhang, Feng., & Li, Linxia.. (2017). Dysbiosis of Gut Microbiota Associated with Clinical Parameters in Polycystic Ovary Syndrome. Frontiers in Microbiology