1. CAG 的概念与构建方法
共同丰度组 (Co-abundance Group, CAG) 是指在样本中表现出共同丰度变化的一组微生物或基因。这些微生物可能在功能上相关或生态上相互作用,通过聚类分析可揭示潜在功能模块和生态行为。
构建方法
- 数据准备:输入基因丰度表,行为基因/微生物,列为样本。
- 相似性计算:基于选定算法生成相似性矩阵。
- 聚类分析:使用聚类方法将基因分为多个簇,每个簇为一个CAG。
2. 相似性计算方法
SparCC
适用于稀疏组成数据,通过稀疏回归计算相似性,避免组成效应影响。
Pearson
用于线性相关性分析,适合快速计算。
Spearman
基于秩次关系的非线性相关性分析。
Kendall
衡量变量间排序一致性的相关性方法。
3. 聚类方法
Ward
基于最小方差的层次聚类方法。
K-means
通过迭代优化分配样本至簇,适合大规模数据。
Hierarchical Clustering
构建树状结构,无需预定义簇数。
Canopy
采用宽松和紧密阈值进行聚类,适合高维稀疏数据。
Chameleon
结合局部和全局密度关系捕获复杂簇形状。
4. 网络布局
网络图绘制采用ggClusterNet,该包是一个专注于微生物网络分析和可视化的R语言包,本工具主要涉及函数如下:
- randomClusterG
- PolygonClusterG
- PolygonRrClusterG
- PolygonModsquareG
- model_maptree
结果解读
结果文件夹 ├── cluster_results.txt [CAG聚类结果] ├── corr_matrix.txt [相关性分析结果] ├── heatmap.svg [CAG与环境因子相关热图] ├── network.svg [CAG间相关性网络图] ├── pairwise_results.txt [组间配对检验结果] └── top_cag_violinplots.svg [平均丰度排名前9 CAG 的相对丰度小提琴图]
CAG与环境因子相关热图
- 横轴:CAG丰度,由CAG内特征丰度平均计算而来
- 纵轴:环境因子参数
CAG间相关性网络图
- 节点:CAG内每个特征作为节点,节点大小代表特征丰度大小,节点不同的颜色代表不同的蔟
- 边线:不同的颜色代表相关性的正负,小于设定阈值的边自动被去除
相对丰度小提琴图
- 横轴:展示分组变量
- 纵轴:展示相对丰度(Relative Abundance)的数值范围
6. 参考文献
Liu, Rui., Zhang, Chenhong., Shi, Yu., Zhang, Feng., & Li, Linxia.. (2017). Dysbiosis of Gut Microbiota Associated with Clinical Parameters in Polycystic Ovary Syndrome. Frontiers in Microbiology