互花米草入侵的微生物AI模型构建
研究方法
搜集数据
- 文献
- web网页检索
数据处理
- FastQC检查
- 双端数据合并:join_paired_ended.py、EasyAmplicon
- 削减Phred至少20
- read区域映射到全长16sRNA:Vsearch 基础数据库:Greengenes数据库13.8/Unite7.2
- 聚类到OTU中
- USEARCH格式的结果转换BIOM矩阵格式(BIOM 2.1.5),biom
- 分类群信息:summarize_taxa.py
- BIOM文件合并
- PCR偏好性:
- 两种过滤策略
- (1)删除仅出现在所有样本中三分之一的otu;
- (2)删除只出现在不到一半的独立数据集上的otu
机器学习
机器学习算法比较
- 三种机器学习方法:随机森林;支持向量机;逻辑回归
- 候选特征:OTU/CSV
- 五重交叉验证建立分类器,进行性能评估
- 数据随机分成五份,5次迭代,80%的训练数据选择最小绝对收缩和选择算子作为特征选择方法
- 特征训练分类器(RF为1000棵树,SVM为径向核,其他参数默认设置
- 剩余20%验证数据
- 根据ROC曲线和曲线面积AUC评分。五次预测结果合并
- 交叉验证。AUC最高值,选取最佳分类器用于测试,独立验证预测能力
- rfcv函数进行交叉验证选择合适的特征,使用varImpPlot函数来说明特惠总能在分类中的重要性,
- R-ggplot对曲线可视化
机器学习建模
- 随机森林,鲁棒性,适用于微生物群落数据
- RF包V4.6-14(R包)默认参数下对细菌相对丰度按界门纲目科属种以及OTU、ASV水平进行分类
- 对于每个分类单元,三分之二进行模型构建,三分之一用于预测。五次循环,评估准确性
- 24个研究758个样本的metadata训练集,生成两者分类模型,结果表明,准确率98.9%
两种样本之间的群落特征
- 排除不同样本量对每个案例研究的影响,我们在样本总数大于80的情况下随机选取80样本
- 进行α多样性分析:利用alpha_diversity.py脚本计算QIIME中的Chao1、Shannon和Pielou均匀度指数
- normalize_table.py对OTU剖面进行相对丰度标准化,用beta_diversity.py脚本编制β多样性计算和Bray-Curtis相似矩阵,基于Bray-Curtis相似矩阵,ggplot2生成主坐标分析PCoA图
- SparCC python模块实现稀疏相关组成数据算法,得出OTU相对丰度之间的显著相关性,使用R包 igraph绘制共生网络。仅绘制R-corr绝对值>0.4和P<0.05的相关性,
- 描述网络拓扑结构,计算一组(即平均节点连通性、平均路径长度、直径、累积度分布、聚类系数和模块化)。R的vegan和igraph包
- 评估网络的非随机模式,使用igraph包将网络聚类稀疏、特征路径长度等结构属性与节点边相等的随机网络进行比较。
训练模型验证
土壤采集
- 海南、广东、北京和江苏:香蕉、黄瓜、西瓜和百合
- 文献划重点:跨地域,跨物种
- 0 ~ 20 cm土层随机取20个直径5 cm×20 cm的s型土芯,并组合为一个土壤样。新收集的土壤通过2毫米的网眼筛除植物碎片,并在−80°C保存,然后提取DNA。
- 试剂盒 ,样本ng,提取DNA,凝胶电泳和分光光度计评估DNA质量和数量。
- 引物:515F,292bp产物 PCR;Qubit®2.0荧光计(Thermo Scientific)和安捷伦Bioanalyzer 2100系统评估文库质量
- Illumina Hiseq 2500平台测序,250 bp双端reads;Trimmomatic;测序原理
统计方法
- 从每个样本中随机抽取最小数量的序列来计算α多样性;alpha_diversity.py
- 非参数T检验用于确定两种样本中香农指数的差异
- 使用相对丰度来标准化OTU剖面,beta_diversity.py脚本编写Bray-Curtis相似矩阵
- β多样性,
- 排列多元方差分析,用于确定beta多样性在两种处理之间是否存在差异
- PCoA图由使用R package ggplot2创建的Bray-Curtis相似矩阵生成。
结果
多样性差异
- 24个单独细菌研究,随机选择测序数据。19个个已发表,5个通过开放获取
- 合并得到的细菌OTU表包含了来自6个国家超过40000个分类群的758个单独土壤样本数据
- 为了防止单个研究中太多样本处于主导地位,对80个以上样本的研究进行随机过滤
- 将每个样本中的reads稀释到3000,计算Chao1.Shannon,Pielou均匀度指数。
- 结果表明,两种样本中α多样性没有明显差异
- 基于Bray-Curtis距离的主坐标分析PCoA显示,两种样本细菌群落差异显著(p= 0.001,
PERMANOVA by Adonis):患病土壤中厚壁菌门(Firmicutes)、拟杆菌门(Bacteroidetes)、Choroflexi和芽单胞菌门(Gemmatimonadetes)的相对丰度更高,而健康土壤中变形菌门(Proteobacteria)、放线菌门(Actinobacteria)和酸杆菌门(Acidobacteria)的相对丰度更高(图2c)。我们还发现,患病土壤(806)中的独特细菌OTUs比健康土壤(1
优化
- 为了突出微生物的共同特征,删除了所有样品中不到1/3的或者在独立数据集中少于一半的OTU
- 过滤之后,表中1399个真菌OTU,用于下游分析,占细菌总数的37.7%
- 细菌群落的α多样性在两个样本中有明显差异
细菌和真菌群落都可以作为区分患病和健康土壤的生物标志物
- 通过随机森林、SVM和LR建立了三个机器学习模型。
- 模型导出的AUC和ROC曲线的考虑表明,射频模型显示出预测样品分类的最佳准确率
- 我们用细菌和真菌数据建立了在OTU水平上训练的模型显示出最高水平的分类准确性,对于两个模型分别为95%和92%。
- 为了验证细菌模型,从SRA数据库中13个独立数据集,包含26份A样本和321份正常样本。
- 细菌模型显示所有采集样本的平均准确率为93.4%,疾病样本为89。6%,健康样本95.4。
额外测试
- 采集了4种不同作物的田间土壤样本,20个
- 平均准确率为80%,疾病:90% 健康:70%
- 结果表明,模型可以合理预测特定土壤中是否发生病害
患病和健康土壤微生物特征识别
- 进行了10倍的交叉验证,重复5次
- 评估OTUs在指标中潜在的重要性
- 在45个最相关的OTU上,交叉验证误差曲线趋于稳定,这些OTU被定义为相对丰度在0.16-4.84%之间的生物标志物类群
- 最重要的OTUGemmatimonadetes ,在病害样本中富集
- 在重要OTU中,33个在患病土壤中相对丰度高,12个在健康土壤中丰度高【FDR调整p< 0.05, Wilcoxon秩和检验?】
- 简单介绍下种属
共现网络分析特征
- 用来评估特征间的相互作用,在本分析中只有显著相关性 (|R| > 0.4, p< 0.05)
- 健康微生物(细菌和真菌)特征网络中更多的节点和链接
- 健康土壤的平均程度、集中程度和聚集系数值高于患病土壤(补充表4)
- 一些OTUs,如那些被分类为杆菌科、原生菌科、慢生菌科、丛毛单胞菌科、链霉素科和红杆菌科(在健康特征网络中为红色)的OTUS,在健康细菌网络中包含更多的链接和更高的相对丰度
- 其他otu,如脂环酸杆菌科和鞘氨醇杆菌科(在患病特征网络中为红色),在患病细菌网络中包含更多的链接和更高的相对丰度。
- 1111883和549433被分类为Gemmatimonadetes,通过模型识别显示出高重要性,与健康细菌网络(补充文件7、8)相比,在患病的细菌中包含更多的联系和更高的相对丰度
回顾
- 将数据整合
- 将序列比对到16s全长 ,参考数据库为greengene or Unite;已有同行这么干,在肠道领域
- NOVO,从头方法,保留所有序列,包含更多OTU;但是对多个引物的元数据不够友好
- 此外,在所有研究中,共有OTU只占15%,说明大部分都是特异性OTU:可能取决于取样偏好性、DNA提取偏倚和测序偏好性;RF算法已被广泛应用于微生物生态学研究,如模拟正常和高盐饮食小鼠的微生物区系差异
- RF模型性能优秀,可以构建任何分类级别,但是我们发现OTU水平是最好结果。在其他的研究中,也有family水平的
- 案例研究证明,两种样本中确实有多样性的差异
- 土壤中真菌病原体数量的大量增加会破坏土壤真菌群落固有的平衡,导致多样性的减少
- 被分类为尖孢镰刀菌的OTU是区分患病土壤和健康土壤的最重要的真菌群落特征
- 虽然健康土壤微生物群落具体特征难以区分,但是患病土壤微生物主要特征是高数量的Foxysporum
- 虽然在患病土壤中尖孢镰刀菌的相对丰度很高,但研究表明其差异很大
- 健康土壤共生网络:我们还发现了一些相对丰度和位置较高的潜在有益细菌。其中包括链霉菌(micabili,图5),已知链霉菌中有许多菌株能够抑制尖孢镰刀菌,促进植物生长;为区分健康土壤和病害土壤而建立的模型所产生的特征为与不同土壤类型的镰刀菌枯萎病作物相关的微生物群落的保守特征提供了令人信服的证据。我们找准碳四植物生长的特点来入手
- 发病临界值为15%,表明植物发病率低于15%的土壤可以被认定为健康土壤
- 有趣的是,在训练数据集中不包含百合的基础上,百合的预测成功率非常高
- 未来期望对其他作物产生作用跨物种
- 构建网站[](https://wenta omicro.shinyapps.io/foc_16s/)序列数据中预测易感植物的枯萎病,并通过添加新的序列来改进模型。
模型是基于那些没有人为干扰的土壤的测序数据,如抗菌化合物的应用,可能会影响微生物群落的组成和模型的预测精度。杀菌剂处理土壤可能导致发病率降低
通过RF方法筛选出的45个细菌和40个真菌otu作为预测模型,可以认为是枯萎病相关核心微生物。镰刀菌和链霉菌种类的丰富度和多样性对土壤健康具有重要意义
数据
- GSA数据库:CRA002340.
- 代码: https://github.com/taowenmicro/Wen-etal-200214-paper-code.
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
Comment