宏基因组出马,一个都别想跑
在前面的几个章节中,我们了解到自然界的微生物中只有很少一部分可以在实验室中进行纯培养。对于可培养微生物,科学家们尝试添加各种生长因子以提高可培养微生物的种类,而不可培养微生物(也叫未培养微生物)在环境生态(人体肠道、土壤、酒池、温泉等)中发挥着十分重要的作用。环境微生物群落中的联合或者拮抗关系十分复杂,我们需要更为清晰的手段来理清微生物基因的机制关系。
前几期我们提到,扩增子测序可以为我们提供物种信息,可以得到环境微生物中的多样性信息,进而可以进行功能预测。而涉及到深层的基因信息,则需要利用宏基因组技术来实现。
~
扩增子通过对样本提取DNA后,对指定区域进行扩增测序,最终得到微生物核糖体RNA高度可变区域的数据信息,与全长数据库比对之后可以获知样本的物种组成、进化关系和多样性,高变区有很强的特异性,但是在某些分类水平较低的种水平,高度可变区可能非常相近,导致无法区分。
~
而宏基因组在提取DNA后进行随机打断为若干条小片段加引物进行扩增测序,然后再对reads进行组装和分箱,进行基因和功能层面的探索。宏基因组其实包含了环境中所有的基因信息,所以也是可以利用某些软件提取出16s的相应区域信息。宏基因组更多在于分析和挖掘环境因子与基因功能、物种进化、群落互作等关系。很多国内外的研究人员在进行论文写作时会把扩增子和宏基因组混为一谈,标题和摘要讲的都是宏基因组(Metagenome ),但方法部分其实讲的是扩增子测序。严格来讲,扩增子也属于宏基因组的一部分,这取决于不同地方对宏基因组的定义不同吧。
由于实验过程中,利用了引物进行PCR扩增,PCR带来的碱基偏好性也会导致测序错误。实验手段的规范性和差异性也会对我们的实验结果造成很大的影响,DNA提取的步骤至关重要。
组装与分箱
组装(拼接):微生物群落的所有DNA既然被测序仪测了出来,但这些序列在测序之前进行了随机打断,所以得到的测序数据都是短序列,将短序列拼接陈长序列的过程就叫做组装。
原理:
- 基于reads自建的overlap重叠区域进行拼接或者重叠群(contig),构建双端序列库,确定contig自建的顺序关系,用N连接陈scffold。
- 目前主流的软件是magahit( https://github.com/voutcn/megahit.git),软件安装及用法都可以在github上可以找到。(如果无法访问可能是被拦截了,可以去gitee国内开源站点找备份)
分箱:个体序列(contigs)从得到的微生物群体序列中分离开来重新分类,有助于对目标微生物群落结构和功能的研究
原理
- 四核苷酸频率(TNF)和丰度变化模式(ABD)
- 主流工具:Metabat2、Concoct
至于使用的软件和工具,领域主流的软件和工具发展的非常快,但当前尚缺乏客观可靠的评价手段。用来做评价的数据也没有出现标准数据这种东西,而人工模拟数据始终不具备“自然性”。可能我们在今天奉之为Gold Standard Pipline的软件流程在新的方法出来之后立变昨日黄花。
群落微生物专题
- 开篇:微生物主宰世界,细菌奴役人类
- 神奇的人体第二大脑-肠脑
- 人体微生物是个筐,啥都可以装?
- 它们不高兴,宫颈癌就会找上门
- 咚咚咚:搞作物的醒醒啦,根际微生物了解一下
- 茅台之所以为茅台
- 扩增子,到底扩的是个什么
- 宏基因组出马,一个都别想跑
- 谁还测不起个扩增子呢,附分析流程
- 分箱组装那些事
- 这年头,不跟人工智能挂个勾都不好意思跟人打招呼
- α多样性,β多样性,傻傻分不清楚
- 宏基因组分析流程及机器要求
- PCA、PCoA、CCA…
- …