互花米草入侵的微生物AI模型构建
研究方法
搜集数据
文献
web网页检索
数据处理
FastQC检查
双端数据合并:join_paired_ended.py、EasyAmplicon
削减Phred至少20
read区域映射到全长16sRNA:Vsearch 基础数据库:Greengenes数据库13.8/Unite7.2
聚类到OTU中
USEARCH格式的结果转换BIOM矩阵格式(BIOM 2.1.5),biom
分类群信息:summarize_taxa.py
BIOM文件合并
PCR偏好性:
两种过滤策略
(1)删除仅出现在所有样本中三分之一的otu;
(2)删除只出现在不到一半的独立数据集上的otu
机器学习
机器学习算法比较
三种机器学习方法:随机森林;支持向量机;逻辑回归
候选特征:OTU/CSV
五重交叉验证建立分类器,进行性能评估
数据随机分成五份,5次迭代,80%的训练数据选择最小绝对收缩和选择算子作为特征选择方法
特征训练分类器(RF为1000棵树,SVM为径向核,其他参数默认设置
剩余20%验证数据
根据ROC曲线和曲线面积AUC评分。五次预测结果合并
交叉验证。AUC最高值 ...
宏基因组出马,一个都别想跑
在前面的几个章节中,我们了解到自然界的微生物中只有很少一部分可以在实验室中进行纯培养。对于可培养微生物,科学家们尝试添加各种生长因子以提高可培养微生物的种类,而不可培养微生物(也叫未培养微生物)在环境生态(人体肠道、土壤、酒池、温泉等)中发挥着十分重要的作用。环境微生物群落中的联合或者拮抗关系十分复杂,我们需要更为清晰的手段来理清微生物基因的机制关系。
前几期我们提到,扩增子测序可以为我们提供物种信息,可以得到环境微生物中的多样性信息,进而可以进行功能预测。而涉及到深层的基因信息,则需要利用宏基因组技术来实现。
~
扩增子通过对样本提取DNA后,对指定区域进行扩增测序,最终得到微生物核糖体RNA高度可变区域的数据信息,与全长数据库比对之后可以获知样本的物种组成、进化关系和多样性,高变区有很强的特异性,但是在某些分类水平较低的种水平,高度可变区可能非常相近,导致无法区分。
~
而宏基因组在提取DNA后进行随机打断为若干条小片段加引物进行扩增测序,然后再对reads进行组装和分箱,进行基因和功能层面的探索。宏基因组其实包含了环境中所有的基因信息,所以也是可以利用某些软件提取出16s的相 ...
扩增子,到底扩的是个什么
12由于多次delay,群落微生物专题发生了“便秘”,经过半年的更新才到真正的主题。如同挤牙膏一般,也许小编在期刊投稿系统上传自己的paper点击投稿,本专栏才会更新的频繁一些吧。/笑哭
在前几期中,我们介绍过,无论是土壤还是人体,都有着大量的微生物,起着微妙的“生态”功能。
环境微生物应该怎么研究?
目前主流的群落研究,包括肠道、土壤、水体、口腔、阴道等,在群落微生物中,由于缺乏原位培养的环境信息,我们能够在实验室进行纯培养的只有不到3%,而其余的97%在其所处的环境稳态中又发挥着主要的作用。
~
对环境中所有微生物进行研究,就需要脱离这个培养的思路,直接从基因或者物种的角度来入手探讨其功能。
~
在环境微生物研究中,人们通常会利用指定的引物来扩增微生物的16S rDNA/18S rDNA/ITS的高度可变区域,通过测序PCR产物来分析微生物的群落结构(微生物的种类、相对丰度、进化关系等)。
RNA与核糖体蛋白结合形成核糖体,在微生物的核糖体RNA上,有着几种亚基。原核生物的核糖体包括5S、16S和23S,而真核生物有5S、5.8S、18S和28S。
~
16S rRNA为细菌 ...
酱香白酒,茅台之所以为茅台
开始讲述本文首先引入央视这段广告,青花x酒在央视为全名科普了一个概念就是中国的云贵高原及四川盆地有这么两大酱香品类白酒,其中一个叫青花x酒。
有意思的是,x酒没有明示另一个酱香白酒是谁,但是大家都知道老大是谁,强行将产地和品类捆绑在了老大身上。那么,在我们耳熟能详的广告词里面,既然其中一个是这个白酒,那另一个是谁呢?当然就是本文中的标题所述的茅台酒。这让我想到了瑞幸的营销套路,在国内以与星巴克同样的供货商和豆子来品宣。
广告词中的这个赤水河,是长江中游的一个支流,全长五百多公里,河流含沙量大显赤黄色而得名。这个赤水河畔除了诞生了上述的两大酱香白酒,还有诸如习酒在内的二线品牌。
什么叫酱香白酒呢?
白酒的香型分类其实也是有国标的,除了我们熟悉的浓香型、清香型、酱香型,还有米香型、豉香型、芝麻香型和老白干香型等。
此前跟茅台争“国酒”牌子的五粮液,就属于浓香型。至于香型的区别,微观层面讲是白酒中小分子醇类物质的差别。小编可能是因为饮酒太少,品不出来区别,觉得白酒都一个味道,对于“醇”、“绵”、“爽”、“净”、“滑”之类的白酒评价术语没有太多的感受。
12345酱香型酒:酱香突出、幽 ...
它们不高兴,宫颈癌就会找上门
作为一个男生,写这章的时候总会感觉不太好意思。谁让我当初脑子抽抽定了这样的选题呢?
待补充
群落微生物专题
开篇:微生物主宰世界,细菌奴役人类
神奇的人体第二大脑-肠脑
人体微生物是个筐,啥都可以装?
它们不高兴,宫颈癌就会找上门
咚咚咚:搞作物的醒醒啦,根际微生物了解一下
茅台之所以为茅台
扩增子,到底扩的是个什么
宏基因组出马,一个都别想跑
谁还测不起个扩增子呢,附分析流程
分箱组装那些事
这年头,不跟人工智能挂个勾都不好意思跟人打招呼
α多样性,β多样性,傻傻分不清楚
宏基因组分析流程及机器要求
PCA、PCoA、CCA…
…
【群落微生物】神奇的人体第二大脑-肠脑
近年来,国内外关于肠道微生物的研究不计其数,CNS关于肠道菌群的研究浩如烟海。无数的课题组从原有的领域向肠道微生物延伸以求其关联,因此目前已有大量的成果喷涌而出。
在第一篇文章《【群落微生物】开篇:微生物主宰世界,细菌奴役人类》里面,我们讲到肠道微生物控制了我们的多个方面。原来题目起得比较吓人,开篇嘛,标题必须得唬人才行。
我们今天讲肠道微生物与大脑之间的双向调控效应——肠脑轴线。微生物-肠-脑轴与中枢神经系统相互联系, 影响大脑功能和行为。肠-脑轴线是我们消化道与中枢神经系统相连接的生物化学信号,消化道和大脑之间其实也是存在相互作用的。这种作用并不是直接的A作用于B的关系,肠脑轴涉及到人体的多个组织器官,有着复杂的运行机制。
在此,我们搬出一篇关于自闭症的《CELL》文章,自闭症谱系障碍(ASD)是一系列复杂的神经发展障碍性疾病,影响人们的社交,行为和交流方面的能力。有孤独症谱系障碍的人,主要体现在社会交流障碍、语言交流障碍和重复刻板行为,主要表现为人类复杂行为的改变。除了遗传的原因外,研究人员观察到,与正常人群相比,ASD患者的肠道微生物有着较大的差异。科学家们将二者的肠道 ...
【群落微生物】人体微生物是个筐,啥都可以装?
今天是农历辛丑牛年正月初一,祝的小伙伴们,新年快乐!
科研人没有周末,也没有春节嘛?金辉在南宁祝所有的粉丝们2021学业顺利、事业有成、身体健康,心想事成!
前两次群落微生物专题,我们概述了一下群落微生物,第二篇我们介绍了肠道的作用机制。不少小白就会产生疑问,是不是所有疾病都能跟肠道菌群扯上关系呢?
最近两年,兴起一句话叫做“遇事不决,量子力学,机制不明,肠道菌群”。的确,肠道微生物的火热让国内外不少课题组从原有的研究领域进行肠道菌群机制的探索。肠道微生物仿佛是包治百病的疾病解决方案。奇葩论文《通过靶向肠道菌群调控人体的物质需求欲望有望提高廉政文化建设效率》上了热搜,作者单位为军事医学科学院,中纪委看到可能都只能“尴尬的笑笑”。用肠道菌群来反腐,不得不说,很有江湖游医和民科的风格—一半科学一半伪科学,作者不仅十分很有“创新 ”精神,在反腐倡廉的大背景下,还贼应景儿。微博上大众对肠道菌群的看法议论纷纷,甚至有人认为肠道菌群是“智商鉴定器”。由于科研人员多忙于科研,鲜有在科普领域深耕的科学工作人员。从科学家到大众这条知识传播链条,本就有巨大的障碍,以至于民科人员一句话,科普人员磨烂嘴 ...
【群落微生物】开篇:微生物主宰世界,细菌奴役人类
服不服?不服?新冠教你做事
这个星球上,微生物才是大爷
近期,前有铺天盖地的“爽恒”纷争,你一拳我一脚的相互回应,让大家吃够了冬瓜,后有悄悄生娃然后惊艳所有人的女明星,牢牢的霸占着热搜,让微博的服务器都“累了想歇会”。在热搜的间隙中,出现了个词条,叫德特里克堡基地。
原来,我外交部称美方应开放德特里克堡基地开展新冠病毒溯源调查,点名位于美国马里兰州德特里克堡的美国陆军传染病医学研究所,呼吁美方就其海外200多个生物实验室公开更多事实,德特里克堡生物实验室随即登上热搜。
2020年初,武汉不明肺炎的新闻仿佛没能引起人们的注意,很多公司应该还是在筹备着年会的时候。测序公司拿到序列比对的结果才开始大惊失色,跟可怕的SARA有着较高的相似性,敏感的医务工作者们直呼可怕。
很快,分离毒株,序列共享,世卫定名,武汉封城,全球开始检测,大家都锁在家里天天醒来第一件事就是看疫情地图。新冠感染者在全球范围内指数增长,一“罩”难求,人们才开始注意到,微生物可以对人类健康和社会造成如此巨大的伤害。病毒侵入机体之后在宿主细胞中增值,导致机体损伤甚至致命。
在科幻电影中,常常出现各种 ...
搞飞鸟科研助手的这一年
去年,因为课题需要重温了本科阶段学习的前端知识,迫于效率选择了PHP语言,飞鸟科研助手其实是网站前后端开发的练手项目。时光荏苒哦,飞鸟科研助手从上线至今已经一年有余了。没记错的话,2020年8月8日上线,当时傻乎乎的顶着个ip地址在群里传播。后来健明兄非常热心说帮推广下,火急火燎的去注册了域名:flybird.cc 就这样,有了一篇软文作为宣传,网站的访问流量开始从每天一二百人上升到每天千人(IP数)的流量。现在的主要域名其实是:https://flybirdsci.com (访问的时候网址输入flybirdsci.com即可)fly bird sci . com飞 鸟 科研 国际域名后缀
飞鸟科研助手(一起打造科研之家)后面9月份,陆陆续续完成了一些初步的功能,包括影响因子及分区查询(点击量高的可怕)、文本多引擎翻译、工具下载。其实功能实现起来不难,我说过,这是前后端开发的练手项目。~再到后面,思考着是否可以将飞鸟科研助手打造成为一个科研一体化的平台,理论上它可以包含文献下载、文献在线划词翻译、科研常用网站导航站点、期刊影响因子分区及交流社区,甚至 ...
群落微生物科普系列
开篇:微生物主宰世界,细菌奴役人类
神奇的人体第二大脑-肠脑
人体微生物是个筐,啥都可以装?
它们不高兴,宫颈癌就会找上门
咚咚咚:搞作物的醒醒啦,根际微生物了解一下
茅台之所以为茅台
扩增子,到底扩的是个什么
宏基因组出马,一个都别想跑
谁还测不起个扩增子呢,附分析流程
分箱组装那些事
这年头,不跟人工智能挂个勾都不好意思跟人打招呼
α多样性,β多样性,傻傻分不清楚
宏基因组分析流程及机器要求
PCA、PCoA、CCA…
扩增子分析流程
扩增子分析流程
1234567891011121314151617ea=/public/home/sk_ljh/ljh/software/EasyAmplicon wd=/public/home/sk_ljh/ljh/software/EasyAmplicon/datacd $wdwget -c http://210.75.224.110/github/EasyAmplicon/data/metadata.txthead -n2 metadata.txtmkdir -p seqawk '{system("wget -c ftp://download.big.ac.cn/gsa/"$5"/"$6"/"$6"_f1.fq.gz -O seq/"$1"_1.fq.gz")}' \<(tail -n+2 metadata.txt)awk '{system("wget -c ftp://download.big.ac.cn ...
Demo
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
Quick Start
Create a new post
1$ hexo new "My New Post"
More info: Writing
Run server
1$ hexo server
More info: Server
Generate static files
1$ hexo generate
More info: Generating
Deploy to remote sites
1$ hexo deploy
More info: Deployment