基于深度学习的宏基因组噬菌体与质粒序列片段识别算法
方臻成 谭洁 吴姝芳 李墨 徐聪敏 谢忠杰 朱怀球 · 2019
收藏
阅读量:347
会议名称:
中国生物工程学会第十三届学术年会暨2019年全国生物技术大会
会议时间:
2019-11-09 00:00:01
会议地点:
中国四川成都
摘要:
目的:实现第一个能在宏基因组高通量测序数据中同时鉴定源于噬菌体和质粒DNA片段的算法PPR-Meta,有助于人们对微生物复杂群落结构的理解以及可移动遗传原件和水平基因转移的研究。方法:首先运用独热编码方式作为数学模型来表征DNA序列的碱基与密码子;进一步基于深度学习算法,设计出双通道卷积神经网络的网络结构。该网络能从每条DNA片段中有效提取编码区与非编码区的特征,从而有效地判断DNA片段是否源于噬菌体或质粒。结果:在模拟宏基因组重叠群的测试集以及真实宏基因组数据的评估表明,本算法的性能显著优于其他只能分别鉴定噬菌体或质粒的工具。用PPR-Meta分析人体消化道宏基因组数据的结果表明,在人体消化道外端,噬菌体和质粒的含量更高,这意味着水平基因转移可能发生得更频繁。结论:PPR-Meta是第一个能在宏基因组数据中区分源于噬菌体、染色体与质粒DNA的软件,其精度显著优于其他相关工具。PPR-Meta可以从GitHub网页https://github.com/zhenchengfang/PPR-Meta中免费下载。
相关专家
相关课题