宏基因组学:研究微生物多样性的新兴学科

近年来分子生物学和计算机科学的融合催生了一门全新的学科——宏基因组学,让学者们终得一窥微生物世界的奥秘。

 |  创瞰巴黎

文|创瞰巴黎 Tania Louis

编辑|Meister Xia

一览:

宏基因组学是一门直接研究环境样本中所有微生物基因组集合的学科,是分子生物学和计算机科学结合的产物。

基因组分析有利于从整体层面描述微生物生态系统。

宏基因组学研究主要有两个步骤:样本采集和基因测序。

基因组测序的工作与生物信息学技术的应用密不可分,因此宏基因组学需和大数据齐头并进发展。

虽然宏基因组学的研究手段既复杂又昂贵,但潜力无穷,能让学者们终得一窥微生物世界的奥秘。

渺小的微生物是地球上物种种类最多的生命体。细菌、真菌、古生菌、真核微生物、病毒在环境中无处不在,构成一个个微小的生态系统,肉眼不可见,甚至实验室里也无法检测出。据估算,只有1%-2%微生物物种能在实验室条件下培养。然而,近年来分子生物学和计算机科学的融合催生了一门全新的学科——宏基因组学,让学者们终得一窥微生物世界的奥秘。

图片来源:PI France 注:全球总生物质量为5460亿吨(碳重量),其中植物占4500亿吨,细菌和真菌分别占700亿吨、120亿吨。

图片来源:PI France 注:全球动物总生物质量为20亿吨(碳重量),其中节肢动物占10亿吨,鱼占7亿吨,人类仅占6000万吨。

遗传密码解构史

宏基因组学于1998年提出[1],是一门直接研究环境样本中所有微生物基因组集合的学科,打破了以往只聚焦单个个体或单个物种的惯例,能让样本中所有微生物都纳入研究范围,即使是实验室里无法培养的物种也不例外,还能从生态系统层面对微生物进行分析。虽然随着近年来新兴技术的革新,宏基因组学见证了长足的发展,但相关技术在实验室里的应用仍然较为复杂。

让我们先回顾基因组学的历史——1977年,科学家以噬菌体X174为目标生物,完成了史上首次基因组序列测定,其基因组全长5300个碱基 [2]。随后,细菌[3]、酵母菌[4]的测序相继取得成功。21世纪初,人类基因组工程公布了首份人类基因图谱,项目耗资数亿欧元和数十年时间,确认了人类30亿个碱基对中的绝大部分[5]。但直到2022年4月,首个完整、“无间隙”的图谱才终于宣告完成[6]!

由此可见,基因测序技术的历史并不算悠久,但其发展的步伐却从未停歇。如今已有多种新一代测序技术问世,价格、速度、成本高低不等。得益于这些新技术,单个人类个体的基因组只要一天之内就能以较高的准确度测出,成本不过一千欧元左右。单个样本里即使有成千上亿的遗传物质片段,也能利用新技术同步测序,每天确认数百亿个碱基对。同时研究多个微生物群体的基因组,新型测序技术是首个使其变为可能的突破,但光有测序技术可不够!

大量碱基测序工作,会产生海量原始数据。所以,宏基因组学需和大数据齐头并进发展。有了数据,还需进行存储、运算、工具开发、数据库管理…要让基因组数据“吐露奥秘”,得依靠先进的设备,以及生物信息学手段的支撑。

宏基因组学处于生物学和信息科学之交界,未来可期,由于其有望揭示微观生物界的许多未解之谜,可谓是微生物学的新焦点。但是宏基因组学的研究手段既复杂,又昂贵,还隐藏着许多绊脚石。在开展相关研究之前,必须提出明确的假设,尽可能详尽地设计实验方案,否则最终将获得一大堆毫无头绪的数据。

注:大规模平行测序技术使用的流动池,可同时附着上千个DNA片段,同步测序。

宏基因组研究步骤简介

宏基因组研究课题的第一步是收集样本。无论是研究土壤、水体还是人体内的微生物群体,都应确保采集的样本适合后续的假设验证步骤。样本间要具有可比性——对于土壤而言,要注意不同地点、不同深度、不同季节采集的样本的差异;样本数量应足够多、足够丰富,具有代表性;单个样本的体量应足够大,确保提取出的遗传物质在后续的实验步骤中够用。

提取遗传物质的手段有很多,但实际实验方案必须根据样本来源、目标物种、具体要提取的遗传物质的种类进行调整。样本制备的过程,其实也是对目标物种、对待测序核酸的筛选过程。过滤可以将微生物按尺寸大小分类。提取的核酸,不一定非得是基因组DNA,也可以是mRNA,以便了解样本中微生物群体实际发生的基因转录过程——不过,这种做法属于宏转录组学的范畴,而非宏基因组学了。

样本采集后,就是测序了,分针对性测序和全局测序两种。针对性测序,仅筛选已知物种特有的基因,或特定类别的功能基因,对其进行扩增、测序、分析,其目的是辨别样本中的物种并进行分类。全局测序,则能从更宏观的角度反映微生物群体的特性,但操作也更复杂,首先要提取样本中所有的DNA,切割成便于测序的短片段,然后测序并尽可能复原基因组。

“全局宏基因组测序,就像给你一大堆拼图图块,来自多份拼图,而且不完整,要求你从混乱中还原每份拼图。”

有些微生物物种的基因组是已知的,比较容易还原,但是未知生物就困难多了,何况在部分样本里,未知生物比例可高达90% [7]。利用一些巧妙的手段(比如结合多个宏基因组数据库,试图匹配含量最类似的基因片段[8,9]),能降低还原工作的难度,但尽管如此,微生物的种类究竟有多丰富,仍是个未知数。宏基因组学,让我们渐渐看清了人类对微生物的认识有多大的空白。

宏基因组学对生物勘探的意义

宏基因组学不仅能描述样本中的微生物群体特点,还能发现有利用价值的微生物产物。样本中的遗传物质进行切割后,可以把每个DNA片段都植入一个细菌细胞内,观察细菌是否获得有利的新性状,比如生产生物燃料、分解废料、分泌抗生素等。这意味着即使DNA片段来自未知物种,即使不培养相应的微生物,也能让这些有利的基因为人类服务!

宏基因组学既是重要的基础研究学科,又具有较高的使用价值,能为生物勘探带来新机遇。虽然研究手段仍然复杂,但随着技术的成熟必将逐渐简化。此外,该学科的手段已在医学、农学中得到直接应用。总之,宏基因组学领域必将见证许多突破,值得密切关注。

参考资料:

1.https://www.cell.com/cell-chemical-biology/pdf/S1074-5521(98)90108–9.pdf

2.https://www.nature.com/articles/265687a0

3.https://pubmed.ncbi.nlm.nih.gov/7542800/

4.https://pubmed.ncbi.nlm.nih.gov/8849441/

5.https://www.genome.gov/human-genome-project

6.https://www.medecinesciences.org/en/articles/medsci/full_html/2022/06/msc220104/msc220104.html

7.https://www.sciencedirect.com/science/article/abs/pii/S0168170216308012

8.Looking for patterns in viral sequences embedded in the genomes of other organisms that have been sequenced: https://www.ncbi.nlm.nih.gov/pmc/ articles/PMC6966834/

9.https://www.ncbi.nlm.nih. gov/pmc/articles/ PMC4111155