第二节 肠道微生物群分析技术
自21世纪以来,随着各种生物检测技术的迅速发展和微生物组计划的推进,人类对肠道微生物群的理解更加深入。特别是近十年来,在现代检测技术和分析技术的支撑下,肠道微生态领域的各种研究成果层出不穷。肠道微生物群复杂的生态系统决定了低通量、耗时长的培养方法难以满足工作人员的研究需要,为解决此问题,基于16S rRNA的高通量基因测序技术和生物信息学技术应运而生,共同推动了肠道微生物群研究的进步。同时,其他多种定性、定量分析检测技术也被整合到微生物群的研究工作中,在肠道细菌的结构组成解析及功能注释方面共同发挥重要作用。这些检测技术的不断更新迭代,又进一步促进了肠道微生态领域的发展。
一、肠道微生物群测序分析技术
肠道微生物群可借助传统的细菌培养方法,并结合差异化筛选技术,对微生物群落的组成进行分析。基于培养的细菌计数法具有较好的成本效益,且重现性高。但是,这种方法不具备区分细菌种类的能力,很难完成细菌物种或菌株的鉴定,更别说应对复杂的肠道微生物群。肠道微生物群中绝大多数都是严格厌氧菌,据估计,在常规培养条件下,80%的肠道微生物群无法生长。
针对细菌培养方法在肠道微生物群落分析中的不足,研究人员转而求助微生态学中用于复杂海洋和土壤群落分析的分子表征技术。该技术使用小亚基核糖体RNA基因(细菌和古细菌为16S rRNA基因,真核生物为18S rRNA基因)作为遗传多样性的标志。该基因的序列相对较小(1.5 KB),其特点是既有高度保守区,也有可变区,且可变区的序列对某些微生物群或属而言是独特的[31]。16S rRNA基因的变异性足以区分不同的物种和品系,而其相似性又可识别相同的成员。从测序中获得的大量零散、重叠的数据可通过生物信息学分析加以处理,最终达到识别细菌类群的目的。上述分析也可以扩展到其他生物学信息处理平台中,以获得相关的细菌代谢功能信息。另外,16S rRNA测序技术对序列数据的统计分析还有助于识别微生物群的α多样性(同一个体内的物种多样性)、β多样性(个体间的物种多样性)、相对丰度及与该生物体有关的其他参数。肠道微生物群检测方法有多种形式,各有其优点和缺点(见表2-1)[32]。
(一)Sanger测序
美国学者Eckburg等人首先使用16S rRNA全长测序方法(Sanger测序法)在健康受试者中全面表征了胃肠道微生物群的多样性[33]。为确定肠道微生物群多样性的程度,通常根据细菌16S rRNA基因谱的相似性产生操作分类单元(Operational Taxonomic Unit,OTU),序列相似性大于99%的OTU序列表示为同一“菌株”,大于97%的OTU序列表示为同一“菌种”,大于95%的OTU序列表示为同一“菌属”,以及大于90%的OTU序列表示为同一“菌科”[34]。
基于16S rRNA基因的菌群测序分析流程如图2-5所示,从人体粪便样品中提取DNA后,针对16S rRNA基因高度保守区域的引物,对基因的可变区进行PCR扩增,建立涵盖样品中所有细菌的PCR扩增子混合库,然后对其进行整体测序,将所得数据通过序列相似性聚类为 OTU。测序得到的 OTU 序列及丰度信息,采用大量生物信息学手段可注释细菌组成,解析细菌功能,甚至推测细菌之间的相互作用。OTU完全按照相似性进行归类,其优点是节约时间,但缺点也很明显。虽然OTU数目可反映样品所含物种的合理近似值,但将OTU等同为物种的做法并不符合客观实际,由于各菌株之间16S rRNA基因操纵子的拷贝数存在很大差异,该结果并不是真正意义上的定量分析[35]。另外,因为OTU序列相似性阈值的选择带有人为的主观因素,所以无法真实反映样本中整个物种的多样性。二代测序技术通常会产生相对较短的读取长度,这些读取长度集中在基因的高变区上,因此对聚类要求不那么严格,通常以OTU序列相似性的97%为阈值进行聚类[36]。
图2-5 基于16S rRNA基因的微生物群测序分析流程[32]
MG-RAST—基于子系统技术的宏基因组快速注释(Metagenomics rapid annotation using subsystem technology);CAZy—碳水化合物活性酶(Carbohydrate active-enzymes);MetaPhlAn—宏基因组系统发育分析(Metagenomic phylogenetic analysis);KEGG—京都基因和基因组百科全书(Kyoto encyclopaedia for genes and genomics);COG—同源群簇(Clusters of orthologous group);PICRUst—通过非观察状态重建群落的系统发育研究(Phylogenetic investigation of communities by reconstruction of unobserved states)。
无论使用哪种聚类方法,都可以将代表性OTU在SILVA、RDP、EzTaxon和Greengenes等参考数据库中进行分类学比对,以对样品中微生物群的组成差异进行分析[37]。在此基础上,还可使用多种软件对测序片段进行进一步质量控制,如 Mothur、QIIME、VAMPS、GUSTAME 等,它们可覆盖质量控制步骤、统计比较、结果可视化、标记基因处理及数据调查的所有阶段[38]。
随着生物医学技术的迅速发展,细菌的基因测序已从Sanger测序升级到二代测序(Next Generation Sequencing,NGS)。虽然高通量测序技术获得了大量的准确数据,但依然存在瑕疵。最近的研究表明,高通量测序很容易出现错误,其主要原因可能与文库制备方法和引物选择引起的系统误差有关[39]。
(二)焦磷酸测序
Sanger测序法的精准度高,但时间成本和经济成本也较高。随着样品量的增多,分析的费用和时间急剧攀升。与Sanger测序法相比,焦磷酸测序法通过扩增16S rRNA基因可变区产生的大量序列标签,可在4小时内以99%或更高的准确度对2500万个碱基进行测序,较Sanger测序法的效率高出100倍[40]。焦磷酸测序法只需要对16S rRNA基因内选定的高度可变区域(如V2、V3和V6区)进行靶向扩增,因此可以使用较小的序列读取并获得较高的分类学区分[41]。焦磷酸测序法相当方便,它不再使用创建克隆文库的耗时步骤,而是使用了序列条形码方法,允许在批量测序过程中将多个样品进行混合。使用条形码可实现数百个样本的同时运行,并允许将特定序列追溯到其对应的样本中[41]。焦磷酸测序法在肠道微生态研究领域已得到广泛应用,其典型案例如肥、瘦双胞胎之间的肠道微生物群比较,以及使用抗生素前后肠道微生物群的稳定性研究[42-44]。
(三)测序技术的局限性
测序技术的进步为肠道微生态研究领域带来了革命性变化,但该技术在实际应用中的局限性也不容忽视,尤其在样品处理和数据分析方面可能会带来偏差。例如,在人类微生物组计划中,四个测序中心中产生的数据各自具有不同的特征,正是样品处理步骤中的细微区别导致了最终测序结果的差异[36]。另外,测序技术本身的固有缺陷可能会造成样品中大量的片段被遗漏,产生肠道微生物群测序中的“暗物质”[45]。因此,了解不同测序技术的局限性(见表2-1),可最大限度地确保数据的真实性和准确度[46]。
(1)样品处理对测序结果的影响。
研究发现,粪便样品长期冻存会对测序结果产生影响。例如,若样品长期冷冻保存,则拟杆菌的DNA可能会逐渐被降解[47]。若将样品室温放置12 h以上,后续再反复冻融样品,可影响从痰液样本中获得的细菌群落特征[48]。
DNA提取方法的不同也可对测序结果产生明显影响。若有机试剂无法将某些细菌的细胞壁打开,则不能获得足够全的DNA片段,最终失去这些细菌的测序文库。若仅使用化学试剂处理细菌,则样品中的高丰度革兰氏阳性菌和其他细胞壁较厚的细菌将很难被完全裂解。因此,在DNA提取过程中,建议除使用化学试剂提取外,还要结合物理击打(如磁珠的研磨)或生物酶裂解方法来提取。
(2)样品污染对测序结果的影响。
细菌丰度较低的样品在普通实验室进行DNA提取或PCR扩增时很容易被周边的DNA和细胞污染。Salter等人的研究工作表明,对低生物量样品(<104个细胞)进行测序时,样品污染可“淹没”目标中的DNA信号,成为测序结果中DNA的主要特征[49]。因此,当样品中的微生物含量偏低时,在检测中应尽可能使用“阴性”测序对照,即在不加样品或模板的情况下进行“空白”DNA提取和PCR反应,然后将其与目标样品一起进行测序,以从实际样品的测序结果中除去阴性对照中检测到的任何样品污染。
(3)测序平台的选择及数据处理方法对测序结果的影响。
DNA测序平台的选择是另一个需要考虑的因素。最新研究发现,与Illumina MiSeq平台相比,Ion Torrent平台上的错误率似乎更高。首先,测序过程可使得细菌的测序片段过早被截断。其次,基于MoBio试剂盒的实验方案获得的测序数据信息量要比FastDNA试剂盒实验方案获得的测序数据信息量低很多。最后,在DNA测序运行过程中,重复使用多个样本的做法也会给最终的结果带来偏差,导致条形码样本的错误识别[50]。
第二代测序平台目前产生的片段均相对较短(400~600bp),仅有部分可变区的序列,其测序结果分辨率很难达到16S rRNA全基因组测序的结果分辨率水平;且不同可变区得到的结果也不相同,故谨慎选择测序片段有助于区分不同的目标物种。在标记基因的扩增过程中,可产生嵌合分子。实际上,提交给16S rRNA基因数据库的DNA序列中有相当部分为嵌合分子,嵌合分子将对微生物多样性的估计发生偏差[51],如果不采取措施,那么此偏差会直接影响测序结果中的多样性指标。另外,重复进行PCR循环也可能导致结果出现代表性不强的问题,因此建议将PCR循环数限定在可行范围内[52]。
(4)测序技术的固有缺陷。
测序技术的一个固有缺陷是无法分辨细胞是否存活。细菌或宿主细胞死亡后,其DNA仍然能够维持一段时间(DNA半衰期比RNA更长),但DNA提取过程对死亡细菌和存活细菌的DNA并没有选择性,将导致测序结果不能准确代表活菌的菌群特征。用叠氮丙锭等DNA结合试剂预处理待测样品,以除去样品中的死亡/受损细胞释放出来的游离DNA,可使测序结果能更客观地反映微生物群落中活菌的种群特征[53]。在实际应用中,还有很多细节问题需要考虑,以尽可能减少数据的失误率,提高检测结果的准确性。
二、非测序“指纹”技术在肠道微生物群研究中的应用
焦磷酸测序和全长16S rRNA测序是一项庞大的工作,需要产生数千个序列,并进行大量的数据分析。也有一些小型、低成本的分析方法,可在花费更少时间的前提下初步实现肠道微生物群的物种鉴别(见表2-1)。例如,DNA指纹分析技术可以区分样品中微生物群落生成的DNA概况,该技术是一种群落分析工具,可基于观察到的遗传“指纹”差异,进行样品之间的比较分析。
(一)变性梯度凝胶电泳
变性梯度凝胶电泳(Denaturing Gradient Gel Electrophoresis,DGGE)是一种根据DNA片段的熔解性质而使之分离的凝胶系统,由于 DNA 在不同浓度的变性剂中解链行为的不同,其电泳迁移率会发生变化,从而将片段大小相同而碱基组成不同的DNA片段分开。利用DGGE分析,从每个样品中获得的PCR基因扩增产物将在丙烯酰胺上迁移。凝胶将根据样品中的GC含量差异区分出不同的细菌条带,条带数越多表示菌群的多样性越强。DGGE分析通常基于小片段的PCR扩增子(150bp)进行区分,突出显示可变区(如16S rRNA基因的V6~V8区域)的差异性。在DGGE模式下,可对凝胶条带的数量和宽度进行定量分析,也可结合主坐标分析(Principal Coordinate Analysis,PCA)工具,对不同样本的DGGE胶分离结果进行可视化比较。由于DGGE的PCR扩增子太小,无法获得足够的测序信息以进行目标条带区分,因此该技术主要用于样本间的相对比较,如溃疡性结肠炎患者的结肠、粪便及黏膜间细菌群落的差异化分析[54]。
(二)末端限制性片段长度多态性
与DGGE分析不同,末端限制性片段长度多态性(Terminal-Restriction Fragmentlength Polymorphisms,TRFLP)分析可使用荧光标记引物去扩增并分离群落DNA中的全长16S rRNA PCR扩增子,通过限制性内切核酸酶(4bp酶切位点)消化16S rRNA基因,产生带荧光标记的末端限制性片段,该片段的长度随着16S基因的特定序列的不同而不同[55]。因为不同的片段长度在凝胶上的迁移不同,所以为每个样品创建了不同的条带模式。群落之间的差异可以用TRFLP谱中条带的大小和数目进行定义,并借助克隆文库将单个条带追溯到单个生物体。与所有的指纹技术一样,凝胶上的每个条带均对应理论上的每个“物种”。TRFLP分析是一种快速且可重现的方法,已经过优化并用于人肠道微生物群的变异检测中[56]。
(三)核糖体基因间隔分析
核糖体基因间隔分析(Ribosomal Intergenic Spacer Analysis,RISA)是肠道微生态研究领域内相对较新的分析工具,该技术还被用来表征哺乳动物和土壤环境中复杂细菌群落之间的差异[57]。RISA涉及16S rRNA基因和23S rRNA基因之间的间隔区PCR扩增,在引物的5'端标记荧光后通过毛细管测序仪对扩增产物进行检测。由于不同样品间细菌群落扩增所得的片段差异较大,此长度异质性程度可作为核糖体基因间隔(Ribosomal Intergenic Spacer,RIS)片段的指纹。RIS是一个高变区,缺乏进化保守性。由于RIS的可变性增强,该分析方法可弥补16S rRNA测序技术难以在种株水平上鉴别细菌的缺陷。与此相类似,真核生物的内部转录间隔区(Internal Transcriptional Spacer,ITS)亦被分类学家用于植物和真菌的鉴定[58]。
虽然RISA在复杂菌群分析方面具有较高的分辨率优势,但仍然存在明显缺点。当前的RIS数据库主要来源于土壤和海洋微生物,而肠道微生物的RIS数据仍为空白。因此,将RISA用于肠道微生物群分析的首要条件是建立具有丰富肠道细菌来源的RIS区域的数据库[59]。
总体而言,肠道微生物群落的“指纹”分析方法具有诸多优点,但受限于凝胶对扩增片段的低分辨能力,这些方法的检测限与Sanger测序法和焦磷酸测序法的检测限相比普遍偏高。当待检片段的丰度低于该区域片段总数的1%时,很难将其与系统检测到的背景噪声进行区分。
三、DNA微阵列
DNA微阵列技术是一种非常强大的细菌鉴定工具,可专一性地针对肠道微生物群进行高通量分析(见表2-1)。首个DNA微阵列分析方法由Brown实验室开发,该阵列可特异性负载胃肠道微生物群成员的探针[60]。目前,最具代表性的DNA微阵列是Agilent基因芯片平台,该平台在研究人结肠和胃的微生态学时,可分析多达359个微生物群的物种和316个新OTU探针[33,60,61]。Paliy等人则基于Affymetrix基因芯片平台,开发出11种涵盖775个种属的高敏感微阵列,这些代表性物种的种簇序列全部来自人的粪便和结肠[62]。在进行比较性研究中,Affymetrix 基因芯片平台能够检测和量化健康成年人与儿童肠道微生物群之间的差异,并可检测占总菌落数0.00025%的细菌DNA[62]。
表2-1 肠道微生物群检测方法比较
续表
与16S rRNA测序相比,DNA微阵列技术是一种经济、高效且耗时较少的方法,可最大可能地实现样品微生物群落在相似水平的分析灵敏度检测及定量检测。然而,此技术存在一定的杂交偏差(某些序列比其他序列更容易发生杂交)问题,这也是DNA微阵列菌群芯片迄今未能走向商业化的主要瓶颈。
四、肠道微生物群定量分析
除上面介绍的高通量筛选方法外,还可对肠道微生物群中的特定细菌进行绝对定量分析。
FISH(Fluorescent in Situ Hybridization,FISH)分析技术将荧光标记的寡核苷酸探针和目标菌群特有的16S rRNA序列进行杂交,从而实现靶向细菌在种水平或属水平的定量(见表2-1)。例如,Harmsen等人设计的FISH探针可识别90%的正常肠道微生物群[63]。目前,FISH技术已被用于表征肠道感染时菌群在门水平的变化,临床上也将其用于健康人群和患者之间差异细菌的含量比较[64,65]。
定量PCR(Quantitative PCR,qPCR)分析技术是另外一种适于特定菌群定量的常用方法,该方法可从复杂菌群中分析特定细菌的相对含量或绝对含量(见表2-1)。常用的qPCR分析技术为实时荧光定量PCR(Quantitative Real-time Polymerase Chain Reaction,qRT-PCR)分析技术。qRT-PCR反应中添加有荧光指示剂,每一轮扩增都能引起荧光强度的增加,可达到实时扩增的效果。工作人员根据标准曲线对扩增后的荧光数据进行分析,即可获得特定细菌的定量或定性结果。该方法用于肠道微生物群分析时,检测门槛低,分析目标明确,尤其适用于菌群的定量检测。临床上或实验室常利用qRT-PCR分析技术,比较机体在生理或病理条件下靶细菌的绝对含量变化。该方法的特异性取决于引物的设计情况,最低可检测到菌株水平。qRT-PCR 分析技术和 FISH 分析技术只能对已知菌株进行分析,不能测定未知细菌(新型细菌群)的水平。另外,要通过使用qRT-PCR分析技术实现对菌株的绝对定量检测,该菌株必须可培养,以用于标准曲线的建立。
五、肠道微生物群功能信息分析
在了解了肠道微生物群的组成信息后,需要对肠道微生物群的功能进一步进行分析。前述方法主要适用于微生物群的物种组成分析,但对肠道微生物群的功能阐释贡献不多。目前,肠道微生物群的功能分析方法主要涉及宏基因组学、宏蛋白质组学、宏转录组学、单细胞基因组学和代谢组学等方面的技术(见表2-1)。
(一)宏基因组学(Metagenomics)
宏基因组学是进行肠道微生物群分析的强大工具,它不仅能从微生物群落中获得不同细菌的含量和组成信息,还可获得该群落中所有已知功能基因的丰度情况,对肠道微生物群在不同层面和水平的组成分析有很大帮助。该方法的前处理相对简单,只需要提取微生物群落的DNA样品,就可对其进行深度测序工作。宏基因组学的工作原理主要基于鸟枪法测序,即将获取的DNA片段打碎,然后利用片段之间的重叠部分拼合成完整的基因信息,进而重新组装成整个基因组框架。当微生物群落相对简单时,将有可能从群落中的高丰度成员那里获取完整的基因组。使用蛋白质序列比对蛋白数据库(BLASTp)可鉴定蛋白质的编码基因,并参考数据库信息,为预测得到的基因产物分配和赋予蛋白质的直系同源基因簇(Clusters of Orthologous Groups,COG),COG数据库为每个基因提供了预测的功能信息[66]。基因产物可通过特定数据库进行查询,如Kyoto Encyclopedia of Genes and Genomes(KEGG)、CAZymes 和STRING数据库等[67,68]。基于宏基因组学,人类肠道的微生物组已得到详细解析。此外,Gill等人首次比较了两个健康个体的微生物组,并提出肠道微生物群的“超生物”概念[69]。Kurokawa等人分析了成人、儿童和婴儿的13个肠道微生物组,发现婴儿微生物群虽然在基因的组成和功能上存在明显的个体差异,但成人和断奶儿童的微生物群则表现出高度的功能相似性,为人体肠道的“核心微生物组”概念的提出提供了依据[70]。后来,Turnbaugh等人在对胖、瘦双胞胎进行研究时,证实了健康个体中存在“核心”基因集合[42]。
但是,宏基因组学的应用也存在着明显的局限性。首先,该方法成本很高,而且对计算机软硬件基础设施和生物信息学专业知识也提出了很高的要求。其次,宏基因组学的高成本特点导致其在实际应用中的检测样本规模较小,限制了宏基因组学在肠道细菌功能研究领域的大规模应用。近年来,随着测序成本的下降和云计算工具的广泛使用,这种状况有望得到改善。此外,与其他核酸检测方法一样,对样品的存储、制备和处理方法也会影响到宏基因组学最终的数据分析质量。
(二)宏蛋白质组学(Metaproteomics)
宏蛋白质组学(或蛋白质组学)是整个微生物群落的主要功能分析方法之一,已被用于鉴定肠道中的关键微生物功能。宏蛋白质组学利用非靶向的“鸟枪法”质谱技术来分析肠道微生物群宏蛋白质组中蛋白质的多样性和丰度[73]。肠道微生物群的蛋白质组与基因组不完全对应,研究表明人体粪便样品中鉴定出的蛋白质组成与宏基因组预测结果有显著差异[74]。由于蛋白质是多种生命活动的直接承担者,为了保证肠道微生物群分析结果的准确性,需要在匹配的数据集之间进行比较。
宏蛋白质组学不仅可直接监测微生物蛋白的表达水平,还可通过改变蛋白质的分离步骤,确定与特定蛋白质相互作用的宿主蛋白,此工作对于研究宿主和微生物群之间的相互作用关系意义重大。从总体上看,宏蛋白质组学仍处于复杂微生物群落分析的初级阶段,许多重要的步骤还有待优化。例如,通过改进粪便样品中微生物蛋白的纯化方法,以及提高检测能力,有助于判别低丰度微生物群落成员的贡献度。
(三)宏转录组学(Metatranscriptomics)
宏转录组学是微生物群落研究领域所用到的最新“组学”技术之一。该方法类似于宏基因组学,二者均利用复杂微生物种群中分离得到的核酸进行高通量测序。但是,宏基因组学是对样品的DNA进行鉴定,而宏转录组学是对样品的RNA含量进行表征。目前,宏转录组学被成功应用于土壤和水生环境中的复杂微生物种群研究,也被应用于白蚁肠道中的宿主—共生体相互作用和炎性肠病患者的肠道微生物群转录特征研究[71,72]。因为宏转录组学是利用RNA产物而非利用DNA产物进行转录的,所以它可以提供有关肠道微生物群的动态信息,并有助于分析周围环境改变对诱导基因激活所致群落结构变化的影响。宏转录组学是否可用于表征哺乳动物宿主与其微生物种群之间的相互作用研究尚有待观察,但这项技术无疑有助于提高我们对人与微生物群落之间相互作用的理解。
(四)单细胞基因组学(Single-cell Genomics,SCG)
单细胞基因组学是对宏基因组学的技术补充。从样本中分离出单个微生物细胞后,可通过全基因组扩增技术对此微生物的基因组进行定量分析。该反应通常使用多重置换扩增技术,在未培养的微生物中产生足够的基因组拷贝数,然后利用鸟枪法进行测序[75]。单细胞基因组学分析与荧光探针、同位素标记或拉曼光谱等技术联合使用后,可高精度地捕获靶细胞及其基因组信息。就此而言,单细胞基因组学的检测范围不再局限于已有的数据库信息,还可对未注释微生物基因组信息的功能进行解析。但是,单细胞基因组学技术也存在一些明显的缺陷,如污染和扩增过程中出现的偏差问题。由于此分析技术是针对单个细胞的基因组信息,只要在分析过程中出现一个细胞污染,结果都是灾难性的。尽管如此,单细胞基因组学在表征稀有门类和未知门类(如TM7和绿弯菌门Chloroflexi)的新型人类相关细菌的研究中还是被广泛应用,并取得了不错的效果的[76,77]。另外,通过单细胞基因组学分析获得的数据还可对现有参考数据库中的信息进行扩展,并为其提供参考基因组,从而极大地帮助了宏基因组学分析工作的开展[78]。
(五)代谢组学(Metabolomic)
代谢组学是通过研究一个群落中所有小分子的代谢产物来分析该群体整体代谢特征的方法,该技术可对样品中存在的多种小分子代谢物进行同步解析。目前,非靶向性代谢组学一次可完成上千种代谢产物的测定。在肠道微生态研究领域,代谢组学被广泛应用于表征肠道微生物群对宿主血液代谢产物的影响,旨在为肠道微生物群对宿主健康的调控提供更加明确的分子依据。由于大多数体液和组织样品的组成高度复杂,当前的代谢组学技术尚不能涵盖样品中所有的代谢产物。尽管如此,作为后基因时代发展起来的系统生物学新技术,代谢组学在肠道微生态研究领域无疑将发挥举足轻重的作用。