用于识别原生生物的条形码与NGS宏条形码技术

239

2026-04-30

一、背景介绍

1.1 原生生物概述

原生生物（Protists）是指真核生物中除植物、动物和真菌之外的一大类群，大部分为单细胞生物，包括鞭毛虫、纤毛虫、变形虫以及真核藻类等。尽管它们形态微小，但在陆地和水生生态系统中发挥着至关重要的功能——光合自养的原生生物构成了水生食物网的基础，而异养的原生生物通过调控细菌和真菌群落的规模和组成，在养分循环中起重要作用。

长期以来，传统的形态学鉴定方法难以有效揭示原生生物的真实多样性。过去十年中，环境DNA宏条形码技术的应用彻底改变了对这些微小真核生物多样性认知的方式。

1.2 宏条形码技术概述

宏条形码（Metabarcoding）技术将环境DNA（eDNA）提取、PCR扩增通用条形码标记、高通量测序以及生物信息学分析有机结合，能够同时对环境样品中数十至数百个物种进行鉴定和分析。与传统DNA条形码不同，宏条形码无需对单个物种进行PCR扩增，而是直接从环境样本（土壤、水体、沉积物等）中提取总DNA进行混合扩增和测序，从而获得整个群落的结构信息。

二、常用分子标记与引物

2.1 18S rRNA基因作为核心标记

原生生物宏条形码研究几乎完全依赖于核糖体小亚基RNA（18S rRNA）基因，这是目前应用最广泛、参考序列最丰富的分子标记。18S rRNA基因具有保守区与高变区交替排列的结构特征：保守区可用于设计通用引物以覆盖广泛的分类群，而高变区（特别是V4区和V9区）提供的序列变异足以在属或种水平上区分不同类群。

2.2 常见引物及其序列

（1）靶向V4区域的常用引物

V4区域（约350-400 bp）是目前原生生物研究中使用频率最高的标记片段。

引物名称	序列(5'→3')	靶向区域
547F	CCAGCASCYGCGGTAATTCC	V4区正向
967R	ACTTTCGTTCTTGAT	V4区反向
Ek-NSF573F	CGCGGTAATTCCAGCTCCA	V4区正向
Ek-NSR951R	TTGGYRAATGCTTTCGC	V4区反向

针对特定类群（如Cercozoa）设计的V4引物扩增片段长度约为350 bp，适合Illumina MiSeq平台，在分子环境调查中兼具成本效益和高灵敏度。

（2）靶向V9区域的常用引物

V9区域片段较短（约130-150 bp），特别适用于DNA高度降解的环境样本（如沉积物、粪便等）。

引物名称	序列(5'→3')	靶向区域
1380F	cCCTGCCHTTTGTACACAC	V9区正向
1510R	CCTTCYGCAGGTTCACCTAC	V9区反向
1389F	TTGTACACACCGcCCGTC	V9区替代正向

（3）全长18S rDNA扩增引物

随着长读长测序技术的发展，全长18S rDNA的扩增策略逐渐受到关注。使用全新的引物组合可以扩增约1800 bp的全长序列，为原生生物的分类鉴定提供更高的分辨率。与短读长相比，全长序列能够获得更多的系统发育信息，在特定类群（如甲藻）的鉴定中表现尤为出色。例如，基于Nanopore平台的研究中，每样本可产生约594,076条原始读长，经处理后平均读长可达1843 bp [7†L19-L23]。

2.3 PR2引物数据库

由于原生生物类群极为多样，没有一对引物能够同等良好地覆盖所有原生生物类群，因此引物的知情选择至关重要。Vaulot等（2021）建立了 PR2引物数据库（pr2-primers），收录了285个引物和83个独特的引物对，这些引物均已用于真核18S rRNA基因的宏条形码研究。该数据库配备了基于R语言的网络应用程序（https://app.pr2-primers.org），可以进行引物搜索、分类特异性评估、扩增子大小预测和错配位置分析，极大地便利了研究者的引物选择。

2.4 V4区 vs V9区的选择策略

研究表明，靶向18S rRNA基因V4区的引物通常能检测到比V9区更多的原生生物类群，但同一类群内的群落组成相似。在土壤原生生物研究中发现，V4区和V9区所检测到的原生生物类群重叠有限（80/549个类群），说明两个区域偏向检测不同的分类群，因此具体选择取决于研究目标和关注的类群。此外，退火温度对大多数引物对的测序深度和原生生物分类群丰富度均有明显影响。

需要特别注意的是，V4引物的正向和反向reads合并会显著减少序列数量和原生生物的分类丰富度，因此在生物信息学处理时需谨慎选择。

三、主要应用领域

3.1 水生生态系统监测

原生生物宏条形码技术在淡水和海洋生态系统研究中应用最为广泛。从水样中采集的eDNA可通过高通量测序同时检测浮游原生生物的群落结构和时空动态。研究显示，该方法可用于监测藻类赤潮、评价水环境质量和跟踪外来入侵物种的传播。

3.2 土壤原生生物多样性研究

在陆地生态系统中，宏条形码技术揭示了以往被忽视的土壤原生生物巨大多样性。据报道，仅从26个土壤样品中就检出了901个OTUs（97%相似性阈值），每个样点约50,000条序列，且只有8%的序列为非原生生物序列。改良的过滤沉降方法能够有效富集带壳原生生物，同时减少植物、动物和真菌DNA的共提取干扰。因此，土壤原生生物（特别是硅藻）也被视为土壤质量评价的生物指示剂。

3.3 沉积物古生态学重建

利用沉积物中的古DNA（sedimentary ancient DNA, sedaDNA），通过V9区域短片段扩增，可重建过去百年尺度的生态系统演变历史。例如，对巢湖沉积物DNA的研究利用1380F/1510R引物扩增130 bp的V9片段，揭示了人类活动导致的长时段生态系统变化。

3.4 食性分析与食物网研究

宏条形码技术还被用于分析动物胃含物或粪便样本中的原生生物多样性，从而揭示食物网中的营养相互作用。例如，对香螺胃含物的研究发现，18S rDNA V4区和V9区共注释到大量原生生物类群，揭示了复杂的摄食关系。

3.5 污水监管与病原监测

18S rRNA基因扩增结合高通量测序可用于表征污水中的原生生物组成，特别是检测具人兽共患潜力的原生生物（如毛滴虫）。

3.6 沿海海沟垫等特殊生境

在生物土壤结皮等特殊生境中，V4宏条形码方法成功检测了几乎涵盖整个门范围的Cercozoa多样性，且新发现的OTUs中有43%与任何已知序列的相似度低于97%，提示存在大量未被描述的新类群。

四、测序平台比较

4.1 Illumina短读长测序

Illumina短读长测序平台目前仍是原生生物宏条形码研究的主流选择。其优点在于测序通量高（单次运行可处理数十至数百个样本）、测序错误率低（约0.1%），且成本效益高，特别适合大规模、高通量的群落多样性调查。常用的读长配置为2×250 bp或2×300 bp的双端测序。然而，短读长的分类分辨率相对有限，且对引物偏好和扩增偏差较为敏感。

4.2 Nanopore长读长测序

近年来，牛津纳米孔公司（ONT）的长读长测序技术为原生生物研究带来了新的可能。与Illumina相比，Nanopore技术主要有以下优势：

更高的分类分辨率：全长18S rDNA序列可提供更丰富的系统发育信息，在属级鉴定上表现显著优于短读长。一项比较研究表明，在田间样品中全长18S检测到250个属（84%），而V4仅检测到226个属（76%），V8-V9仅检测到213个属（71%）。

更低的假阳性率：长读长序列中的少量测序错误可以通过后续抛光处理加以矫正，且嵌合体检测更为可靠。Nanopore测序生成的OTUs平均长度可达1843 bp，明显优于Illumina的379 bp。

测序灵活性与便携性：MinION Mk1B等便携设备可用于现场快速测序，适合野外工作站或资源受限的场景。

成本优势：对于中等规模的测序项目，Nanopore平台的运营成本和设备投入相对较低。

但是，Nanopore测序目前的错误率仍高于Illumina（约5%-15%），需要依赖专门的生物信息学流程（如BaNaNA、ONTbarcoder等）进行错误矫正和质量过滤。

4.3 选择建议

对于需要大规模样本平行处理和追求较低假阳性率的群落组成分析，Illumina平台是更为成熟的方案；而对于需要精细分类鉴定（尤其是属级或种级）的研究，采用Nanopore全长18S rDNA策略可提供更高的分辨率；将两种平台结合使用，可同时获得高通量和准确定性，是当前研究的前沿趋势。

五、参考数据库

5.1 PR2数据库（Protist Ribosomal Reference database）

PR2数据库是专门针对原生生物和真核微生物18S rRNA序列的专业参考数据库。最新版本（5.0.0）提供了高质量的参考序列和分类学注释。与之配套的metaPR2数据库收集了超过4,000个样本和90,000个ASVs，是宏条形码数据分类注释的重要资源库。

5.2 SILVA数据库

SILVA数据库覆盖细菌、古菌和真核生物三大生命域，提供经人工核校的核糖体RNA基因参考序列比对。SILVA数据库包含约75,000条18S/16S rRNA参考序列，并配有基于系统发育树的物种分类体系。

5.3 NCBI GenBank

NCBI GenBank收录了大量原生生物18S rRNA序列，参考序列最全面，但需要自行进行质量过滤和冗余去除。

研究建议将PR2与SILVA结合使用：PR2的原生生物注释更为精细，而SILVA在分类学覆盖范围上更广，二者互补使用可提高物种分类的准确性。

六、实验操作步骤

6.1 样品采集与处理

水体样品：采用0.22 µm孔径、47 mm直径的聚碳酸酯滤膜进行抽滤，收集水中的微生物细胞。每个采样点应设置3个以上生物学重复。滤膜应立即放入无菌离心管，液氮速冻后转移至-80°C保存或直接进行DNA提取。

土壤/沉积物样品：使用无菌取样器采集表层土壤（0-10 cm），过2 mm筛网去除石块和植物残渣，低温运输至实验室。可根据需要采用改进的过滤沉降方法，使用150 µm孔径筛网过滤后进行沉降富集带壳原生生物。

DNA提取：使用商用试剂盒（如MolPure® Bacterial DNA Kit（18806ES，细菌DNA提取）或MolPure® Mag Soil/Stool DNA Kit（18526ES磁珠法土壤/粪便DNA提取试剂盒）），严格按照说明书提取总DNA，并测定DNA浓度和质量（OD260/280在1.8–2.0之间为佳）。

DNA浓度测定：使用qubit定量设备（单通道核酸定量仪80571ES、83509ES，96通道核酸定量仪80575ES、83652ES）搭配qubit试剂（12642ES）测定浓度。

6.2目标片段富集：PCR扩增（注，不同测序平台，扩增引物会有差异）

设置PCR反应：50 μL PCR体系中包括以下成分：

组分	体积（μL）	终浓度
模板DNA	1 ng -200 ng	-
正向引物(10 μM)*	1	0.1 μM-0.5 μM
2×Multiplex Long PCR Master Mix（17228ES）	25
反向引物(10 μM)*	1
无菌超纯水	up to 50	-

配置好以上体系后，在PCR仪中设置以下PCR程序：

循环步骤	温度（℃）	时间	循环数
热盖	105℃	On	-
预变性	98℃	30 sec	1
变性	98℃	10 sec	30-35（根据实验要求）
退火	60℃*	5 sec
退火延伸	68°C~72°C**	5~10 sec/Kb
终延伸	72℃	2 min	1
暂存	4℃	-	-

6.3 扩增产物0.9×纯化

1) 准备工作：将Hieff NGS® DNA Selection Beads（12601ES）磁珠由冰箱中取出，室温平衡至少30 min，配制80%乙醇。

2) 涡旋振荡或充分颠倒磁珠以保证充分混匀。

3) 吸取 45 μL Hieff NGS® DNA Selection Beads（0.9×，Beads:DNA=0.9:1）至一轮PCR产物中，室温孵育5 min。

4) 将 PCR 管短暂离心并置于磁力架中分离磁珠和液体，待溶液澄清后（约 5 min），小心移除上清。

5) 保持PCR管始终置于磁力架中，加入200 μL新鲜配制的80%乙醇漂洗磁珠，室温孵育 30 sec后，小心移除上清。

6) 重复步骤5，总计漂洗两次。

7) 保持PCR管始终置于磁力架中，开盖空气干燥磁珠至刚刚出现龟裂（不超过5min）。

8) 直接加入11 μL ddH2O，将PCR 管从磁力架中取出，涡旋振荡或使用移液器轻轻吹打至充分混匀，室温静置5 min。进入下一步反应。

6.4 电泳检测：取1 μL PCR产物进行2%琼脂糖凝胶电泳（10208ES），确认目标条带明亮清晰，无非特异性扩增。

6.5.1 选择二代测序时：二次PCR（添加样品标签与测序接头）

二次PCR加标签：以纯化后的一次PCR产物为模板，使用带Illumina或者MGI接头的引物进行二次PCR扩增（13344ES），为每个样品添加独特的index标签，以便混合测序后区分不同样品。

纯化二次PCR产物：再次使用磁珠法纯化加标签后的文库产物（12601ES）。

6.5.2 选择三代测序时：直接搭配通用建库试剂即可完成三代文库构建（13306ES）。

建库完成后，对文库进行纯化以便后续上机测序（12601ES）。。

6.6 文库定量、混合与测序

浓度检测：使用qubit定量设备（单通道核酸定量仪80571ES、83509ES，96通道核酸定量仪80575ES、83652ES）搭配qubit试剂（12642ES）测定浓度。

等摩尔混合：将所有样品文库按等摩尔浓度混合，形成最终的测序pool。

高通量测序：将混合文库送检至NGS平台，常用平台包括Illumina NovaSeq、MGI T7或ONT、Cyclone等测序仪。

6.7生物信息学分析

七、结论与展望

原生生物宏条形码技术已经从一个新兴方法发展为生态学和生物多样性研究的成熟工具。当前，该领域正朝着更全面的方向推进：全长18S rDNA策略结合Nanopore长读长测序可提供属级甚至种级的精细分类信息，为研究原生生物的物种形成和进化关系提供了前所未有的分辨能力，而短读长平台则继续在大规模群落调查中保持着高通量和低成本的优势。随着参考数据库的不断完善和新的生物信息学工具的持续开发，这一技术将在生态系统监测、生物多样性保护和全球变化研究中发挥更为关键的作用。

八、产品推荐

实验步骤	产品名称	产品货号
DNA提取	MolPure® Bacterial DNA Kit 细菌DNA提取	18806ES
DNA提取	MolPure® Mag Soil/Stool DNA Kit磁珠法土壤/粪便DNA提取试剂盒	18526ES
COI扩增	Hieff NGS® Multiplex Long PCR Master Mix/ 长片段多重扩增酶	17228ES
二代建库	2× Ultima HF Amplification Mix 高保真DNA文库扩增模块	13344ES
	Illumina平台接头	12327~12330ES
	MGI平台接头	13350~13353ES
三代建库	Hieff® LongSeq Amplicon End repair and Ligation Module 全长扩增子建库	13306ES
纯化磁珠	Hieff NGS® DNA Selection Beads	12601ES
Qubit定量	1× dsDNA HS Assay Kit 即用型dsDNA qubit定量试剂	12642ES