植物DNA宏条形码的NGS应用
33
2026-04-30
一、植物DNA宏条形码背景介绍
1.1 从DNA条形码到宏条形码
DNA条形码(DNA barcoding)利用短小、标准化的DNA序列作为分子标签,对物种进行快速、标准化的鉴定。自Hebert等于2003年首次提出以来,DNA条形码已成为分类学、生态学、保护生物学、农业和医学等领域的核心工具之一。在植物中,由于线粒体基因组进化缓慢,动物中通用的COI基因无法用于植物鉴定。植物条形码工作组(Plant Working Group of the Consortium for the Barcode of Life, CBOL)推荐叶绿体rbcL和matK的组合作为陆地植物的核心条形码,但这两个位点的物种水平鉴别效率分别仅为49.7%和72%左右,常难以区分近缘物种。
DNA宏条形码(DNA metabarcoding)是将DNA条形码与高通量测序(High-Throughput Sequencing, HTS)相结合的创新技术,能够从单一环境样本中同时分析多个物种的DNA,为高效、经济地鉴定混合样本中的植物成分提供了有力工具。简单来说,传统条形码解决的是“这是哪一个物种”的问题,而宏条形码解决的是“这一个混合物中包含哪些物种”的问题。
1.2 NGS技术与植物宏条形码的融合
下一代测序(Next-Generation Sequencing, NGS)技术的整合大大拓展了分子分类学的应用边界,使大规模基因组和转录组研究成为可能。在宏条形码框架下,研究者通过通用引物扩增特定条形码区域(如ITS2、rbcL、trnL等),然后对扩增产物进行高通量测序,再通过生物信息学分析鉴定样本中的物种组成。以Illumina(HiSeq、MiSeq)为代表的二代测序平台是目前宏条形码研究中的主力,而Oxford Nanopore等三代长读长测序技术凭借实时测序和便携性已在现场监测中展现出独特优势。
截至2025年初,公共数据库中已累积超过373,584条植物DNA条形码参考序列,覆盖了全球约435,000种陆生植物物种的四分之一。然而,参考数据库存在明显的地理和分类学覆盖偏差,约有17%的植物科缺乏任何参考条形码数据,热带生物多样性热点地区尤其薄弱。
二、植物DNA宏条形码的主要应用领域
2.1 生物多样性监测与环境DNA研究
环境DNA(eDNA)宏条形码技术通过分析水体、土壤、沉积物等环境样本中的DNA来监测生物多样性,具有非侵入性、低成本和高灵敏度的优势。在陆地生态系统中,植物DNA宏条形码已被用于植被变化评估等场景,在分类学分辨率和鉴定效率方面相较于传统的花粉分析方法具有一定优势。例如,Metabarcoding可以使用叶绿体trnL P6环标记进行沉积物中植物古DNA的分析,重建过去的植被组成变化。2025年出现的现场可部署eDNA宏条形码工作流程,通过恒温重组酶聚合酶扩增与Nanopore测序相结合,能够在资源有限的生态热点地区实时进行生物多样性评估。
2.2 草药产品真伪鉴定
全球草药市场规模预计到2025年将超过1150亿美元,但标签错误、掺假和污染问题日益严重。传统形态学、显微学和色谱方法在检测经过加工或粉末化的产品中的成分组合时常常力不从心。DNA宏条形码利用NGS一次性分析多成分混合物中的植物DNA,为复杂草药制剂的真伪鉴定提供了高效、准确、非破坏性的解决方案。DNA条形码(如ITS2、matK序列)与NGS的结合突破了近缘物种鉴定的瓶颈,特别适用于高度加工的植物提取物的鉴定。
2.3 种质资源鉴定与遗传多样性分析
DNA条形码在农业作物品种鉴定和种内多样性分析中具有重要价值。统一的DNA条形码程序可以广泛应用于不同种质资源库的种质鉴定,具有成本效益,并可促进开放获取遗传数据库的建设。叶绿体位点如trnE-UUC/trnT-GUU、psbA-trnH、trnL-trnF、matK等已被证明对作物品种水平的鉴定有较好的鉴别能力。
2.4 食品安全与法医鉴定
在食品行业,植物宏条形码可用于检测原料掺假、物种混淆等问题。例如,银杏叶提取物常被非法掺入槲皮素以虚标黄酮含量,而DNA条形码与NGS技术可以从分子层面有效甄别这类掺假行为。此外,宏条形码技术在追踪非法贸易中的植物材料、代用品掺假等法医鉴定场景中也具有广阔的应用前景。
三、植物DNA宏条形码常用引物及序列
3.1 核心条形码区域
目前植物DNA宏条形码研究中广泛使用的条形码区域包括叶绿体基因和核基因组区域两大类。
(1)核糖体DNA内部转录间隔区
ITS(Internal Transcribed Spacer,包括ITS1和ITS2):进化速率快、种间变异高、物种分辨能力强。研究表明ITS2在马鞭草科植物中种间变异和条形码间隙表现优于rbcL等其他位点。然而,ITS区域存在植物与真菌序列交叉污染的潜在问题,在宏条形码分析中需要特别注意过滤真菌序列。
ITS2:在铁皮石斛种质资源鉴定中的鉴定率达到90.1%,被推荐用于种质鉴定研究。
(2)叶绿体编码基因
rbcL(Rubisco大亚基编码基因):CBOL推荐的植物核心条形码之一,扩增成功率高(可达98.2%),但物种分辨率较低(约77.8%的物种水平鉴定率),保守性较强,适合较高层级的分类学鉴定。
matK(成熟酶编码基因):CBOL推荐的另一核心条形码,变异水平高于rbcL,物种分辨率较高(部分研究中约89.5%),但部分类群的扩增成功率偏低。有时需要两对引物才能成功扩增。
(3)叶绿体非编码区
trnH-psbA:叶绿体基因间隔区,进化速率较快、物种间变异丰富。在马鞭草科植物中,psbA-trnH与ITS2的组合被推荐用于物种鉴定。
trnL(UAA)内含子的P6环:片段极短(约10-143 bp),特别适用于降解严重的样本(如古代DNA、加工过的产品)。该区域具有极高的引物通用性和良好的物种鉴别能力,是植物多样性评估中的成熟标记。
3.2 常用引物序列
以下汇总了上述主要条形码区域的通用引物序列:
|
条形码区域 |
引物名称 |
引物序列(5Y →3\) |
片段长度 |
备注 |
|
trnL(UAA)P6环 |
g(正向 ) |
GGGCAATCCTGAGCCAA 46 |
~10-143 bp |
适用于降解和古代DNA样本 |
|
trnL(UAA)P6环 |
h(反向) |
CCATTGAGTCTCTGCACCTATC 46 |
~10-143 bp |
适用于降解和古代DNA样本 |
|
psbA-trnH |
psbA( 正向 ) |
GTTATGCATGAACGTAATGCTC |
~340-760 bp |
种间分辨率较高 |
|
psbA-trnH |
trnH(反向) |
CGCGCATGGTGGATTCACAATCC |
~340-760 bp |
种间分辨率较高 |
|
matK |
matK( 正向 ) |
CGATCTATTCATTCAATATTTC |
~850 bp |
通用引物,部分类群扩增困难 |
|
matK |
matK(反向) |
TCTAGCACACGAAAGTCGAAGT 29 |
~850 bp |
通用引物,部分类群扩增困难 |
|
rbcL |
rbcLaF(正向) |
ATGTCACCACAAACAGAAACTAAAGC |
~550 bp |
扩增成功率高 |
|
rbcL |
rbcLaR(反向) |
GTAAAATCAAGTCCACCRCG 18 |
~550 bp |
扩增成功率高 |
|
ITS |
ITS1( 正向 ) |
TCCGTAGGTGAACCTGCGG |
~600-800 bp |
核糖体DNA,注意真菌污染 |
|
ITS |
ITS4(反向) |
TCCTCCGCTTATTGATATGC 19 |
~600-800 bp |
核糖体DNA,注意真菌污染 |
|
ITS2 |
ITS2F( 正向 ) |
ATGCGATACTTGGTGTGAAT |
~300-500 bp |
较短版本,适用于宏条形码 |
|
ITS2 |
ITS3(反向) |
GCATCGATGAAGAACGCAGC 19 |
~300-500 bp |
较短版本,适用于宏条形码 |
3.3 引物选择策略
在宏条形码研究中,引物的选择需要综合考虑以下因素:
- 扩增成功率:rbcL和ITS的扩增成功率通常最高(分别约98.2%和96.4%),matK可能因类群不同而偏低。
- 物种分辨率需求:如需区分近缘种,优先选择ITS/ITS2和psbA-trnH等高变区域;若仅需鉴定到属或科水平,rbcL通常足够。
- 扩增子长度:对于降解严重的DNA(如古DNA、加工产品),应选择短片段标记,如trnL P6环。
- 引物偏差:所有植物引物均存在不同程度对特定科属的偏好性扩增,单一引物可能无法检测到群落中的所有类群。建议使用多引物组合以相互弥补偏差。
- 质量控制:退火温度优化至关重要。研究表明matK、ITS、rbcL、psbA和trnL的最佳退火温度分别为56℃、60℃、60℃、60℃和60℃。各类群间可能需要单独优化。
3.4 多条形码组合策略
由于单一条形码标记难以完美兼顾扩增通用性与物种分辨率,多标记组合策略被广泛采用。组合使用不同功能的条形码区域可以从多个维度相互验证结果:
- 通用核心组合:rbcL + matK是CBOL推荐的陆地植物核心条形码标准,可在保守区段与变异区段之间取得平衡。
- 高分辨组合:ITS2 + psbA-trnH在马鞭草科中的物种鉴定率达到100%,整体表现优于其他组合。ITS2 + trnL-trnF是梅花草属鉴定中的推荐组合。
- 降解样本专用:trnL P6环因片段极短,是古代DNA、高度加工草药粉末和环境沉积物样本的首选。《Methods in Molecular Biology》2024版提供了针对不同样本类型的条形码区域选择参考框架。
- 通用条形码组合:rbcL + matK + ITS的多位点组合方案可兼顾各级分类学分辨率的需求。
四、植物DNA宏条形码实验步骤
完整的植物DNA宏条形码实验流程通常包括样本采集与处理、DNA提取、PCR扩增、文库构建、高通量测序和生物信息学分析六个核心阶段。《Methods in Molecular Biology》2024年版详细阐述了以植物、真菌、昆虫或土壤样本为起始材料,涵盖DNA提取、扩增、纯化、文库制备到大规模平行测序(MPS)的全流程步骤。
常规实验步骤如下:
1. 样品采集与DNA提取
样品采集:根据研究目的,采集代表性环境样品(如2L水样、10g土壤)。使用无菌容器,避免交叉污染,每个样品独立采集。
DNA提取:使用商用试剂盒(如MolPure® Mag Plant DNA Kit(18529ES,植物通用DNA提取)或MolPure® Mag Soil/Stool DNA Kit(18526ES磁珠法土壤/粪便DNA提取试剂盒)),严格按照说明书提取总DNA,并测定DNA浓度和质量(OD260/280在1.8–2.0之间为佳)。
DNA浓度测定:使用qubit定量设备(单通道核酸定量仪80571ES、83509ES,96通道核酸定量仪80575ES、83652ES)搭配qubit试剂(12642ES)测定浓度。
2. 目标片段富集:PCR扩增(注,不同测序平台,扩增引物会有差异)
设置PCR反应:50 μL PCR体系中包括以下成分:
|
组分 |
体积(μL) |
终浓度 |
|
模板DNA |
1 ng -200 ng |
- |
|
正向引物(10 μM)* |
1 |
0.1 μM-0.5 μM |
|
2×Multiplex Long PCR Master Mix(17228ES) |
25 |
|
|
反向引物(10 μM)* |
1 |
|
|
无菌超纯水 |
up to 50 |
- |
配置好以上体系后,在PCR仪中设置以下PCR程序:
|
循环步骤 |
温度(℃) |
时间 |
循环数 |
|
热盖 |
105℃ |
On |
- |
|
预变性 |
98℃ |
30 sec |
1 |
|
变性 |
98℃ |
|
30-35(根据实验要求) |
|
退火 |
60℃* |
5 sec |
|
|
退火延伸 |
5~10 sec/Kb |
||
|
终延伸 |
72℃ |
2 min |
1 |
|
暂存 |
4℃ |
- |
- |
3. 扩增产物0.9×纯化
1) 准备工作:将Hieff NGS® DNA Selection Beads(12601ES)磁珠由冰箱中取出,室温平衡至少30 min,配制80%乙醇。
2) 涡旋振荡或充分颠倒磁珠以保证充分混匀。
3) 吸取 45 μL Hieff NGS® DNA Selection Beads(0.9×,Beads:DNA=0.9:1)至一轮PCR产物中,室温孵育5 min。
4) 将 PCR 管短暂离心并置于磁力架中分离磁珠和液体,待溶液澄清后(约 5 min),小心移除上清。
5) 保持PCR管始终置于磁力架中,加入200 μL新鲜配制的80%乙醇漂洗磁珠,室温孵育 30 sec后,小心移除上清。
6) 重复步骤5,总计漂洗两次。
7) 保持PCR管始终置于磁力架中,开盖空气干燥磁珠至刚刚出现龟裂(不超过5min)。
8) 直接加入11 μL ddH2O,将PCR 管从磁力架中取出,涡旋振荡或使用移液器轻轻吹打至充分混匀,室温静置5 min。进入下一步反应。
4. 电泳检测:取1 μL PCR产物进行2%琼脂糖凝胶电泳(10208ES),确认目标条带明亮清晰,无非特异性扩增。
5-1 选择二代测序时:二次PCR(添加样品标签与测序接头)
二次PCR加标签:以纯化后的一次PCR产物为模板,使用带Illumina或者MGI接头的引物进行二次PCR扩增(13344ES),为每个样品添加独特的index标签,以便混合测序后区分不同样品。
纯化二次PCR产物:再次使用磁珠法纯化加标签后的文库产物(12601ES)。
5-2. 选择三代测序时:直接搭配通用建库试剂即可完成三代文库构建(13306ES)。
建库完成后,对文库进行纯化以便后续上机测序(12601ES)。。
6. 文库定量、混合与测序
浓度检测:使用qubit定量设备(单通道核酸定量仪80571ES、83509ES,96通道核酸定量仪80575ES、83652ES)搭配qubit试剂(12642ES)测定浓度。
等摩尔混合:将所有样品文库按等摩尔浓度混合,形成最终的测序pool。
高通量测序:将混合文库送检至NGS平台,常用平台包括Illumina NovaSeq、MGI T7或ONT、Cyclone等测序仪。
7. 生物信息学分析
五、挑战与未来展望
尽管植物DNA宏条形码技术发展迅速,仍面临若干重要挑战:
- 参考数据库不完整:全球仍有约17%的植物科缺乏任何参考条形码数据,热带生物多样性热点地区的覆盖尤其薄弱。这严重制约了下游应用中物种注释的准确性,可能导致大量序列只能鉴定到属或科水平。
- 引物偏差:现有植物引物均存在不同程度的类群特异性扩增偏好,单一引物无法完整检测样本中的所有植物类群。
- 标准化不足:从DNA提取、PCR扩增到数据分析的跨流程标准化和验证框架仍不成熟。
- 定量能力:基于扩增子的宏条形码方法存在显著的PCR扩增偏好性,影响了物种相对丰度的准确定量。
未来发展趋势包括:长读长测序技术与实时现场监测的进一步融合、人工智能辅助物种注释、多组学整合策略、基因组捕获(如杂交捕获)等无扩增偏好技术的开发应用,以及国际间标准化协议(如METAPLANTCODE项目)的推进。这些进展将共同推动植物DNA宏条形码技术走向更高精度、更高通量和更广泛的生物多样性监测应用。
六、产品推荐
|
实验步骤 |
产品名称 |
产品货号 |
|
DNA提取 |
MolPure® Mag Plant DNA Kit |
|
|
MolPure® Mag Soil/Stool DNA Kit磁珠法土壤/粪便DNA提取试剂盒 |
||
|
COI扩增 |
Hieff NGS® Multiplex Long PCR Master Mix/ 长片段多重扩增酶 |
|
|
二代建库 |
2× Ultima HF Amplification Mix |
|
|
Illumina平台接头 |
||
|
MGI平台接头 |
||
|
三代建库 |
Hieff® LongSeq Amplicon End repair and Ligation Module |
13306ES |
|
纯化磁珠 |
Hieff NGS® DNA Selection Beads |
|
|
Qubit定量 |
1× dsDNA HS Assay Kit |





