Will there ever be a tree of life that systematists can agree on?



Since the concept of a "Tree of Life" was raised by Charles Darwin, researches in this field have not only contributed to our understanding of phylogenetic relationships among taxa, but also significantly accelerated the development of related subjects in biological science. Evolutionary biologist Dobzhansky once remarked that "nothing makes sense in biology except in the light of evolution", which has been largely echoed by later biologists. Indeed, reconstruction of an accurate phylogeny of the living world is very important for biological classification and nomenclature, and also crucial to elucidate the origin and diversification of life. We have experienced three major phases for Tree of Life reconstruction in the past century. Prior to the 1990s, taxonomists published classification systems that were largely dependent on morphological characters. DNA sequencing technology facilitated by the development of polymerase chain reaction (PCR) techniques has allowed systematists to reconstruct phylogenetic relationships using molecular data. More recently, the rapid development of next-generation sequencing tools has brought the Tree of Life to a phylogenomic era by enabling the construction of phylogenies using hundreds or thousands of loci from organellar and nuclear genomes. However, significant conflicts have been detected in phylogenies of various organisms with the large increase in the number of loci used for phylogenetic analyses. Given the level of conflict in some data sets, some researchers have begun to doubt the accuracy and congruence of the Tree of Life and its applications in related biological fields. So, will there ever be a Tree of Life that systematists can agree on? In this paper, we highlight three reasons why researchers cannot retrieve a totally congruent tree that reflects the real evolutionary history of life. This is despite significant improvements in morphological, molecular, and statistical methods and is analogous to our inability to restore a collapsed building, even when all bricks and other building materials remain. (i) Sampling limitations: we cannot sample all the species in the world because a large percentage of species have become extinct throughout Earth's history and many species are currently facing extinction or have not yet been recognized by scientists (especially life in the oceans); (ii) Biological processes: hybridization/introgression, incomplete lineage sorting, gene duplication and/or loss, horizontal gene transfer and other biological events that have occurred during evolutionary history have frequently resulted in gene tree heterogeneity; and (iii) Systematic biases and models for tree reconstruction: phylogenetic noise in the data such as evolutionary saturation and compositional bias can lead to incorrect phylogenies and any algorithms for reconstructing phylogenetic trees cannot absolutely simulate the real processes of organic evolution. Furthermore, biological factors attributed to discordance can become even more complicated when we reconstruct phylogenies using phylogenomic datasets. Generally, incomplete lineage sorting and hybridization/introgression occurred in closely related species, whereas phylogenetic discrepancy at the family, order or above levels are usually the combined effects of gene duplication and/or loss, recombination, and genome duplication. Therefore, it is always important to understand the mechanisms causing the incongruence and explore approaches to better model the processes that generate the discordance. In recent decades, new models and methods in phylogenomic studies have been developed and have shed light on the species trees of some candidate groups. Thus, we still look to a bright future for the Tree of Life and its applications in related biological sciences despite the fact that we cannot achieve a completely congruent tree of the living world.
Will there ever be a tree of life that systematists can agree on?
摘要 自达尔文提出生命之树的概念以来, 该领域的研究不仅帮助人们了解了生物的起源和类群间的亲缘关
, 还极大地推动了生命科学相关学科的发展. 然而, 随着生命之树重建中越来越多冲突的发现, 人们对生命之
树的可靠性及其在其他学科中的应用产生了质疑. 本文简要介绍了生命之树的概念及其发展历史. 综述了由于
() 物种的绝灭和人类认知局限性导致的取样缺乏; () 生物进化过程中存在的杂交/渐渗、不完全谱系分选、
因重复和丢失、基因水平转移等事件; () 建树方法不能真实地模拟生物的进化过程等原因, 不可能获得完全一
致的生命之树. 最后, 展望了生命之树广阔的发展和应用前景, 指出尽管现实中很难得到唯一的生命之树, 但这
关键词 生命之树, 基因树, 物种树, 系统关系冲突, 系统发育基因组学
作为学科间交叉的桥梁, 推动了相关领域的整合创
. 正如美国著名进化生物学家David Hillis所指出
的那样: “You pick up any biological journal—it
doesn’t matter what field it is—and it will have phylo-
genetic data (当你翻阅一本生物学期刊, 不管它属于
哪个领域, 你都会发现其中有系统发育数据).”[1]
Dobzhansky[2]也曾指出: “Nothing makes sense in bi-
ology except in the light of evolution (不从进化角度出
, 生物学上的任何问题都没有意义).” 现在越来越
多的学者也开始接受这样的事实: Evolutionary bi-
ology makes much more sense in the light of phyloge-
ny, the tree of life (如果从生命之树出发, 进化生物学
上的问题则更有意义).” 因此, 了解生命之树的概念
的基础, 也是阐明类群的起源和扩散以及开
展多学科交叉整合研究的前提[3]. 然而, 随着越来越
多的数据用于生命之树重建, 拓扑结构之间存在冲
突的现象也越来越普遍, 人们不可避免地对生命之
, 系统生物学家最终能得到完全一致的生命之树
? 拓扑结构之间的冲突是否影响生命之树在其他
1 什么是生命之树?
生命之树(tree of life, TOL)是达尔文在其不朽著
作《物种起源》(Origin of Species)中提出的, 是完全
符合其进化论思想的一个概念[4]. 达尔文认为地球上
生活的万物, 包括各种生命形式, 花、草、虫、鱼、
, 以及人类自身等生物门类都不是上帝创造的,
是从简单到复杂, 由低等至高等, 经过漫长的地质历
史一步步演化而来的[4]. 因此, 任何一个物种都有其
祖先, 所有的物种一直向前可追溯到一个共同的祖
, 即地球上所有的生物都是同源共祖的, 类人猿与
人类享有最近的共同祖先, 鱼的形态也有人的影子,
分相似, 和人类共用同一套遗传密码子, 人体内基因
根据达尔文的进化理论, 生命之树的概念就不
难理解了: 生命世界就像一棵参天大树, 有树根、树
干、枝梢和树叶, 任何物种或早出或晚出, 但总能在
这棵树上找到其位置, 追溯到其祖先, 有些老根、枝
杈枯死了, 老根上又长出新根, 枯枝上又发出新芽,
生命世界和地球环境相互作用, 常绿常新, 不断进
. 生命之树最常见的表现形式是用二歧分支的树
之间的亲缘关系. 分支关系是根据生物类群的同源
性状比较确定的, 类群间具有的同源性状越多其亲
缘关系越近, 反之亲缘关系越远.
在达尔文之后的100多年里, 生物学家主要利用
形态性状构建生命之树, 但形态性状通常数量有限,
且用于亲缘关系较远的类群时其同源性难以辨别. 20
世纪八、九十年代, PCR技术应用于测序之后, 使得
测序效率大大提高, 利用DNA和蛋白质序列等分子
性状进行生命之树重建随之成为主流[5]. 随着测序技
术的日趋成熟和测序成本的大幅降低, 公共数据库
中存储的DNA和蛋白序列呈指数增长, 为构建全球
范围的生命之树奠定了基础. 例如, 被子植物、鸟类
包括230万物种的全球生命之树”. 近年来, 新一代
测序技术的应用进一步提高了测序效率, 越来越多
[6,9~11]. 在基因组时代的大背景下, 系统发育基因
要的学科系统发育学(phylogenetics) 和基因组学
(genomics)作为一门崭新的交叉学科应运而生. 与此
同时, 人们也逐渐意识到利用单个或几个分子片段
得到的基因树(gene tree)有时并不能真正反映物种的
进化历史[12~14]. 因此, 探讨基因树和物种树(species
tree)之间冲突的原因和机制, 解决存在冲突的类群
间的系统关系, 并致力于物种树构建模型和软件的
2 系统生物学家能得到完全一致的生命之
随着分子数据的海量增加, 取样物种越来越全,
建树手段日益丰富有效, 我们不禁要问: 生物学家最
终能够得到一致的, 也就是唯一的生命之树吗?
案是否定的, 理由如下:
() 取样限制. 目前, 地球上已描述命名的物
种约有170万种[22], 由于人类认知水平和环境条件的
限制, 准确估计地球上物种的数量仍是个挑战. Mora
等人[23]预测地球上共有870 万个物种, 其中, 约有
86%的陆地生物和91% 的海洋生物尚未被命名.
, 大量的物种在漫长的地质历史中灭绝了, 据估计
所有生物多样性的10%. 近一个世纪以来, 由于人类
物种在被发现和描述之前就已经灭绝[24]. 每一个曾
经存在的物种都有其独特的基因组, 每一种生物就
是进化上的一个链环, 该物种的绝灭就意味着其基
因组从地球上完全消失了, 这个进化上的链环从此
就永远缺失了. 因此, 利用形态和分子数据重建的生
. 尽管在实践上人们通过努力会越来越了解生物
的进化历程, 但任何人为构建的树都不可能是那棵
真正在地球上存在过的生命之树. 重建生命之树就
如同重建一座倒塌的摩天大楼, 尽管可以捡起坍塌
留下的砖石瓦块等建筑材料, 甚至找到当初大楼的
设计图纸进行重建, 却再也无法复原曾经的那座摩
() 生物学因素. 不同的基因组和基因通常有
其独立的进化历程, 杂交/渐渗(hybridizaiton/intro-
gression)、不完全谱系分选(incomplete lineage sort-
ing)基因重复和/或基因丢失(gene duplication and/or
gene loss)以及基因水平转移(horizontal gene transfer)
[13]. 植物有叶绿体、线粒体和核3个基因组, 发生
杂交和渐渗的机率较高, 这些复杂的进化历史隐藏
在谱系中, 导致利用不同基因或者基因组数据重建
的相同物种的生命之树不一致[25]. 不完全谱系分选
, 而是某些基因谱系先与其他居群的谱系聚在了
一起[26]. 不完全谱系分选常常伴随着物种的快速辐
2016 3 61 9
射进化(rapid radiation), 通常物种形成间隔时间越
短、居群越大, 发生不完全谱系分选的可能性越大.
例如, 黑猩猩(Pan troglodytes)与人类享有最近的共
同祖先已成为共识. 然而, Scally等人[27] 通过比较人
类和现存类人猿的基因组, 发现基因组内存在3种信
: 多数基因支持黑猩猩与人类最近缘, 15%基因支
持黑猩猩与大猩猩(Gorilla)最近缘, 而另外15%支持
大猩猩与人类关系更近. RogersGibbs[28]指出3个物
因流(gene flow)导致的. 基因重复和/或基因丢失相
对容易理解: 如祖先中某个基因发生重复形成了两
个拷贝, 如果祖先中的两个拷贝在后代中发生差异
性丢失, 利用该基因构建的基因树就和物种树不吻
. 基因水平转移是指发生在不同物种或不同基因
组间遗传物质的传递. 早期研究认为, 基因水平转移
多发生于原核生物, 10多年来这种现象在真核生
物包括植物中也有报道[29]. 例如, DavisWurdack[30]
大花草科(Rafflesiaceae) 植物与其寄主葡萄科
(Vitaceae) 崖爬藤属(Tetrastigma Planch.) 植物近缘,
而基于核糖体18S rDNA和线粒体PHYC的系统关系
均支持其位于金虎尾目(Malpighiales), 他们推测这
种冲突可能归因于: 缺少根、茎、叶的大花草通过基
基因以维持其营养生长. 现实中, 基因树与物种树间
的冲突常常是由以上因素综合作用导致的. 鉴于生
物复杂的进化过程, 有的学者认为生命世界错综复
杂的关系难以用简单的树状结构来表示, 进而提出
了生命之森林(forest of life)的概念[31].
() 系统误差和建树模型. 在生命之树重建过
程中, 建树方法能否很好地模拟相关类群的真实进
化过程对系统树的准确性有重要影响. 在过去的30
年中, 由于数据和计算能力的限制, 人们主要利用联
合分析法(concatenated analyses)地球上的生物进
行生命之树重建[32]. 联合分析法主要包括距离法
(distance-based)、最大简约法(maximum parsimony)
最大似然法(maximum likelihood)和贝叶斯法(Bayesian
inference)等构树方法. 每种算法都依据一定的进化
假设, 例如, 最大简约法假定进化历程中发生进化步
长最短的系统发育树为最优树; 最大似然法基于特
; 贝叶斯法也可设置特定的碱基替代模型, 选取马
尔科夫链(Monte Carlo Markov chain)中出现频率最
高的树为最优树[33]. 由于进化假设不同, 不同学者
扑结构. 例如, 最大简约法由于不能对长枝的平行突
变作出校正, 拓扑结构中常常出现长枝吸引(long-
branch attraction)现象, 从而得到与最大似然法和贝
叶斯法相异的系统树[34]. 即使是基于模型的建树方
, 所用模型不能很好地模拟进化速率异质性
(evolutionary heterogeneity) 或数据已经进化饱和
(substitution saturation), 也可能得到强支持但错误的
系统发育关系[35,36]. 系统发育基因组学提出以来,
青睐[16,37,38]. 该方法考虑了基因树间的异质性, 但由
很大争议[12,39,40]. 虽然用于生命之树重建的数据在增
加、模型在优化, 然而, 再复杂合理的模型也无法演
3 前景展望
综上所述, 成熟的测序技术和计算机处理大数
据的能力, 为生命之树重建带来了前所未有的机遇,
分子基础的认知空前提高, 但由于物种的绝灭导致
进化链环的缺失, 不同基因和基因组有不同的进化
历史, 以及建树方法依据不同进化假设等原因,
行系统关系重建不能获得完全相同的, 即唯一的生
命之树. 在系统发育基因组学中, 导致系统发育冲
突的原因更为复杂: 不完全谱系分选和杂交/渐渗通
常发生在近缘物种间, 而科、目以上水平的冲突常常
事件综合作用的结果. 随着分子数据的积累和越来
越多冲突机制的发现, 新的建树模型和方法也迅速
发展, 这为构建一棵接近真实的物种树带来了曙光.
尽管目前还得不到唯一的生命之树, 但这并不影响
. 因为不同学科对生命之树的需求不同, 有些学
科旨在得到大概的进化式样, 一定程度的数据缺
失或偏差不会左右总体趋势, 而有些学科通过研
和功能. 在未来的几十年内, 生命之树不仅会进
一步促进系统与进化生物学的蓬勃发展, 提高人类
, 而且将更广泛地渗透到生物学其他领域, 促进
生物、医药健康和旅游等产业的发展, 从而改善人们
致谢 感谢澳大利亚联邦科学与工业研究组织(CSIRO) Russell L. Barrett博士和美国中田纳西州立大学(Middle Ten-
nessee State University) Opal R. Leonard帮助修改英文摘要.
中国科学院植物研究所研究员、博士生导师. 1985 年毕业于山东大学生物系,
1992 年在中国科学院植物研究所获得博士学位, 并留所工作. 1995~2006
国华盛顿史密森研究所进行合作研究. 近年来一直从事植物生命之树重建和
生物地理学方面的研究, 承担了国家重大科学研究计划、科技部“863”计划、
学者计划、海外科教基地建设计划等多项课题. 目前的研究工作主要集中在:
(1) 利用基因、基因组、形态学以及生物地理学等证据探讨被子植物大类群
的系统发育和进化; (2) 利用进化发育生物学手段, 通过研究性状相关基因
与植物系统发育之间的关系, 探讨关键创新性状的进化.
