pixabay.com
撰文 | 吴 蕾
责编 | 陈晓雪
● ● ●
2020年4月8日,一篇新冠病毒(SARS-CoV-2)集体遗传学的论文在《美国科学院院刊》(PNAS)上线 [1],来自德国法医遗传学研讨所等单位的 Peter Forster 等人对病毒基因组序列进行了进化剖析,成果显现以东亚区域病毒为主体的病毒类群并不是最陈旧的。有媒体将其解读为新冠病毒来历于美国和澳大利亚。这儿,本文测验从学术视点谈论该论文的数据代表性和剖析办法或许存在的问题。
1
Forster等的首要依据
在该论文仅有的一幅图里,Forster 等人展现了新冠病毒的单倍型网络(haplotype network)。他们将新冠病毒分为A、B、C三个类群(由红圈符号的字母所示),发现东亚区域的病毒样本大多在B类群,而欧美和澳大利亚则多为A类群。他们将蝙蝠带着的冠状病毒序列(RaTG13)[2] 相同置于该单倍型网络,并与这三个类群的新冠病毒进行比较,发现A类群在序列上间隔RaTG13最近。科学界遍及承受蝙蝠是冠状病毒的天然宿主之一,因而作者认为A类群的新冠病毒更为陈旧。
单倍型网络剖析是一种依据基因序列估测进化联系的办法。本图中,每个节点为一种病毒序列,节点越大阐明该病毒序列在已测序的样本中数目越多,节点内部的饼图则反映样本的国家或区域来历份额;节点之间的连线长度则反映了从一条序列进化为另一条序列所需求的骤变数目。
2
原文剖析病毒样本数目过小
Forster 等人将全球各地的新冠病毒分为了三个类群。这个分类适宜吗? 在答复这一问题之前,无妨先了解一下中科院北京基因组所国家基因组科学数据中心制作的单倍型网络。该中心供给的最新数据 [3] 如下图所示。
来自于国家基因组科学数据中心,图的下方展现了病毒样品的收集时刻。录制于2020年4月11日。
来自于国家基因组科学数据中心的单倍型网络详尽程度远胜于 Forster 等人的文章,更重要的是该网络能够依照样品的收集时刻展现单倍型网络形式阅历的剧烈改变。现在的单倍型网络与Forster等人文章中的天壤之别。这并不意外,因为Forster等人的文章上线之时(2020年4月8日),GISAID 数据库的新冠病毒基因组序列有大约4800条 [4],而Forster等人只剖析了其间前期的160条(约 3%) [1]。即便时刻前推至该文章送审的3月17日,其时GISAID数据库的序列也已超过了800条(Forster等剖析了其间不到20%);更何况在文章修回和正式上线之前,作者一直都有时机更新数据。
那么,160个前期的病毒样品是否现已有了满足的代表性追溯病毒的来历了呢?假如咱们信任前期的病毒样品都收集完全时的确能够。可是,咱们今日仍然存在着对病毒更陈旧类群的谈论,恰恰是因为忧虑前期的样本没有收集完全。
3
RaTG13无法协助确认哪个新冠病毒更陈旧
即便假定 Forster 等人的文章将新冠病毒区分为A、B、C三个类群是站得住脚的,那么,首要流行于欧美和澳大利亚区域的A类群病毒是否更为陈旧?Forster 等人给出了必定的答案,他们的依据是在单倍型网络中A类群更接近蝙蝠来历的病毒序列 RaTG13。
事实上,RaTG13 并不能对新冠病毒内部的进化联系进行区别。
为什么这么说?
RaTG13 的确是现在已知进化上间隔新冠最近的病毒,可是其与新冠病毒的基因组差异仍然到达约4%——这比人和黑猩猩DNA序列的差异还要大。4%大致对应于 RaTG13 与新冠病毒1200个碱基的差异,而现在已测序的大多数新冠病毒之间的差异缺少10个碱基。依据新冠病毒每年约24个碱基的改变 [5] 来揣度,RaTG13 大致在25年前就现已与新冠病毒各奔前程了。这关于新冠这样一个敏捷繁衍的病毒来说,是一个极端“绵长”的进化进程。
有必要留意一下的是,在 Forster 等的文章配图中,不知出于什么考虑将RaTG13 置于与A类群仅相差17个骤变的方位。这或许会让读者发作RaTG13 的序列与新冠病毒差异不大的幻觉。
或许有人会认为,图中少画一些差异碱基,并不影响得出“A类群间隔蝙蝠来历病毒更近”的定论。这听上去如同也有些道理,但真实的状况却并非如此简略。
幻想一下你站在一条垂直的马路上,身边有两个电线杆。从现在的视角看来,两个电线杆边界清楚;但随着你沿马路越走越远,再回望时会发现两个电线杆在你的视界中越靠越近;当你走出肉眼分辨率的极限之后,两个电线杆在你眼中成了同一片含糊的区域——因而,假如要对事物进行区别,需求挑选正真适宜的观测标准。
运用RaTG13判别现在已收集的这几千个新冠病毒谁更陈旧,恰恰便是超出了适宜的标准。详细而言,鄙人面的这个进化树中,每条黑线的结尾都是一个病毒样品,样品的称号符号在了黑线的延伸线上(字很小,但不是线,线都在圆心方位邻近),黑线的长度则反映了基因组序列的差异程度。呈现在进化树底部的是 RaTG13;其他的是新冠病毒,它们因为序列过于附近而集合在一起。能够精确的看出,蝙蝠来历的序列与新冠病毒的差异真实太远,以至于 “站在” RaTG13 的方位现已无法对新冠病毒内部的进化联系进行区别。
##扩展阅览(假如不期望了解细节能够越过)
在较小的进化标准上,骤变是偶尔事情,两个病毒同享一个骤变往往意味着它们具有一起的先人或许 “亲缘” 联系更近——这也是进化树构建的基本原理。可是基因组中存在一些特别有或许会呈现骤变的区域,称为骤变热点(mutation hotspot)。一旦超出了必定的进化标准,在亲缘联系较远的个别中,骤变热点就有或许独立发作呈现相同的骤变(被称为重复骤变,recurrent mutation)。可是,在对基因组序列进行进化剖析的时分,咱们不知道序列的相似性终究来历于一起先人仍是重复骤变,仍然会依照它们具有一起先人揣度亲缘联系,这就会发作过错。
在分子进化范畴有一个专业词汇“长枝招引效应”(long branch attraction),便是描绘这种因为进化间隔过于悠远导致过错揣度进化联系的状况。因为长枝招引效应的存在,用于构建进化树的序列不应在进化间隔上存在巨大的差异(都长也能够,都短也能够,可是不能犬牙交错),不然或许极度影响其可信度。
Forster等人运用RaTG13作为 “外群” 的研讨中,就很或许遭到重复骤变的影响,原因是新冠这个RNA病毒的确存在骤变热点:如下图所示,在Forster等的文章配图中屡次呈现四个点四个边衔接的关闭四边形,这便是在曩昔几个月中同一骤变独立发作于不同病毒个别上的依据。这种屡次独立发作的同一骤变在更大的标准上就会对进化联系的揣度形成搅扰,乃至导致过错。
##扩展阅览完毕
4
文章终究经过了同行评议并宣布在了干流期刊上?
无可否认,PNAS 是学术界的干流期刊,因而文章能够宣布在该刊物常常也可认为其学术的谨慎性背书。可是,PNAS 的审稿机制存在一些异乎寻常的当地。 正如该期刊称号《美国科学院院刊》所反映的,PNAS 在1914年创立之初便是作为美国科学院院士的出书场所而存在的——院士署名奉献的文章(contributed)或许院士出头 “交流”(communicated)的文章才干得以宣布。直到1995年,PNAS才开端试行一般作者的直接提交(direct submission)。院士出头交流的论文宣布办法至2010年间断,可是院士现在仍然能够以通讯作者(或一起通讯作者)的身份向PNAS提交论文,并指定至少两位学者作为揭露的评阅人(也便是说评阅人姓名会在宣布的文章中发布)。PNAS 大约25%的文章归于这一类别[6]。如下图所示,Forster 等人的文章便是这其间之一。
Colin Renfrew为英国剑桥大学的考古学家,也是美国科学院外籍院士。
PNAS 这一准则当然有其活跃的含义:假如一篇文章因为超前于年代难以经过正常的同行评议宣布,这一机制将是让该学术思想取得广泛传达的一种途径。但一起也存在一些危险,或许让本来不行谨慎的研讨得以敏捷宣布。
在准则上,PNAS 要求奉献文章的院士需是该文章地址范畴的专家 [6]。可是,奉献 Forster 等人这篇文章的美国科学院外籍院士 Colin Renfrew 是英国考古学家和古生物学家,以放射性碳定年、史前语言和避免考古现场的掠夺性发掘方面的作业而出名 [7]。
5
文章上线后同行谈论以负面为主
Forster 等人文章上线后遭到了同行的遍及质疑。英国爱丁堡大学的Andrew Rambaut是分子进化办法学以及病毒进化范畴的世界闻名专家(Hindex 高达115——有115篇论文被引用了至少115次)。他谈论到:“这篇文章存在许多严峻的过错,包含它的内容、成果和宣布的途径。”
他指出, “第一个过错在于运用蝙蝠冠状病毒 RaTG13 对新冠病毒的进化树进行定根。这虽然是最接近新冠病毒的 ‘非人类’ 病毒,但与新冠病毒仍然有1100个核苷酸以上的差异。留意,(Forster等人文章的图中)蝙蝠病毒地址的进化枝不知为何比实践要短一些。”
新冠病毒进化的威望网站 Nextstrain [5] 负责人 Trevor Bedford 相同对文章表达不满:“这不是一篇好文章,没有比几周前就现已有人完成了的作业多出什么内容。A、B、C类群的区分不光太简化、有误导性,并且也是错的……”
写在最终
假如蝙蝠冠状病毒 RaTG13 不能用于确认病毒的先人,那还有什么其他办法吗?
首要,假如咱们能找到新冠病毒的中心宿主并别离出其带着的冠状病毒,将有很大时机经过进化遗传学办法判别新冠病毒的先人。其次,到2020年4月12日23点,已有6365条新冠序列提交到GISAID数据库 [4]。这些序列能够用于依据进化的分子钟估测病毒在人群中开端分散的时刻,原理详见《赛先生:缺少前期样品,还能追溯回病原体分散的第一天吗?》。第三,关于新冠病毒,游览记载在某些特定的程度上也可认为单倍型网络的连线赋予进化方向,辅佐先人的估测。
需求阐明的是,病毒来历的界说在不同的语境下常常极端含糊。病毒像其他生物相同,在随机骤变的不断堆集中进化。假如一个病毒本来就在人群中存在某些特定的程度的传达,在某一时刻骤变取得了敏捷分散的才能并导致了肺炎的症状,那么这个病毒开端感染人类的时刻和地址与在人群中爆发的时刻和地址就并不相同。在这种状况下,病毒终究应该算来历于何时何地呢?
在这个含义上,新冠病毒的恐惧之处不止于对人类身体的糟蹋,更在于其对精力的分裂。武汉同胞即便现已为打败疫情做出了巨大的献身,但在许多当地仍然遭受区别对待;国家、区域或人群的姓名仍然被用作病毒的定语。咱们对立 “我国病毒” 的称号,一起,咱们也需求反思并纠正其他将地名与病原菌或疾病相联系的命名,例如 “西班牙流感”、“埃博拉病毒”、“寨卡病毒”、“中东呼吸综合征”……
注:作者吴蕾为我国科学院大学研讨生。本文部分来历于研讨生课程《集体遗传与分子进化》的授课内容。
参考文献
1.Forster, P., et al., Phylogenetic network analysis of SARS-CoV-2genomes. Proc Natl Acad Sci U S A, 2020.
2.Zhou,P., et al., A pneumonia outbreakassociated with a new coronavirus of probable bat origin. Nature, 2020. 579(7798): p. 270-273.
3.https://bigd.big.ac.cn/ncov/haplotype/
4.https://www.gisaid.org
5.https://nextstrain.org
6.https://www.pnas.org/page/authors/journal-policies
7.https://en.wikipedia.org/wiki/Colin_Renfrew