一批丢失了一年的早期新冠病毒数据终于浮出水面。
6月,一位美国科学家指出,在大流行早期从中国分离的新冠肺炎患者样本中,有200多个基因序列令人困惑地从一个在线数据库中删除。西雅图弗雷德·哈钦森癌症中心的病毒学家杰西·布鲁姆(Jesse Bloom),通过一些数字检索,设法在谷歌Cloud上找到了13个序列。
布鲁姆博士在网上发布的一份报告中分享了他的发现,他写道,“删除序列似乎是为了掩盖它们的存在。”
但现在出现了一种奇怪的解释,起因是一家科学杂志的编辑疏忽。这些序列被上传到另一个由中国政府监管的数据库中。
这个故事始于2020年初,当时武汉大学的研究人员研究了一种新方法来检测席卷全国的致命冠状病毒。他们对来自武汉一家医院34名患者的病毒样本的一小段遗传物质进行了测序。
研究人员于2020年3月在网上发布了他们的发现。当月,他们还将序列上传到由美国国立卫生研究院(NIH)维护的名为序列阅读档案(Sequence Read Archive)的在线数据库,并向一家名为Small的科学杂志提交了一篇描述他们研究结果的论文。这篇论文发表于2020年6月。
布鲁姆博士是在今年春天研究新冠病毒起源时了解到武汉基因序列的。在阅读2020年5月关于冠状病毒早期基因序列的综述时,他看到了一个电子表格,其中指出了序列读取存档中存在的基因序列。
但布鲁姆医生在数据库中找不到。他在6月6日给中国科学家发邮件,询问数据去了哪里,但没有得到回复。6月22日,他发表了自己的发现,《纽约时报》和其他媒体都报道了这一报道。
当时,美国国立卫生研究院的一名女发言人表示,该研究的作者曾在2020年6月要求从数据库中删除序列。作者告诉这个机构,这些序列正在更新,并将被添加到一个不同的数据库中。
但一年后,布鲁姆博士在任何数据库中都找不到这些序列。
7月5日,研究人员将这些序列从序列阅读档案中撤出一年多后,在布鲁姆博士的报告在网上发表两周后,这些序列被武汉大学的研究人员和Small论文的共同作者Ben Hu,无声无息的上传到中国国家生物信息中心维护的一个数据库。
7月21日,在北京举行的一场新闻发布会上,序列消失的问题被提出,中国官员否认了疫情始于实验室泄漏的说法。
根据国有新华社记者对新闻发布会的翻译版本,中国国家卫生委员会副部长说,当Small公司的编辑删除了科学家在序列阅读档案中描述序列的一段时,麻烦就出现了。
曾博士说:”因此,研究人员认为不再有必要将数据存储在N.C.B.I.数据库中。”
他指的是由NIH管理的序列阅读档案。
Small的一位编辑证实了他的说法,这家公司专门研究微纳米尺度的科学,总部位于德国。
“数据可用性声明被错误地删除了,”编辑普拉梅纳·多甘兹伊斯基(Plamena Dogandzhiyski)在电子邮件中写道。“我们将很快发布更正,澄清这个错误,并提供数据存储库的链接。”
周四,《华尔街日报》对此进行了正式更正。
目前尚不清楚,为什么作者在要求从序列读取档案(Sequence Read Archive)中删除序列时没有提到杂志的错误,也不清楚他们为什么告诉国家卫生研究院,这些序列正在更新。也不清楚为什么他们等了一年才上传到另一个数据库。
布鲁姆博士也无法对这些相互矛盾的说法做出解释。他在接受采访时说:“我没有资格对它们进行裁决。”
这些序列本身并不能解决大流行病如何起源的问题,无论是通过与野生动物的接触、实验室的泄漏还是其他途径。
在最初的报告中,武汉的研究人员写道,他们从“疫情早期的门诊疑似Covid-19患者的样本 ”中提取了遗传物质。但是现在中国数据库中的条目显示,它们是在1月30日从武汉大学人民医院提取的,几乎是在中国最早的Covid-19报告的两个月之后。
虽然这些序列的消失似乎是一个编辑错误的结果,但布鲁姆博士认为仍然值得寻找可能潜伏在网上的其他冠状病毒的序列。
他说:“这肯定意味着我们应该继续寻找”。