生物多样性需要更好的数据存档

导读缺少元数据——提供其他数据信息的数据——听起来可能没什么大不了,但这是一个代价高昂的问题,阻碍了人类保护地球生物多样性的计划。一个

缺少元数据——提供其他数据信息的数据——听起来可能没什么大不了,但这是一个代价高昂的问题,阻碍了人类保护地球生物多样性的计划。一个国际研究团队对全球最大的基因序列数据存储库进行了审计,以查看这些条目是否包含使其可用于监测遗传多样性所需的基本元数据。他们发现超过一半的数据集缺少元数据。

“这项工作是一个重要的警钟进化生物学家,分子生态学家和大,虽然我们正在做归档基因序列数据是一项伟大的工作,我们需要大大提高生物多样性社区的元数据附加到他们,如果我们想面对加速的气候变化,能够监测自然种群的进化健康,”该研究的资深作者、宾夕法尼亚州立大学生物学助理研究教授埃里克·克兰德尔说。

根据研究人员的说法,每一个植物或动物的基因组中都有数千个基因,这些基因有助于它在其独特的环境中适应和生存。具有大量遗传多样性的生物体适应性很强,而缺乏遗传多样性的生物体更容易受到不断变化的条件的影响,例如气候变暖和干燥、入侵物种的出现以及近亲繁殖导致的健康状况不佳。

“遗传多样性影响物种的健康,进而影响生态系统的健康,”密歇根州立大学 (MSU) 的博士后研究员、该论文的第一作者雷切尔·托奇德洛夫斯基 (Rachel Toczydlowski) 说。“在所有这些层面上拥有多样性对于一个健康的星球来说至关重要。”

因此,研究人员想知道特定时间特定地点的遗传多样性有多少,以了解这些生物及其环境的健康状况。跟踪遗传多样性随时间的变化还可以让生态学家预测未来生态系统将如何发展并做出相应的准备。例如,保护主义者可以使用这些信息来确定哪些生物最适合在被破坏的生态系统中成功开展恢复工作。但只有在可用数据完整的情况下才能实现该目标。

为了了解有多少元数据(例如收集样本的时间和地点)丢失,该团队调查了来自国际核苷酸序列数据库集合的数千个数据集——同类中最大的数据存储库——代表超过 325,000 个人来自近 17,000 个不同物种的生物。研究人员发现,这些样本中有 86% 缺少重要的元数据。

该研究结果于 8 月 16 日发表在《国家科学院院刊》上。

“研究人员花费了大量的时间和金钱来生成基因组序列数据,这些数据基本上可以为生物学的每个领域提供新的见解,从保护到生态到行为再到进化,”综合生物学助理教授 Gideon Bradburd 说。密歇根州立大学。“但是,如果数据的背景——个体采样的地点和时间——与这些遗传资源分离,它们就会变得不那么有用,特别是对于保护监测。”

花时间获得收集样本的许可,然后前往现场,然后在野外实际追踪样本。所有这一切都是在研究人员返回实验室提取他们想要测序的 DNA 之前进行的,每个样本的成本约为 50 美元。

这听起来可能不多,但将本研究的所有样本加起来,由于缺少元数据,研究人员无法在未来的分析中重复使用,总和为数千万美元。

“人们用智能手机拍摄的几乎每张照片都包含描述照片拍摄时间和地点的元数据,因此令人惊讶的是,昂贵的基因序列数据没有附加类似的信息,”克兰德尔说。“提供这些元数据的系统很难快速学习,目前还没有足够的动力让研究人员把宝贵的时间花在这上面。”

不过,也有好消息。团队中的本科生和研究生能够在科学文献的其他地方找到大量缺失的元数据。

“他们能够复活大约 20,000 个单独的样本,否则这些样本将无法用于未来的保护监测,”Toczydlowski 说。这些学生能够做出贡献的事实本身就是一线希望。

当大流行来袭时,该团队开始讨论他们应该如何处理即将到期并指定用于参加会议的赠款。随着旅行和聚会的取消,该团队转向并将资金用于招募研究生来追踪丢失的元数据,这些元数据是关于何时、何地以及如何收集用于生成基因序列数据的样本。在阅读了相关的科学出版物并联系了他们的作者后,学生们仍然无法找到 67% 的数据集丢失的元数据。

“公共存储库中的原始基因组数据是不可模仿的历史资源——类似于自然历史博物馆——对于最基本的生物多样性水平,”克兰德尔说。“然而,基因组序列的重用也最低限度地需要有关采样生物体的空间和时间背景的信息。如果没有适当的档案实践来保持基因型、地点和时间之间的联系,这些不断增长的基因组资源对遗传的现实世界的影响将是有限的。多样性监测。”

免责声明:本文由用户上传,如有侵权请联系删除!