数据驱动的生命科学研究进展
本文刊载于《中国科学院院刊》2024年第5期“专刊:建设世界科技强国——努力抢占科技制高点”
江海平1,2高纯纯3刘文豪1,2杨运桂3李鑫1,2*
1中国科学院动物研究所
2北京干细胞与再生医学研究院
3国家生物信息中心
1生物数据推动生命科学发展阶段的演变
在过去的几个世纪中,生命科学一直处于快速发展和演变的阶段,从最初对生命现象的简单观察和描述,到如今分子生物学、基因组学和系统生物学等领域的兴起,生命科学研究范式持续演变。这种研究范式的变化深受生物数据类型和规模的发展所推动,并带来了生命科学发展演进的3个阶段(图1)——每个阶段不断递进,并涌现出新的技术和方法来快速推动生命科学研究的不断进步。
图1生物数据发展和生命科学阶段性发展
第1阶段(16世纪——20世纪下半叶):以观察总结和假设驱动为主,实验数据作为辅助支持和验证依据。在早期,生物学家主要依靠手工实验和观察描述获取数据,并从中提炼归纳出一些假说。但这些数据通常是表面的、局部的、有限的,产生的假说也是宏观和粗略的,数据驱动的生命科学研究进展无法对生命的深层机制进行解析。其原因在于认知水平和技术的限制导致无法获得和解析更深层次的生物学数据。这一时期生命科学研究的典型代表有:16世纪的安德烈·维萨里通过动物和人体的解剖数据全面认识机体结构;19世纪,达尔文通过环球考察采集和分析大量标本数据提出进化论等。其后,随着物理学、化学等学科的发展,以及实验技术和分析方法的快速进步,尤其是DNA双螺旋结构的发现和中心法则的提出,将生命科学研究引入分子生物学时代。生物学家可以将复杂的生命系统拆解为微观的分子和细胞组分并逐个进行研究,以获得对生物系统单一维度、深层次的描述数据。研究人员通常采用被动分析的方法,即根据事先提出的假设来遍历和解释实验数据,此时形成的是对生命系统深入却零散、片面的认知。
第2阶段(20世纪下半叶—21世纪初):以组学数据为基础,结合生物信息学分析和实验验证。测序技术的出现和“人类基因组计划”的实施将生命科学引入了高通量生物数据研究时代。基因组学、转录组学、表观组学、糖组学等多种组学技术呈现了细胞在不同层面的整体生命图景。生物学家能够在早期发育、癌症、衰老、疾病等多个生命过程中进行高通量、大规模的数据采集。此时,他们不再局限于验证特定的假设,而是通过多种组学数据来探索未知领域。多组学数据的分析需要更复杂的计算工具和算法,包括生物信息学、统计学等。这些工具和方法帮助研究人员从海量数据中发现隐藏的模式和关联,从而获得更全面、更深入的生物学知识。另外,使用生物信息学对组学数据分析获得的知识还需要使用湿实验进行验证。尽管这一阶段能够对生物学数据进行低维度的描述和解释,却难以对复杂的生命系统进行高维度模拟,以实现对生命的全面系统解析。
第3阶段(21世纪初至今):以生物大数据驱动,使用人工智能和干湿融合对生命系统进行解析与重构。生命系统呈现分子、细胞、组织、个体等多层次的结构,并且这些层次之间高度互联、动态调控,形成了一个复杂的系统;而由此获得的数据也具有多层次、动态变化的特点。此外,随着生命科学研究的不断深入,海量的多组学数据、文献资料和其他生物学数据持续涌现和积累,从而导致数据规模和复杂性进一步增加。这种多类型、多维度且体量巨大的生物学数据被称为生物大数据。然而,传统的数据分析方法已经无法满足生物大数据的处理需求。针对不同层次、不同维度、不同类型的生物大数据进行有效整合、汇集和深入分析,以揭示其中蕴含的高维度生物规律,成为当今生命科学研究面临的挑战之一。人工智能,尤其是神经网络模型通过其多层结构,可以从复杂的、高维度数的数据中提取出简化的、具有代表性的低维度特征,捕捉了数据中重要的模式和规律,成为高维生物大数据的有效工具。例如,AlphaFold能够预测蛋白质的三维结构,GeneCompass等工具实现了基因调控网络规律解析,并支持多种生命过程的精准分析及细胞命运状态的变化预测。这些工具和技术证明了使用人工智能可以挖掘生物大数据中数据之间的关联,抽提生命的内在结构,从而更全面地理解生命现象的本质和规律,揭示生物体内部复杂的互动关系和调控机制。然而,当前人工智能技术对生物数据类型的有效整合仍然存在较大限制。要实现对复杂互联的生命系统进行全面、系统和深刻的认知,需要积累更多的系统性生物大数据,并运用人工智能技术对多模态的生物大数据进行有效整合,以实现对生命系统整体图景的认知。而且,人工智能指导的自动化机器人已经实现了在化学和材料学上自主设计、规划和执行真实世界的实验,从而显著提高了科学发现的速度和数量,并改善了实验结果的可复制性和可靠性。未来使用生物大数据训练的人工智能结合自动化机器人,将可能建立干湿融合的自进化研究新范式,以实现对更复杂的生命系统进行更高效和更深入的解析。
综上,生物学数据推动生命科学发展经历了从观察总结和假设驱动为主,组学数据为基础到生物大数据驱动的3个递进阶段。在这个过程中,生物学数据呈现规模递增、类型丰富和层次加深的特点,也推动了对生命本质的认知从对生命系统宏观总结、生命元件深入认知、生命系统全面低维度描述到生命系统解析和重构的不断深入。
2数据驱动生命科学研究的内涵和特点
数据驱动生命科学研究的内涵体现在其对研究范式、方法论和认知模式的深刻影响上。
1.强调了以数据为核心的研究方法,将数据的采集和分析置于中心位置。这意味着研究者不再仅依赖于个别案例或局部现象,而是通过收集大规模、多样化的生物学数据来推动研究的发展。
2.数据驱动的生命科学研究具有跨学科性和整合性的特点。随着技术的发展和数据的积累,生命科学的研究越来越需要跨越不同学科领域,如生物学、计算机科学、统计学等,进行数据的整合和分析。
3.数据驱动的生命科学研究着重于量化生物现象,并试图将其系统化地理解。传统的生物学研究往往是基于定性观察和描述,而数据驱动的方法则更加注重通过数据收集、处理和分析,建立生物系统的量化模型。这种量化和系统化的方法使得研究者能够更全面地理解生命系统的复杂性,并从中发现隐藏的规律和关联。
4.数据驱动的生命科学研究强调实验数据与数字化建模的结合。通过收集大量的实验数据,并运用数学模型和计算方法进行数字化建模,进行高通量、高准确度地预测和筛选,从而可以高效验证和修正生物学理论,并提出新的假设和预测。这种湿实验与数字化建模结合的研究方式使得生命科学研究更加系统和深入,推动了生物学知识的不断进步。
数据驱动生命科学研究的特征具有3项显著性特点。
1.生物学数据具有多样性和丰富性的特点。生物数据涵盖了生物系统的各个层次和多个方面——从基因组序列到蛋白质结构,再到细胞功能和生物表型,生物学数据包含了丰富的信息,为研究者提供了深入探索生命现象的基础。
2.生物学数据具有高维度和大规模的特点。随着技术的进步,生物学数据的维度和规模不断增加。例如,基因组学和转录组学等高通量测序技术的出现,使得研究者能够同时研究成千上万个基因或基因表达物,从而获得高维度的数据。这种高维度和大规模的数据为研究者提供了更全面的视角,使他们能够发现更复杂的生物学规律。
3.生物学数据往往具有动态性和时空特征。生物系统具有在不同时间和空间尺度上的变化。例如,转录组数据可以反映基因在不同发育阶段或不同环境条件下的表达变化,蛋白质互作网络数据可以揭示细胞内信号传导的动态过程。这种动态性和时空特征使得研究者能够更深入地理解生命系统的复杂性,并探索其调控机制和功能。
3生物大数据组成和特点
大数据(BigData)通常代表了大量、多样、不断变化且快速聚合属性的巨型数据集,并且这些属性过于复杂或“大”,无法通过传统手段处理。而生物大数据在广义上被定义为来源于或用于生物的海量数据。目前,比较常见的生物大数据类型包括:
1.研究类型数据,如基因组、蛋白质组、转录组、糖组等多种组学测序数据,以及成像数据、药物研发和临床试验数据等;
2.电子健康数据,如电子医疗档案、可移动/穿戴设备采集的实时监控数据等;
3.生物样本库,如生物多样性资源库、临床样本库等;
4.知识成果,如生物相关的文献、专利、标准等。
生物大数据除了具备“大数据”的特点外,还具有明显的生物学数据自身特性,即大容量(volume)、多样化(variety)、高速(velocity)和有价值(value)的“4V”特点(图2)。生物学研究技术和手段的快速发展推动了生物大数据的高速发展,使生物学研究从表面的点观测进入全面和更深层次的图像和数据解析。
图2生物大数据的组成和特点
4技术发展推动生物大数据的产生
生物技术和信息技术的融合推动了生命科学从“假说驱动”向“数据驱动”的转变,促进了生物大数据的爆发式增长、精准解析和生命科学的巨大进步。自从“人类基因组计划”实施以来,测序技术得到了快速发展,引发了基因组、转录组、表观遗传组、蛋白质组、代谢组、糖组等多种组学数据急剧增加,同时也催生了生物技术与信息技术的融合,推动生命科学研究进入数据型科学发现的时代。
在生命科学的发展过程中,得益于测序技术的快速发展,组学类型的生物大数据增长尤为凸显。自1977年Sanger第一代测序技术出现以来,第二代高通量测序技术、第三代单分子全长测序技术和第四代纳米孔测序技术相继涌现,广泛应用于生物学各个领域,推动了生命科学研究的巨大进步。Sanger测序技术被用于细菌和噬菌体基因组的测序,但其1次只能分析1个测序反应,产量有限,时间花费长且成本高昂,导致“人类基因组计划”耗时10多年才完成。自2004年以来,“下一代测序”(next-generationsequencing)技术的发展实现了高通量平行测序,大幅增加了测序数据的输出量。第二代测序技术支持基因组、转录组和表观遗传组等多种组学测序,单次测序可以产生4亿条读段、120GB数据。第三代测序技术又被称为“长读段”测序,可以检测全基因组重复和结构变异检测,实时靶向读取DNA分子。最新的第三代测序仪,平均读长可达10—15kb,产生约36.5万个读段。第四代测序技术是基于纳米孔系统的DNA测序技术,装置小巧可达手持尺寸,超过100kb的DNA可以穿过纳米孔,通过许多通道,以相对较低的成本获得数十到数百Gb的序列。测序技术的快速发展对基础研究、临床诊断治疗等具有重要意义。随着精准医疗概念的提出,电子健康记录开始发展。尽管存在不适当访问等潜在风险,但电子健康记录的便携性、准确性和即时性为精准医疗策略、医疗体系完善和智能疗法筛选等提供了重要支持。
在生命科学研究中,信息技术和生物技术的规模化应用丰富了生物样本库的建设。伴随着生物大数据的急剧增长,美国国立生物技术信息中心(NCBI)数据库、欧洲生物信息学研究所(EBI)数据库、日本DNA数据库(DDBJ)和中国国家基因组数据中心等大数据库中的数据类型不断丰富,包括从多组学测序原始数据到表达信息矩阵,数据量从TB向PB甚至更高不断增加,从而为生命科学领域的研究提供了丰富的数据资源。此外,生物大数据的发展也推动了知识成果的积累,促进了生物学数据相关文献不断提升和生物技术专利的快速更新迭代,极大地推动了生物领域的研究,有望给生物学和生物医学研究领域带来革命性的变化。
5总结和未来展望
数据驱动的生命科学作为生物科学领域的重要趋势,正面临着海量生物大数据的包括数据存储、传输、处理和分析等多个方面的挑战。然而,通过不断开发新的技术和方法,尤其是人工智能技术的发展,能够更高效地整合和分析生物大数据,从而挖掘生物学内在规律,深入理解生物系统的复杂性。
未来,为实现对复杂生命系统更完美的模拟和解构,需从数据质量、处理算法、场景化等多方面进行优化。
1.应生产和获取高质量系统性的生物大数据。当前的生物学数据虽然规模大、类型多,但数据来源各异、离散度高、偏差大,整体数据质量水平不高。而且生命系统是多层级的复杂系统,要将不同层级打通,需要如胚胎发育、疾病、癌症、衰老等生命过程的多维度、多模态、时空对齐的高质量、系统性生物大数据,为人工智能提供可靠的数据基础,减少噪声和偏差的影响。
2.需开发生命适配的人工智能算法。生物大数据具有多维度、多层次、非结构化和动态变化的特点,当前人工智能算法难以有效处理。未来需要针对生物数据特点开发生命适配的人工智能算法,来更好捕捉复杂生命网络中的结构和规律。
3.增强模型的解释性,揭示潜在的生物学机制也是未来重要的研究方向。
4.整合生物学数据、利用人工智能技术以及自动化的高通量实验和数据获取技术。有望实现干湿融合的自进化模式,为生命科学研究带来革命性范式革新。
江海平中国科学院动物研究所博士后。主要研究领域:衰老、癌症和人工智能。
李鑫中国科学院动物研究所研究员。主要研究领域:干细胞与再生、衰老及癌症,人工智能与生物计算。
文章源自:江海平,高纯纯,刘文豪,等.数据驱动的生命科学研究进展.中国科学院院刊,2024,39(5):862-871.DOI:10.16418/j.issn.1000-3045.20240225003.
评论