“融合科学”新范式及其对开放数据的要求
肖小溪1 , 甘泉2 , 蒋芳2 , 陈捷1 , 李晓轩1,3     
1. 中国科学院科技战略咨询研究院 北京 100190;
2. 中国科学院发展规划局 北京 100864;
3. 中国科学院大学 公共政策与管理学院 北京 100049
摘要:“融合科学”是一种基于多学科融合来解决重大问题的科研新范式,被认为是人类解决重大经济社会问题的新机遇。推动“融合科学”意味着科研生态的根本性变革,其中一个最基础的方面是数据开放共享。文章总结了“融合科学”作为一种新科研范式的基本特征,提出了“融合科学”在基础数据方面的全学科、全流程和全景式等新要求,分析了数据开放共享支撑“融合科学”的成功实践,并展望了以开放数据推进实现“融合科学”的未来图景。
关键词融合科学    开放数据    新范式    
Convergence Science as a New Paradigm and Its Requirement for Open Data
XIAO Xiaoxi1, GAN Quan2, JIANG Fang2, CHEN Jie1, LI Xiaoxuan1,3     
1. Institutes of Science and Development, Chinese Academy of Sciences, Beijing 100190, China;
2. Bureau of Development Planning, Chinese Academy of Sciences, Beijing 100864, China;
3. School of Public Policy and Management, University of Chinese Academy of Sciences, Beijing 100049, China
Abstract: "Convergence Science" is a new paradigm of scientific research based on multi-disciplinary integration to solve grand problems, which is considered as a new opportunity for human beings to address major economic and social problems. Promoting "Convergence Science" means the fundamental change of scientific research ecology, one of the most basic aspects is the open sharing of data. Based on the basic characteristics of "Convergence Science" as a new paradigm of scientific research, this study puts forward new requirements of "Convergence Science" in terms of basic data, such as the whole disciplines, the whole processes and the full panorama, and then introduces the successful practice of open data supporting "Convergence Science". Finally, it looks forward to the future prospect of promoting "Convergence Science" with "open data".
Keywords: convergence science    open data    new paradigm    

近现代以来,科学研究极大地推动了人类探索知识和解决问题的能力,成为推动人类现代化的发动机。然而,现有以学科分割为基本架构的科学研究仍然无法有效解决能源短缺、环境污染、健康威胁等人类面临的诸多重大问题。为此,自二战以来兴起的各类学科交叉研究和使命导向的研究,在21世纪初期逐渐凝结并演变成一种基于多学科融合来解决重大问题的科研新范式——“融合科学”(convergence science,又译为“会聚科学”)[1],并得到以美国为典型代表的科技发达国家的积极倡议。中国科技界近年来的改革探索也与国际上“融合科学”新范式的发展趋势高度契合。例如:中国科学院立足于多学科综合优势,在“十三五”发展规划中提出了8个重大创新领域的战略部署[2]以及从融合视角开展的试点评估[3];以及国家自然科学基金委员会推动的“新时代科学基金资助导向”改革[4]等。

“融合科学”将带来一场科研生态的根本性变革,需要从规划、组织、评价、人事等多个方面推动,其中一个最基础的方面是数据开放共享。本文首先探讨了“融合科学”作为一种新科研范式的基本特征,提出“融合科学”对基础数据的新要求,进而介绍了数据开放共享支撑“融合科学”的成功实践,最后展望了以开放数据推进“融合科学”的未来图景。

1 “融合科学”的基本特征

与传统科研范式相比,“融合科学”新范式的根本区别在于“融合”。2011年美国麻省理工学院发布的白皮书中首次明确提出,生命科学、物理学和工程学的“融合”代表着生命科学领域的第三次重大变革,但其深远影响将突破生命科学的范畴,推动健康、能源、食品、气候和水资源等诸多行业取得重大进步[5]。该白皮书进一步抽离出“融合”的本质,认为“融合”是将原本被认为是分离和割裂的方法、技术、流程和设备整合成统一整体,以此推动新的科学和技术进步。2014年美国国家研究理事会进一步指出:“融合”是一种跨越学科边界以解决问题的(研究)路径。该路径整合了生命与健康科学、物理学、数学、计算机科学、工程学及更多种类的不同学科,形成一个全面、综合的研究框架,来解决那些存在于多个领域交界面上的科学和社会挑战[1]

基于已有文献中对“融合”的阐述,可将“融合科学”新范式定义为:以解决重大问题为导向和最终目标的一种科研新范式。该范式通过整合多个学科领域的知识、技能和工具,形成一个全面、综合的问题解决框架,并形成一个多方权益主体共同参与的网络,以推动科研成果转化为创新和产品。在形成问题解决框架的过程中,多种要素的耦合是其基本内涵:“融合科学”既贯穿创新价值链全谱带,又以多种学科的交叉和延展为基础,涉及官产学研用等多类权益主体,通过各类要素的耦合进一步催生出新的知识增长点乃至重要的融合性领域[6]。本文从3个方面阐述“融合科学”新范式区别于传统科研范式的特点。

(1)以重大经济社会问题的解决为根本目标。 “融合科学”以解决人类生存及发展中面临的重大问题为研究目标,而不是以一般意义上的科学进步为目标。这意味着“融合科学”更强调科研的组织和有序,比传统学科发展更依赖于优势布局。从这一点来看,“融合科学”与二战及冷战时期以军事使命(如核弹)或者太空使命(如登月)为目标的“使命导向的科研”(mission-oriented research)具有相似性。相比于后者,“融合科学”的目标导向主要是围绕与普通民众日常生活休戚相关的重大经济社会问题,这些问题在冷战结束后成为摆在各国政府科技议程上的重要目标。

(2)覆盖从基础研究到问题解决的长链条。传统科研范式中,科研活动往往以知识发现或技术发明为最终目标。然而,“融合科学”并不止于新知识的发现,以及新技术、新工艺和新设备的研发,而是在重大经济社会问题的目标引导下,进一步沿着创新价值链向后延展,跨越基础研究与实际问题解决之间的鸿沟,直到形成真正能够产业化的样机、原型或解决方案,为最终实现市场上的创新提供保障。换言之,“融合科学”在解决重大问题的导向下,连接了知识发现、技术发明和市场产品,以创新地解决实际问题为重点,有助于在传统学术界和产业界之间主动发挥重要的桥梁作用,以更有效地跨越技术发明与产品市场化之间的“死亡之谷”。

(3)依赖于多种学科之间的深度交叉融合。 “融合科学”在研究手段上依赖于多种学科的深度交叉和融合,但并不是简单地把不同学科的研究人员聚集在一起,而是在重大问题凝练伊始就将不同知识背景的研究人员有意识地聚集在一起,共同寻找解决特定问题或挑战的研究方案,并且将学科交叉融合贯穿于解决问题或挑战的全过程[7]。在学科之间相互渗透的过程中,不同的知识、理论、方法、数据频繁地相互交织和影响,直到形成新的研究框架和新的科学语言。可见,相比于已有的各类学科交叉研究(如多学科研究、跨学科研究、交叉学科等),“融合科学”的目标导向更凸显。

2 “融合科学”对基础数据的新要求

从“融合科学”的基本特征和典型案例来看,“融合科学”的底层基础数据已经与以往科研数据大为不同。要实现“融合科学”所依赖的学科交叉融合、创新价值链贯通融合、各权益相关方协同融合,需要基础性数据实现全学科、全流程和全景式的开放共享,使研究人员可以跨界访问、完整获取解决重大问题所需的科学界、政府界、产业界及非营利机构的数据,以支撑重大问题的最终解决。这方面与大数据时代国际上“开放获取(open access)”“开放数据(open data)”“数据共享(data sharing)”“开放科学(open science)”等理念相呼应。在实践上,国际数据组织(如国际科技数据委员会),以及部分国家和地区正在大力推动的开放科学数据中心(如欧洲云计划“Gaia-X”)等为实现融合科研的全学科、全流程和全景式的数据开放奠定了重要基础。

The Committee on Data for Science and Technology (CODATA). http://www.codata.org.

2.1 “融合科学”要求改变以往科研数据分学科管理和使用的状况,以实现所有学科之间的数据开放和共享为基本要求

新公共管理运动以来,对公共部门的问责推动了公共部门的数据公开化(数据共享)要求。科研领域是较早重视并探索数据共享的公共领域之一。由于实际科研工作的需要,科学家自发地开展了局部范围(如实验室、研究机构层面)的科研数据共享。此后,在更大范围内(如国家层面、全世界范围内)的科研数据共享要求,推动了“开放获取(open access)”的兴起。但是,现有的科研数据开放获取主要是基于学科或者基于机构来操作,科研数据的开放更多地集中在单一学科内部、某一机构或出版商内部,数据的开放形式也多局限于论文,只有少数机构或个人拥有查阅或下载权限。这种状况一方面造成了数据的静态化、更新效率低等问题,另一方面也不利于知识在科学共同体之间的交流和传播。“融合科学”则要求所有学科的科研数据在同一平台进行开放和共享。该平台将所有学科的学者和成果进行集中展示,打破学科之间相互交流的壁垒,允许任一学科的科研人员在平台上根据研究主题或所关注的科学问题检索其他学科的学者和研究成果,以便与关注同一重大问题的学者建立起直接联系。

2.2 “融合科学”要求改变传统科研系统中忽视过程性科研数据的状况,以实现科研全流程的数据开放和共享

传统科研系统中仅有少数结果性的数据作为论文的相关内容公开发表,大量的过程性数据和未写入论文的结果性数据仍然掌握在科研人员个人手中,没有实现开放和共享,这造成了科研资源的浪费。“融合科学”所要求的全流程的科研数据开放,包括从提出研究问题、科研方法设计积累科研数据到最终科研结果公开整个链条所涉及的实验室笔记、研究数据、计算模型、论文等,这意味着研究人员可以通过搜集全部的原始信息,真正实现在基础数据层的交互融通。然而,从技术手段上来看,由于过程性的科研数据,如实验日志、不完整的数据集、初步分析结果、科学论文草稿、下一步研究计划、同行评审报告、与同事的沟通与交流记录等文字资料,实验室样本等实物资源,以及未正式发表的结果性数据等,这些数据种类繁多且形式多样,在存储和管理方面存在很大困难。目前,仅有极少数专家和机构在呼吁科研全流程数据的开放和共享,在实践中也仅有小范围的试点工作取得进展。例如,2014年美国学者Bohle[8]在《自然》杂志发表文章,倡议美国联邦政府层面加大对实验日志开放共享的重视和投入;2018年欧盟[9]发布《开放科学政策论坛建议》以来,强调科研项目的过程性数据的合理存储和管理。

2.3 “融合科学”要求改变传统科研范式下仅重视论文、专利等科研数据的开放和共享的做法,强调对解决重大经济社会问题相关的全景式数据的开放和共享

一方面,“融合科学”的基础数据极大地拓展了科研数据的形式和范畴。传统科研范式下除了论文和专利数据,以其他形式存在的科研数据(如政府数据、源码、会议资源、学术专著、教科书、新闻、存档记录和手稿、图像、开放教育资源、数字化印本资源等)没有受到足够的重视。“融合科学”则高度重视这些不同种类的科研数据的开放和共享,特别是致力于推动创新价值链不同谱段上的科研数据的关联和衔接。在这方面,美国国立卫生研究院(NIH)建立并维护多个开放获取的基因数据库和临床数据库(包括免费开放“国际千人基因组计划”全部数据)就是一种有益探索。另一方面,“融合科学”也重视联合政府数据、行业数据及广泛的经济社会和法律信息资源等的开放和共享,从而为联合利用与经济社会重大问题有关的全景数据,提供解决问题的思路或方案。

3 数据开放共享支撑“融合科学”的成功实践

21世纪以来,生命科学研究在攻克人类重大疾病等健康领域肩负重大使命,生命科学与信息科学、材料学的交叉融合非常普遍,这些都推动“融合科学”范式由生命科学领域的顶尖学者和机构首先提出。之后,“融合科学”范式在能源、环境、食品安全等领域的重大意义也得到认可。以下列举的生命科学、能源、农业三大方面的“融合科学”典型案例,都证明了数据开放共享是“融合科学”成功的前提。

3.1 精准医疗

“精准医疗”被认为是最能代表“融合科学”的令人振奋的案例之一。“精准医疗”以更精细、更准确的疾病分类作为诊断、治疗和临床决策的基本要求,从而实现在分子学水平为临床疾病亚型群体提供更精确的诊断和治疗[10, 11]。要实现这一目标,研究团体、临床医师、医疗保健人士及政策法规界人士需要协同合作,建立起一个开放共享的数据网络,将生物医学研究者所掌握的研究类数据(如基因组、转录组、蛋白组、代谢组、表型组等)、临床医师和护士掌握的临床类数据、健康管理人员掌握的饮食和运动类数据,以及患者自身的社会及物理环境信息等连接起来,持续更新并对所有相关人员和公众进行开放。在此基础上,生物医学研究者可深入理解疾病发病机制、确定疾病亚型,临床医师则可进一步结合患者的个体信息制定精准治疗方案。

以肺癌为例,20年之前罹患非小细胞肺癌的患者只能选择化疗方案,5年存活率小于10%。这是由于当时的医生根据组织病理仅可将非小细胞肺癌进行细胞学分类(分为鳞状细胞癌、腺癌和大细胞癌),对病情诊断和治疗方案选择的意义不大。如今,依赖于癌症基因组学、蛋白质组学、代谢组学、信号组学、临床标志物研究及社会物理环境等多源数据,医生可依据同样的组织病理,以及进一步提供的癌症驱动因子及信号传导通路的信息,将患者分成亚群,实现更加精确的诊断。结合临床制定出个性化的精确治疗方案,并依据临床及分子标志物的变化精确调整治疗方案,使患者的5年临床缓解率达到60%以上[12]

3.2 电燃料

电燃料(electrofuels)是一种通过微生物(如细菌)直接利用电能或者是氢、氨等化学物质(而不是太阳能)来获取能量生长并生产出生物燃料的新技术。传统上的生物燃料技术都需要直接或间接利用植物光合作用,因而需要投入大量的土地、水和肥料以获取足够的植物原料,生产效率较为低下。为了解决这一瓶颈问题,近些年,美国能源部高级能源研究计划署(ARPA-E)以“融合科学”的方式资助学术界和产业界共同解决该问题,并取得重大进展。例如,在ARPA-E的资助下,可再生化学品公司——OPX生物技术公司利用嗜特异环境微生物生产出各种工业用的、富含能量的长链脂肪酸分子,而北卡罗来纳州立大学的研究人员则开发出将脂肪酸转化为液体燃料的化学方法。该项技术借助于微生物、化学、合成生物学、基因工程学等不同学科领域的知识会聚,有效减少了生物质能研究中对于资源的依赖性,将生物燃料的生产效率提高了10倍[13]。随着有关微生物代谢机制相关的各类数据的进一步会聚并向不同学科背景人员进行开放,以电燃料为代表的新型生物燃料将迎来新的发展机遇;尤其是有助于筛选出具有较高能量转换效率的嗜特异环境微生物,使得新型生物燃料的开发利用呈现出多元化、智能化和网络化的发展态势。

3.3 农业防病减灾

现代农业通过传统农学、生态学、土壤学、社会学等多学科交叉融合,改变了传统上农业靠天吃饭的状况,尤其是在防病减灾方面取得了良好的效果。

以美国为例,恶劣天气会对农业生产和农民收入造成损失。针对这一问题,美国Climate Corp公司利用美国联邦政府数据网站免费提供的数据,如60年农作物收成数据、美国超过100万个气象监测站的气象数据和14 TB的土壤质量数据等,开发了专门的数据软件,为农民提供基于数据的各类农业相关服务。例如,美国农民用户可以利用软件上传农场的坐标和相关信息,即可获得农场范围内的实时天气信息,如温度、湿度、风力、雨水等,再结合软件提供的土壤质量数据,从而帮助用户判断每个地块的播种、收获、耕作时间。如果系统预测有恶劣天气,用户可以选择相应的农业保险,以降低恶劣天气对农业生产造成的影响[14]

http://www.data.gov.

以色列的现代农业技术也充分体现了基于数据来解决实际问题的融合范式。例如,以色列Taranis公司汇集了卫星图像、作物实地生长报告及当地病虫害分布等数据资源,为农民提供可视化数据平台,实时监测植物病虫害风险和气候变化。AKOL公司则建立了包含不同区域农民工作习惯和方式在内的庞大农业管理数据库,依赖于土壤学、农学和社会学等专业知识的会聚,帮助农民制定更精细的种植方案,如精确雾化灌溉设备的阀值及方向、肥料及杀虫剂使用数量等,实现农民利益的最大化

③ 全球十大农业大数据经典案例. [2018-06]. https://www.sohu.com/a/238301083_100011234.

4 未来展望

21世纪以来,全球科技界兴起两股重要浪潮。一方面,以科技革命解决能源、资源、人口、环境等关乎人类未来可持续发展的重大问题刻不容缓。为此,国际上有关科研范式变革的呼声层出不穷,美国提出的“融合科学”旨在倡导以一种新的科研范式来解决重大经济社会问题,从而给科研组织、数据基础和相关政策等方面带来了新的图景。另一方面,有关科研数据公开化的呼吁也声势浩大,“开放获取”“开放数据”“数据共享”“开放科学”等共同在科技界推动了科研数据开放理念的普及,在实践中也推动了数据开放平台的建设和运营。

本文认为,推动重大经济社会问题的解决需要将这两股浪潮进行连通。一方面,要真正实现“融合科学”所具有的多学科交叉融合、创新价值链贯通融合和不同权益相关方的协同融合,需要从底层数据上将跨学科、跨部门、跨领域、跨环节的数据进行合理的存储、开放、管理和共享。另一方面,当前与“开放数据”有关的倡议和实践重在强调数据的开放,但是缺乏对数据开放会为经济社会带来什么效用的思考。事实上,如果将当前“融合科学”和“开放数据”的发展结合起来,以“开放数据”支撑“融合科学”的实现,以“融合科学”带动“开放数据”更好地在解决重大经济社会问题方面发挥效用,将为人类未来可持续发展带来不可估量的正面推动作用。

当然,要实现“融合科学”与“开放数据”的连通并非易事。从技术层面来看,要实现“融合科学”所要求的全学科、全流程和全景式的数据开放,无疑是对人们现有的数据存储、管理和开放技术都提出了挑战。所幸的是,当前一些符合“可查找(findable)、可获取(accessible)、可相互操作(interoperable)和可再利用(reusable)”(FAIR标准)的跨学科数据开放平台已经运行,美国ORCID(开放研究者与贡献者身份码)平台也为每一位研究者提供了一个唯一的、全球通用的标识符。同时,多学科交叉融合也已经催生了一系列颠覆性技术的诞生,如DNA数据存储技术和人工智能技术。未来有望通过完善此类新技术来实现“融合科学”所要求的数据开放物理设施和服务架构要求。此外,重大经济社会问题的导向下,全球科技界的视野也进一步开放,有利于与其他公共部门(如政府部门)进行数据连通。这些都为未来构建符合“融合科学”的基础数据,支撑从传统科研范式到以重大问题解决为导向的“融合科学”新范式的转变提供了技术上的可能性。

此外,实现“融合科学”所要求的“开放数据”,还需要政府部门、科研资助机构、学术机构、数据平台商、科研人员等通力支持。①从政府部门来看,当前政府数据公开已经取得重要进展,一些国家陆续发布了推动政府数据公开的政策文件。例如,中国2015年印发《促进大数据发展行动纲要》,要求“2018年底前建成国家政府数据统一开放平台”;2018年印发《国家科学数据管理办法》,并陆续支持20个国家科学数据中心。②从科研资助机构的角度来看,目前若干资助机构已经对项目承担方提出了公开其承担项目产生的科研成果和数据的强制性政策要求,未来需进一步推动此类政策的全面铺开。例如,2017年起欧盟“地平线计划”(Horizon 2020)要求所资助项目必须参与研究数据(包括统计资料、实验结果、测量值、实地观测结果、调查结果、采访录音和图像等)的开放获取,以便其他人员能够通过知识库访问、挖掘、复制和传播科研数据。③从学术机构的角度来看,一方面需要改变对科研人员的评价和激励制度,鼓励那些将科研成果和科研数据进行开放的科研人员;另一方面应根据机构特点适时建立机构层面的知识库,引导和培训科研人员进行数据的标准化存储和开放。④从数据平台商的角度来看,目前学术期刊的开放获取已经取得重要进展,一些主流学术出版机构(如美国化学学会和英国自然出版集团)等都已陆续加入开放获取行列;Zenodo和Figshare等其他类型(如图像、视频、软件、代码等)的科研资源数据平台也陆续上线。但是,如何在这些不同平台之间建立起关联(如通过类似于美国ORCID的数据标识)从而形成一个跨学科、跨界的数据平台还有待开发和完善。⑤从科研人员来看,科研人员既要调整价值导向,倡导以解决重大经济社会问题为根本使命的文化,也要在数据开放方面接受一定的数据存储、管理和使用上的培训,使之转变传统观念,从以往仅重视论文的发表转变为将数据也作为重要科研资源进行开放和共享。

https://zenodo.org/.

https://figshare.com/.

参考文献
[1]
NRC. Convergence:Facilitating Transdisciplinary Integration of Life Sciences, Physical Sciences, Engineering, and Beyond. Washington DC: National Academies Press, 2014.
[2]
中国科学院"十三五"发展规划纲要.[2017-11-03]. http://www.cas.cn/yw/201609/W020160906628615831929.pdf.
[3]
肖小溪, 陈捷, 徐芳, 等. "融合式研究"评价框架的应用与分析——基于中国科学院的实践. 科学学与科学技术管理, 2019, 40(3): 18-30.
[4]
周忠和, 赵维杰. 以基金改革追求卓越科学:专访国家自然科学基金委员会主任李静海院士. 中国科学基金, 2019, 33(1): 3-6.
[5]
Sharp P, Cooney C, Kastner M, et al. The Third Revolution:The Convergence of the Life Sciences, Physical Sciences and Engineering (White Paper). Washington DC: MIT office, 2011.
[6]
肖小溪, 刘文斌, 徐芳, 等. "融合式研究"的新范式及其评估框架研究. 科学学研究, 2018, 36(12): 131-138.
[7]
DeSimore J M, Mirkin C, Seto B, et al. Convergence science: A revolution for health solutions AAAS symposium.[2019-05-08]. https://aaas.confex.com/aaas/2014/webprogram/Session7094.html.
[8]
Bohle S. Open access:Online repository for lab notebooks. Nature, 2014, 506(7487): 159.
[9]
European Commission. Open Science Policy Platform Recommendations.[2019-11-08]. https://ec.europa.eu/research/openscience/index.cfm?pg=open-science-policyplatform.
[10]
National Research Council. Toward Precision Medicine:Building a Knowledge Network for Biomedical Research and A New Taxonomy of Disease. Washington DC: National Academies Press, 2011.
[11]
何明燕, 夏景林, 王向东. 精准医学研究进展. 世界临床药物, 2015, 36(6): 66-70.
[12]
肖飞. 转化医学是实现精准医学的必由之路——思考精准医学、循证医学及转化医学之间的协同关系. 转化医学杂志, 2015, 4(5): 257-260. DOI:10.3969/j.issn.2095-3097.2015.05.001
[13]
ARPA-E. Electrofuels: Microorganisms for Liquid Transportation Fuel.[2019-12-25]. http://arpa-e.energy.gov/?q=arpa-e-programs/electrofuels.
[14]
高丰. 开放数据:概念、现状与机遇. 大数据, 2015, 1(2): 9-18.