地球科学大数据研究主题演化与影响力分析
安培浚1,3 , 肖仙桃1 , 郭华东2 , 闫冬梅2 , 李佳蕾1,3     
1. 中国科学院西北生态环境资源研究院 兰州 730000;
2. 中国科学院空天信息创新研究院 北京 100094;
3. 中国科学院大学 经济与管理学院图书情报与档案管理系 北京 100049
摘要:大数据在地球科学各个学科中的应用越来越受到关注,数据驱动地球科学发现的案例不断出现,有关地球数据信息中心、地球大数据平台及相关学术会议数量逐渐增加,地球大数据正在科学研究上表现出巨大的潜力。科学家对地球大数据的科学方法和工具的需求很大,然而目前地球大数据的理论基础、储存管理和分析方法等仍处于发展之中,对地球大数据的研究和讨论有限。文章通过文献计量学的方法,对科学引文索引(SCI)和社会科学引文索引(SSCI)收录的地球大数据相关文献进行分析,从全球论文的产出数量、国家与机构领域研究影响力、研究主题分布、研究热点变迁和国际合作等多角度,分析揭示了地球大数据研究现状;最后,建议未来重点加强跨学科的地球大数据共享与融合,完善地球科学大数据深度挖掘理论和方法,实现对复杂地球系统的分析、建模与预测,支持和服务全球变化与可持续发展。
关键词地球科学大数据    文献计量    研究主题分布    研究热点演化    研究影响力    
Big Earth Data Research Topic Evolution and Influence Analysis
AN Peijun1,3, XIAO Xiantao1, GUO Huadong2, YAN Dongmei2, LI Jialei1,3     
1. Northwest Institute of Eco-Environment and Resources, Chinese Academy of Sciences, Lanzhou 730000, China;
2. Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100094, China;
3. Department of Library, Information and Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100049, China
Abstract: Big data driven data-intensive scientific discovery, and the Big Earth Data is the base and engine of Earth system science. Based on observation of natural geographical elements on different scales and acquisition of data, and the data obtained during the interdisciplinary research processes, integration and mining analysis will promote the development of Earth science to achieve significant innovation. The Big Earth Data has also become the important national strategic resources, and exerted influence on international cooperation and diplomatic relationship. In this study by means of literature metrology, the Big Earth Data literature from the Science Citation Index (SCI) and Social Science Citation Index (SSCI) was analyzed. According to the global paper output quantity, the influence of countries and institutions, research topic, research hotspot change, international cooperation, and so on, present situation of the Big Earth Data research was revealed. Some suggestions in the future will focus on sharing and integration of developing interdisciplinary Big Earth Data, and in order to improve the Earth science data depth mining theory and method, and to realize analysis, modeling and prediction of complex Earth system, and to support and serve global change and sustainable development.
Keywords: Big Earth Data    literature metrology    distribution of research topics    research hotspots evolution    research influence    

1998年时任美国副总统戈尔提出数字地球概念——将数字地球看成是对地球的三维多分辨率表示,并能放入大量地理数据。自此,地球大数据概念和相关研究开始走进大众视野。而在科学研究领域,地球大数据的研究及其应用其实早已开始。1954年,基于系列海洋数据分析了热比容偏差;1959年,基于卫星数据对大气进行分析;随着美国陆地(Landsat) 系列卫星的发射,1976年起地球科学与大数据相关研究论文明显增多,大多为基于卫星数据开展分析,主要应用于地质和矿产资源勘探、作物面积和土地利用分类估算、大气成分和云层状况研究、冰冻预报、卫星和遥感数据处理技术等。

随着计算机互联网、卫星定位系统、空间信息技术、高分辨率卫星影像、大数据处理与存储技术、科学计算及可视化、虚拟现实技术等现代信息科技的迅猛发展,地球大数据的深入应用将对全球和各国的科技、经济和社会生活产生巨大影响。因此,地球大数据相关理论与技术方法研究成为当前研究热点领域[1-3]。本文基于文献计量方法,对地球大数据研究主题演化与影响力进行分析,以期为相关领域研究提供参考。

1 数据源与研究方法

利用"地球科学"和"大数据"主题组合检索策略构建检索词和检索式(广义的),采集文献覆盖面广与影响力大的科学引文索引(SCI)和社会科学引文索引(SSCI)数据库的所有文献数据(截至2021年7月20日)。经过对机构和关键词等信息的清洗,并经专家识别排除不相关文献后,利用多种可视化分析工具,定量分析地球大数据研究的现状与研究主题变化情况。

2 地球大数据研究总体科研产出分析 2.1 全球地球大数据论文增长趋势

地球大数据研究年发文量变化可以反映出其研究变迁与研究热度。图 1展示了全球地球大数据相关研究年度发文量的变化趋势。数据显示,1990年以前,地球大数据相关研究论文还非常少;1991— 2000年,论文数量开始保持小幅增长;2000年以来,论文增长进入快车道;2017年之后更呈现暴发式增长态势。

图 1 1954—2020年地球大数据相关论文数量增长趋势图 Figure 1 Trends in number of papers related to Big Earth Data from 1954 to 2020

地球大数据研究论文占全球论文比重可以更直观地反映该领域受全球关注程度。图 2统计了1954— 2020年地球大数据相关论文占SCI/SSCI年出版论文的比重,1990年以后,地球大数据相关研究论文占全球论文比重呈现逐步增长的态势;特别是2012年之后,增长更加迅猛;2020年,地球大数据相关研究论文占全球比重已达到0.25%。

图 2 1954—2020年地球大数据相关论文数量占全球论文比重变化趋势 Figure 2 Changing trend of percentage of number of papers related to Big Earth Data from 1954 to 2020
2.2 全球国家与机构的科研影响力分析

地球大数据相关研究论文主要分布在全球近200个国家/地区。表 1基于论文总被引频次列出论文影响力最高的15个国家/地区及其论文数、篇均被引频次、论文数全球占比和近10年(2011—2021年)美国科技信息研究所基本科学指标数据库(ESI)前1% 高被引论文全球占比。美国涉及地球科学的大数据研究(广义领域)起步较早,在论文数、论文总体影响力、篇均被引频次、高被引论文等指标上都表现较好。首次明确提出地球大数据与大数据科学的概念(具体领域)是中国的科学家。2015年6月17— 18日,在北京举行的"空间地球大数据"科学与技术前沿论坛上,郭华东报告中首次探讨了空间地球大数据理念、科学内涵、与数字地球关系,以及对推动地球系统科学及全球变化研究发展的潜力;2016年,郭华东及其团队在《科学通报》发表的《空间地球观测数据成为地球科学新引擎》一文正式使用地球大数据概念;2017年,郭华东牵头创办了全球地球科学领域的第一个大数据刊物Big Earth Data,并在创刊号上发文,提出地球大数据科学的概念。目前,中国已成为地球科学大数据的研究大国,年相关论文产出超过美国,在国际地球大数据科学领域的研究已处于引领地位。

表 1 1954—2020年地球大数据相关研究论文影响力最高的15个国家/地区 Table 1 Top 15 countries/regions with high influence of papers related to Big Earth Data from 1954 to 2020

图 3可视化展示了地球大数据相关研究论文产出最多的15个国家/地区的年度论文数量变化,主要国家/地区相关论文产出均呈增长态势。2000年以前,美国发表的相关论文占全球至少一半以上;2010年以后,中国相关论文增长很快,德国、澳大利亚、英国等国相关论文也有明显增长;自2018年起,中国年相关论文年产出已超过美国。

图 3 1969—2020年地球大数据相关研究论文产出量最多的15个国家/地区的年度论文数量变化 Figure 3 Annual paper number change of top 15 countries/regions with papers related to Big Earth Data from 1969 to 2020

表 2分别统计了全球地球大数据领域发文最多和论文总被引频次最高的25个机构。发文最多的25个机构分布在美国、中国、法国、俄罗斯、意大利、印度等国,其中美国13个,中国8个,法国、俄罗斯、意大利、印度各1个;论文总被引频次最高的25个机构分布在美国、中国、法国、意大利、加拿大等国,其中美国19个,中国3个,法国、意大利、加拿大各1个。

表 2 全球地球大数据领域发文最多与论文总被引频次最高的25个机构 Table 2 Top 25 institutions in paper numbers or high citations related to Big Earth Data

中国在地球大数据领域发文从论文数量和论文总被引频次来看,中国科学院、北京师范大学和武汉大学是国内3个最主要的研究机构。北京师范大学开展地球大数据研究的主要单元为中国科学院遥感与数字地球研究所和北京师范大学联合建设的遥感科学国家重点实验室;同时,北京师范大学地理科学学部设置了地理数据与应用分析中心,开展地理空间数据建设、计算平台搭建,以及利用多源数据开展地理学过程分析,中心下设数据存储与计算实验室、地理数据服务研究所和地理大数据研究所。武汉大学遥感信息工程学院和测绘学院是该校开展地球大数据研究的主要研究单元。

3 地球大数据研究领域分布 3.1 论文所属期刊情况

基于美国科学信息研究所《期刊引用报告》 (JCR)期刊分类对地球大数据相关研究论文所属期刊学科领域进行分析发现,地球大数据相关研究论文所属期刊分布在200多个主题类目中,大部分为自然科学,也有少量为社会科学和人文科学,图 4为分布最多的40个主题类目。遥感、环境科学、影像科学与摄影技术、地球科学多学科、气象与大气科学为分布最多的5个主题领域。

图 4 1954—2020年地球大数据相关研究论文(篇数)所属期刊的学科领域分布(前40位) Figure 4 Discipline domain distributions of those journals publishing papers related to Big Earth Data from 1954 to 2020

根据统计,地球大数据相关论文分布在SCI收录的4 000余种期刊、丛书、图书中。其中,发文最多的20种期刊中发表的相关论文占全部相关论文一半以上(图 5)。Remote SensingInternational Journal of Remote SensingRemote Sensing of EnvironmentJournal of Geophysical Research emdash AtmospheresIEEE Transactions on Geoscience and Remote Sensing是发表相关论文最多的5个期刊。

图 5 1954—2020年发表地球大数据相关论文(篇数)最多的50种期刊 Figure 5 Top 50 journals publishing papers related to Big Earth Data from 1954 to 2020
3.2 论文所属研究主题情况

InCites开发了一种基于论文引用的分类算法。随着已发表论文的相互引用,这些引用关系的强度将相关文献汇聚到一起,形成离散的相关文献集群。这些集群构成了引文主题(Citation Topics)的核心,独立于单篇文献的主题和内容,却代表着作者相互积极引用对方论文的领域。Citation Topics构建一个宏观、中观和微观主题的3级层次结构,包含10个广义集群、326个中观集群和2 444个微观集群的层次结构。根据聚类内容对宏观和中观类别进行了标注,由于微观Citation Topics数量较多,使用算法工具根据聚类文献中最重要的关键词给每个主题加标注,从而有助于对研究主题进行更精细的分析。基于InCites的Citation Topics分类,对地球大数据相关研究论文的主题分布进行分析。

① InCites是汤森路透科技集团在汇集和分析Web of Science(SCI/SSCI)权威引文数据的基础上建立起来的科研评价工具,综合各种计量指标和30年来各学科各年度的国际标杆数据。通过InCites,用户能够实时跟踪机构的研究产出和影响力;将某机构的研究绩效与其他机构、全球和学科领域的平均水平进行对比;发掘机构内具有学术影响力和发展潜力的研究人员,并监测机构的科研合作活动,以寻求潜在的科研合作机会。InCites能够帮助政府和学术研究机构中的决策者、科研管理人员分析本机构的学术表现和影响力,并针对全球同行的研究成果进行比较。

(1)基于Citation Topics的宏观领域分布。地球大数据相关研究论文主要分布在电气工程、电子学与计算机科学,地球科学,农业、环境与生态三大领域。这表明信息技术是地球大数据研究最主要的研究基础;而地球科学,农业、环境和生态领域是地球大数据的主要应用领域(图 6)。

图 6 1980—2020年基于Citation Topics分类的全球地球大数据领域宏观主题论文数量年度变化 Figure 6 Annual paper number change of macro themes related to Big Earth Data based on Citation Topics classifcation from 1980 to 2020

(2)基于Citation Topics分类的地球大数据相关研究论文中观领域分布。研究主题主要集中在遥感,海洋学、气象与大气科学,林业等领域(图 7)。

图 7 1980—2020年基于Citation Topics分类的全球地球大数据相关研究论文中观主题领域分布(前20位) Figure 7 Top 20 meso themes related to Big Earth Data based on Citation Topics classifcation from 1980 to 2020

(3)基于Citation Topics分类的地球大数据相关研究论文微观领域分布。研究主题主要集中在归一化植被指数、蒸散发、气溶胶、海洋颜色、自发地理信息、冰川、云、生态系统服务、厄尔尼诺与南方涛动、热带气旋等(图 8)。

图 8 1980—2020年基于Citation Topics分类的全球地球大数据相关研究论文微观主题领域分布(前30位) Figure 8 Top 30 micro themes related to Big Earth Data based on Citation Topics classifcation from 1980 to 2020
3.3 专业期刊关键词分布情况

SCI数据库目前仅收录2种地球大数据领域专业期刊——Earth System Science DataGeoscience Data JournalEarth System Science Data创刊于2009年,2012年开始被SCI收录,目前为JCR地球科学"多学科"领域1区期刊,"气象与大气科学"领域1区期刊;Geoscience Data Journal创刊于2014年,2015年被SCI收录,目前该刊为JCR地球科学"多学科" 领域3区期刊,"气象与大气科学"领域4区期刊(2020版JCR)。截至2021年8月,SCI数据库共收录了以上2刊的893篇论文。

Earth System Science DataGeoscience Data Journal发表的SCI论文的主题分布进行分析,基于其所发表论文的"作者关键词" ,绘制了关键词共现网络。如图 9显示,两刊发表论文研究主题涉及气候与天气、气候变化、大气温度、降雨、观测、重构、水文模型、海面温度等广泛主题,热点关键词主要有数据救援/气候数据救援(climate data rescue)、公民科学(citizen science)等。

图 9 Earth System Science DataGeoscience Data Journal期刊"作者关键词" 共现网络 Figure 9 Author keyword co-occurrence network of Earth System Science Data and Geoscience Data Journal

② 数据库中的关键词一部分是作者文章给出的关键词,称为"作者关键词";另一部分是数据库商根据参考文献和论文内容补充的关键词,称为"标引关键词"。为更加准确起见,本文只分析了文章的作者关键词。

4 地球大数据研究热点演化

提取不同时期相关论文最多的20个主题,并用热力色阶表示各主题在不同时期相关论文多少,颜色越接近红色表明文献量越大,颜色越接近蓝色表明文献越少(表 3)。从表 3可以看到,不同时期研究热点有较多不同。2000年以前,更关注归一化植被指数、云、厄尔尼诺与南方涛动、蒸散发、热带气旋、内波、自发地理信息、海洋的颜色、冰川、地统计学。2016年以来,更关注归一化植被指数、蒸散发、气溶胶、海洋颜色、生态系统服务、冰川、自发地理信息、激光雷达、城市热岛、地学统计;此外,深度学习、滑坡、森林火灾、光污染、城市热岛效应等主题的相关文献数量增长较快。

表 3 不同时期主要热点主题包含的地球大数据相关研究论文数量对比(单位:篇) Table 3 Comparison of paper numbers including main hot themes related to Big Earth Data in different periods

图 1114基于"作者关键词"可视化展示了不同时期相关研究论文的300个高频关键词聚类网络,从而可以一窥不同时期的主要热点研究主题。每幅图中用同一颜色代表同一个聚类。节点大小和节点字体大小表示该节点论文数量多少。可以看到不同时期热点研究主题发生了一些变化。

图 11 2000年以前地球大数据相关研究论文高频关键词(前300个)共现网络 Figure 11 High-frequency keyword co-occurrence network of papers related to Big Earth Data before 2000
图 12 2000—2009年地球大数据相关研究论文高频关键词(前300个)共现网络 Figure 12 High-frequency keyword co-occurrence network of papers related to Big Earth Data from 2000 to 2009
图 13 2010—2015年地球大数据相关研究论文高频关键词(前300个)共现网络 Figure 13 High-frequency keyword co-occurrence network of papers related to Big Earth Data from 2010 to 2015
图 14 2016—2020年地球大数据相关研究论文高频关键词(前300个)共现网络 Figure 14 High-frequency keyword co-occurrence network of papers related to Big Earth Data from 2016 to 2020
5 地球大数据研究的国际合作情况 5.1 主要国家间的国际合作

图 15可视化展示了地球大数据研究相关论文最多的50个国家/地区间合作密度,其中美国、中国、加拿大、英国、德国等国家/地区的国际合作强度最大。

图 15 地球大数据相关研究论文产出国家/地区(前50位)间合作网络 Figure 15 Cooperation network of top 50 countries/regions in number of papers related to Big Earth Data

表 4统计了地球大数据相关研究论文发文量最多的25个国家/地区的国际合作论文占本国相关论文比重。数据显示,大部分国家/地区的国际合作论文所占比重均超过一半以上,国际合作论文比重占比较低的有印度、土耳其、中国。

表 4 地球大数据相关研究论文产出量最多国家/地区(前25位)的国际合作论文占比情况 Table 4 Percentage of international cooperation papers of top 25 countries/regions in number of papers related to Big Earth Data
5.2 中国主要国际合作伙伴

图 16显示了在地球大数据领域,与中国开展相关研究论文国际合作最多的25个国家,其中连线粗细表示与中国合作论文数量多少。中国国际合作论文最多的国家是美国、英国、加拿大、澳大利亚、德国、法国、日本、荷兰、意大利、韩国、比利时。中国发表的地球大数据相关研究论文中,近10% 的论文为3国及以上国家合作完成。

图 16 1954—2021年地球大数据领域与中国开展相关研究论文国际合作最多的国家(前25位) Figure 16 Top 25 countries in number of collaborative papers with China related to Big Earth Data from 1954 to 2021

表 5统计了地球大数据相关研究中,与中国合作论文最多的25个国外机构。统计显示,中国的国际合作机构主要分布在美国,美国马里兰大学、法国国家科学研究中心、美国国家航空航天局是中国地球大数据领域最主要的3个海外合作机构。

表 5 中国合作论文最多的25个国外机构 Table 5 Top 25 foreign institutions in number of collaborative papers with China related to Big Earth Data
6 结论与展望

近年来互联网、云计算和人工智能等相关技术发展,使得地球大数据研究热度升高,发文量增长迅速,影响力呈上升态势。美国和中国在地球大数据研究领域处于领先地位,且目前中国的年发文量已经超过美国,但高被引论文数量低于美国,论文质量发展提升空间较大。从全球地球大数据发文最多和论文总被引频次来看,研究热度较高的机构不一定是影响力较大的机构[4]。受我国地球大数据工程项目牵引,我国近3年的地球大数据发文量和影响力均得到快速提升,已经跃居全球第一,并且由我国科学家发起的基于地球大数据的"数字丝路"国际科学计划带动,与"一带一路"多个国家和国际组织合作,参与国家科研机构在地球大数据的科研产出上也得到明显的发展。地球大数据发文所属期刊来看,中国期刊的国际化与国际影响力仍有待提高,国际合作以华人居多,需要进一步深入拓展。地球大数据研究领域主要分布在遥感科学、环境科学、大气科学等,其研究热点也主要聚焦在地球科学的研究热点主题上,以应用为主,理论方法主要涉及与信息技术相关的人工智能等。

尽管国内外地球科学大数据都已经形成了相当的规模,取得了可观的应用成果,但从发表的地球大数据相关研究论文内容来看,仍然存在诸多问题亟待解决,如:缺乏统一的数据描述标准[5]、规范的数据共享机制,以及数据融合与深度挖掘问题显著和地球系统模拟预测精度不高等。未来地球大数据的重点研究方向主要集中在:跨学科的地球大数据共享与融合;构建地球科学大数据深度挖掘理论与方法;建设地球大数据智慧平台;形成新的研究范式与协同研究模式。

参考文献
[1]
Guo H D. Big Earth Data: A new frontier in Earth and information sciences. Big Earth Data, 2017, 1(1/2): 4-20.
[2]
郭华东. 科学大数据——国家大数据战略的基石. 中国科学院院刊, 2018, 33(8): 768-773.
[3]
Guo H D, Wang L Z, Liang D. Big Earth Data: A new frontier in Earth and Information sciences. Science Bulletin, 2016, 61(7): 505-513. DOI:10.1007/s11434-016-1041-y
[4]
王淑强, 王卷乐, 李扬, 等. 基于文献计量学的国际地球科学数据管理研究进展. 全球变化数据学报, 2020, 4(3): 299-313.
[5]
董少春, 齐浩, 胡欢. 地球科学大数据的现状与发展. 科学技术与工程, 2019, 19(20): 1-11. DOI:10.3969/j.issn.1671-1815.2019.20.001