2. 中国科学院太空应用重点实验室 北京 100094;
3. 中国科学院大学 航空宇航学院 北京 100049
2. Key Laboratory of Space Utilization, Chinese Academy of Sciences, Beijing 100094, China;
3. School of Aeronautics and Astronautics, University of Chinese Academy of Sciences, Beijing 100049, China
人工智能(AI)技术的迅猛发展正催生出科学发现的全新范式,极大地促进了对各种空间和时间尺度下自然现象的理解,从而推动了科学的进步与创新[1, 2]。
随着AI的不断演进,新的科学研究范式AI4S(AI for Science)的崛起为科学研究开辟了新的道路[3]。特别是在AI4S范式下的空间科学实验领域的研究,将有力促进空间科学实验领域取得重大科学成果,推动AI与空间科学交叉学科的繁荣发展。
本文聚焦中国空间站空间科学实验(以下简称“空间科学实验”)领域,在回顾AI4S在空间科学实验领域发展的基础上,深入分析了AI4S在微重力条件下空间科学实验多模态数据智能表征、复杂空间现象的模式识别、领域知识的智能提取及多来源、跨学科数据融合分析等方面所面临的问题和挑战。针对这些挑战,本文围绕数智驱动在空间科学实验数据模式挖掘、领域知识发现与推理、跨学科认知智能,以及大模型构建与应用等方面提出AI4S在空间科学实验领域的发展与思考。期望通过加强领域优势、建立开放生态等举措,共同推动空间科学实验领域大数据挖掘与智能认知的不断发展。
1 我国空间站空间科学实验领域研究概况中国空间科学与应用技术蓬勃发展,已开展并将持续开展一系列空间科学与应用任务和计划,产生的空间科学数据与日俱增,并呈迅猛增长态势[4]。在AI4S范式的背景下,结合微重力条件下空间科学实验的领域数据特点,充分挖掘空间科学实验数据蕴含的高价值信息,将有力促进科学发现与认知发展。
1.1 多学科大规模的先进空间科学实验项目作为空间科学研究发展的重要阵地,中国空间站是我国未来10—15年规模最大的空间综合研究实验平台,将建成国际先进水平的国家太空实验室,高效开展体系化的空间科学与应用研究和新技术试验,不断产出重大科技成果,持续获取综合应用效益[5]。作为我国航天史上规模最大、长期有人照料的空间实验平台(图 1),中国空间站在空间生命科学与生物技术、微重力流体物理与燃烧、空间材料科学、空间基础物理等多个科学领域,支持开展近千项先进性和前瞻性研究项目,将获取海量、多源、高价值的科学数据,为开展AI赋能的跨学科智能认知提供基础[6]。
![]() |
图 1 中国空间站组成示意图 Figure 1 Composition of Chinese Space Station |
中国空间站科学实验项目获取的数据产品种类超2 000种,数据体量预计将达近百PB级。数据资源具有全周期多来源、多学科跨领域、多模态多角度等特点。
(1)全周期多来源海量空间科学实验数据。空间科学实验覆盖地基培育实验、地面匹配实验、在轨微重力环境下空间实验、天地同步比对实验、地面返回实验等全周期的空间科学实验过程和阶段,并采集、处理、分析、存档和共享相应阶段和过程的实验数据,以及来自地面镜像平台实验数据、数字孪生数据和微重力模拟实验数据等来源广泛、长时间获取的海量、丰富数据(图 2)。
![]() |
图 2 空间科学实验平台、设施与数据 Figure 2 Platform, facilities, and data of space science experiment |
(2)多学科跨领域数据。空间科学实验数据涵盖空间生命科学与生物技术、微重力流体物理与燃烧科学、空间材料科学、空间基础物理等多学科领域的实验数据,涉及覆盖面广且多样(图 2)。
(3)多模态多角度数据。空间科学实验数据包含图像、视频、语音、文本、数值等。其中,图像数据又包含可见光、荧光、红外、X射线、显微等涵盖多种模态多样形式。如燃烧科学实验柜、流体科学实验柜等实验柜,还设置了多角度的观测设备对同一实验过程进行多个角度的同步观测。
1.3 数智驱动的空间科学实验研究基于中国空间站的空间科学实验大数据作为信息的重要载体,蕴含了空间科学实验领域内在规律、模式与知识。面向空间科学实验大数据开展数据挖掘与智能认知的研究,将推动空间科学实验领域新理论、新方法与新知识的高效产出。空间科学实验领域内的跨学科合作,学科内知识的交叉融合,将加速领域内一般性规律的重大科学发现,也将推动整个空间科学实验领域朝着更加开放、协同和智能化的方向迈进,对空间科学实验研究的新模式探索与高质量发展具有重要意义。
2 空间科学实验领域AI4S研究的问题与挑战空间科学实验领域AI4S的研究旨在聚焦探索AI与空间科学实验领域的深度融合,利用AI技术学习、模拟、预测和优化空间科学实验领域各种现象和规律以解决各种科学问题,构建以AI支撑基础和前沿的空间科学实验数据研究的新模式,加速空间科学实验领域科研范式变革和能力提升,从而推动领域科学新发现和创新。空间科学实验领域AI4S研究面临的问题与挑战如下。
(1)空间科学实验多模态数据信息提取的复杂与困难,使得数据表征、特征融合更具挑战。空间科学实验开展过程中,针对特定研究领域的实验对象产生的实验数据,往往以不同的模态形式存在,如物理量参数、图像、视频等数据,这些数据都隐含了研究对象在空间特殊环境和实验条件下的科学规律。多模态表征[7]通过利用多模态数据之间的互补性,剔除模态间的冗余性,从而学习并提取不同模态数据的特征表示。空间科学实验产生的多模态实验数据的复杂处理方式、天地差异、异质性等因素,使得构建全面准确的表征极具挑战性(图 3)。多模态语义对齐识别多模态信息之间的跨模态连接和相互作用。例如,分析空间科学实验的物理参量和图像视频数据时,需要将特定的物理参量与图像或视频对齐。模态之间的对齐在技术上存在很多困难,因为不同模态之间可能存在隐含关联与长距离的依赖关系,涉及模糊的分割,并且可能是一对多、多对多的关联性,需要处理不同模态之间的歧义,以精准匹配跨模态信息,并最大程度降低信息损耗。多模态信息融合抽取自空间科学实验不同模态的信息,整合成多模态特征信息,利用多个来源不同模态的互补信息执行分析与预测。不同模态的信息可能具有不同的预测能力和噪声拓扑,一方面不同模态之间的关联信息有互补作用,另一方面模态自身的特异性又有很强的标识功能。同时,根据待融合模态信息的特点可以分为异质多模态融合(如文本与图像)和同质多模态融合(如深度图与灰度图)等多种情况,获取不同模态实验数据间的共性和模态内的特性信息,具有极大的计算复杂度。
![]() |
图 3 空间科学实验多模态数据学习的技术挑战 Figure 3 Technical challenges in multimodal data learning for space science experiments |
(2)多约束条件下的空间科学实验数据多样化与复杂关联,使得模式识别与分析变得更为困难。在空间科学实验领域,进行科学实验时受到多种约束条件的影响,包括宇宙低温、强辐射、微重力等多重因素。这些约束条件导致获取的实验数据呈现出极大的多样性和复杂性,使得数据的模式识别和分析变得困难。一方面,需要应对数据中的噪声、不确定性及多模态数据之间的复杂关联。在处理这些多重约束下的数据时,科学家们面临着挑战,需要开发出具有鲁棒性的算法,以确保准确性和全面性,推动对复杂空间实验现象的深入理解和科学实验数据的有效分析。另外一方面,长期微重力条件下科学实验数据的分析挖掘不仅需要从复杂数据中发现模式与关联,更需要结合不同的环境变量及实验变量、先验知识辅助支持有意义、有价值的模式挖掘与科学发现。因此,如何将这些控制变量、先验知识进行有效编码,融入深度神经网络,支持多元数据的模式挖掘与关联建模面临挑战。
(3)多来源、跨学科知识关联复杂,使得跨领域知识交叉融合分析极具挑战。在空间科学实验研究领域,多学科交叉的背景使得AI4S有机会打破学科间的壁垒,推动不同领域间的深度融合与协同创新。例如,流体力学中常用的粒子图像测速方法[8]。可在空间生物实验中用于追踪细胞的运动[9],也可在微重力物理实验中用于追踪流化床内颗粒的运动[10]。然而,不同学科及来源的数据和知识既具有各自独特的结构体系,又有错综复杂的关系,这使得借助AI技术实现数据的有效关联和知识的深度融合成为一项至关重要的挑战。
具体而言,空间科学实验研究的跨领域信息融合面临3个难点:①异构数据标准化。不同领域的空间科学实验数据具有迥异的结构和内涵。为促进数据共享,需要建立统一的数据标准,并致力实现高效的异构数据标准化。②多源数据关联。空间科学实验分析涉及多来源的数据:传感器测量值、视频图像、文献书籍等。多源数据之间的关系(如燃烧实验中视频像素值与温度值的对应关系)复杂、隐晦而多变,难以被通用算法所预测。需要结合科学实验数据的物理模型与AI的学习能力,实现准确高效的数据关联分析。③跨领域知识关联。一方面,需要构建领域知识图谱,刻画学科本身的知识体系;另一方面,需要消解多学科之间的专业隔阂,揭示跨领域知识的内在联系与相似性。例如,空间流化床实验的科学家希望实现对大量颗粒的群体追踪,需要AI模型提供其他领域内相关的知识和方法。而大语言模型通过将海量数据信息映射至共同的语义空间,有能力通过语义相似性、发掘不同学科知识之间的联系。
3 空间科学实验领域发展与思考 3.1 空间科学实验数据模式挖掘与分析针对空间科学实验领域的数据模式挖掘与分析,重点包括时序数据模式挖掘和科学实验图像/视频智能分析两方面。
(1)在时序数据模式挖掘方面。空间科学实验载荷产生海量结构化遥测时序数据,通过整合不同来源的数据进行挖掘,利用基于深度学习的数据预测模型,结合在线学习方式实时调整模型,可以深入分析实验载荷系统的关键参数和重要的特征表征因子,揭示复杂模式、趋势和关联,提高实验载荷故障风险预测的能力。同时,融合领域知识图谱进行因果关系挖掘,提高模型结果的可信度和可解释性,为故障根因定位和复杂现象理解提供重要技术支持。
(2)在空间科学实验图像/视频智能分析方面。通过研究实验目标检测、实例分割、实验目标追踪、实验目标行为和模式分析及实验目标三维重建等众多关键技术,可以实现对空间生物、动物、植物实验图像的高效分析和理解。这些技术支持了定量分析和可视交互分析,为科学家提供了丰富的数据基础和更立体的观察视角。结合领域知识的增强,可以实现更高层次的推理与实验目标行为、生长等模式挖掘,进而推动空间科学实验领域的深入研究和创新发现。
通过整合时序数据模式挖掘和科学实验图像/视频智能分析,结合领域知识增强方法,可以实现对领域新知识的发掘,推动空间科学实验研究和创新的发展。
3.2 空间科学实验领域知识的发现与推理空间科学实验海量数据中蕴含了丰富的、散乱的、待挖掘的领域知识。空间科学实验领域知识的发现与推理旨在整合多源数据,融合分析多源数据中的关键信息并智能提取领域知识,建立领域知识体系,以促进更全面的空间实验现象理解和揭示深层次规律。
针对领域数据多源异构特性,基于统一表征学习方法,将在轨实验、地面培育与同步实验、地面镜像等产生的多源数据进行表征信息提取,将不同的特征映射到统一的知识表示空间中。结合实体识别、关系抽取等领域知识抽取方法,提取空间科学实验领域知识,并基于知识表示、知识融合、知识推理方法,完成不同来源知识的消歧和对齐,将对齐的多源数据和获取的领域知识从概念层和实例层对齐后再次融合到全局视图的知识图谱中,构建空间实验领域知识图谱,建立领域知识概念和体系。同时,基于已有知识基础,利用知识推理技术方法推导出新的未知的知识,揭示未知领域的潜在知识与关联信息,促进空间科学实验领域新的科学发现。
3.3 空间科学实验多来源、跨学科数据智能融合与协同创新在空间科学实验研究中,信息的标准化共享、数据的关联分析与知识的融合推理共同构成了跨领域协同创新的基础。①多源异构数据标准化与治理。为确保数据的标准化共享,需要构建空间科学实验领域统一的数据标准和规范,明确各类数据的格式、结构、存取方式等。在此基础上,结合AI算法与模型,实现多源异构数据的自动标准化与高效治理。②基于AI的多源数据分析。结合人类认知与AI技术,通过图像、可视化等手段展示数据,并提供AI算法的演算结果,揭示多源数据中复杂的关系,引导科学家深入探索实验规律。③跨学科知识融合与推理。利用AI模型从科技文献中提取知识实体与关系,构建学科知识图谱,通过算法匹配不同图谱中的相似实体与关系,揭示各领域科学原理与思路方法的相似性,以促进跨领域的成果共享与协同创新。
3.4 空间科学实验领域大模型的应用领域大模型能够提升领域数据特征表示的能力。通过构建统一的、跨场景、多任务的多模态空间科学实验领域基础大模型,建立空间科学实验物理量、文本、图像、视频等多模态数据间的语义关联,挖掘潜在关联关系,探索多模态科学实验数据分析与理解的技术前沿,为科学实验大数据挖掘、知识图谱构建、图像/视频智能分析与理解、智能辅助决策等提供可计算的关于多模态数据的结构化表示,为面向空间科学实验领域多模态数据的智能化分析与应用提供有效的技术支撑。构建强大的空间科学实验分析大模型基座,围绕空间科学实验领域大模型可以构建“平台协作式”的AI4S科研模式,适应不断变化的数据和实验场景,大幅提高科学研究效率,有效提升实验数据处理、知识库构建、复杂模式挖掘、可视化与可视分析等能力,促进多学科知识深度交叉融合和重大科学发现。
(1)基于大模型的图像智能分析。中国空间站将在空间生命科学与生物技术、微重力流体物理与燃烧科学、空间材料科学、微重力基础物理等领域展开上千项研究项目。大模型在图像智能分析应用中具有重要作用,助力“作坊式”个性化的研发模式向“平台协作式”转型。大模型通过在海量图像/视频数据上进行预训练,实现通用特征提取网络,为特定实验专业需求的子任务提供智能辅助分析支持,实现下游多任务的灵活自适应,降低单一任务的数据标注成本和算法研发周期。例如,基于大模型的空间生命实验对象实例分割算法,依赖海量领域数据的预训练,有望实现零样本或少样本的新实验数据分析的应用。
(2)基于大模型的领域知识图谱。大模型可以增强空间科学实验领域知识图谱的构建与应用能力。利用大模型的自监督表征学习空间科学实验有关的多模态数据,实现多源数据的整合、信息互补和语义全面表达,并进行实体、关系、事件等领域知识提取,构建空间科学实验领域内的知识图谱;知识图谱智能问答、知识关联分析等应用将提高知识图谱智能化应用的性能和效果,为解决领域专业性强、复杂度高的知识发现与应用问题奠定坚实基础。
(3)基于大模型的信息关联与跨模态检索。空间科学领域实验包含文本、图像、视频、语音等多模态数据,使得科学家难以高效搜索感兴趣的信息。大模型,尤其是基于对比学习的模型如CLIP(contrastive language-image pretraining)等,通过自监督学习方式构建,能够统一表征空间科学领域实验多模态数据语义信息,提高数据跨模态检索性能,这有助于科学家从海量数据中快速、准确地找到有价值的信息,有效提高数据利用效率。
(4)基于大模型的空间科学实验载荷在轨运行故障预测。基于具有空间科学实验载荷故障风险预警与根因定位能力的基础大模型,利用其强大的数据表征、整合和分析能力,深入挖掘实验载荷多源工程遥测数据之间的关系,识别异常模式和变化趋势。通过大模型在语义理解、数据整合方面的技术优势,提高科学实验载荷的运行故障预测精度与效率,保障各空间科学实验载荷的安全、稳定在轨运行。
(5)基于大模型的空间科学实验数据可视化与可视分析应用。大模型结合自然语言理解与生成能力,使科学家能够通过对话方式驱动高效的数据检索与处理。结合可视分析,通过自然语言描述生成可视化结果,形成可视分析系统。利用“CUI+GUI”的模式发挥大模型在科学家意图理解和数据智能分析方面的能力,充分利用可视分析在数据直观展示和关联分析方面的独特优势,是一种创新且高效的空间科学实验数据分析模式如在微重力空间科学实验领域将发挥重要作用。
以上有关应用示例展示了大模型在空间科学实验领域的多个方面的潜在作用,为科学研究、实验数据分析和实验载荷在轨运行决策等提供了新的可能性和技术支持。
4 总结与展望中国空间站是我国最大的空间综合研究实验平台,将开展近千项先进性和前瞻性研究项目,并获取海量、多源、高价值的科学数据,为开展AI赋能的跨学科智能认知提供基础。本文聚焦中国空间站空间科学实验领域,总结了领域的多学科优势以及大数据特点,分析了领域所面临的问题和挑战,提出了发展与思考。最后,期望通过加强领域优势、建立开放生态等举措,共同推动空间科学实验领域大数据挖掘与智能认知的不断发展。
(1)空间科学实验领域研究已成为AI4S领域的重要前沿阵地。空间科学实验作为AI4S科学的重要领域,拥有大规模实验数据,尤其随着中国空间站建成国家太空实验室,将长期在轨开展各个学科领域的空间科学实验,蕴含着众多的机遇,在科技前沿方面具有显著的优势。①空间科学实验领域是AI4S的重要试验阵地。空间科学实验领域横跨多个学科,包括空间生命科学与生物技术、微重力流体物理与燃烧科学、空间材料科学、微重力基础物理等,为AI4S范式的研究提供了丰富的试验场;②空间科学实验领域数据生态将为AI4S的研究提供重要支持。该领域的数据通过统一生态平台下载和分发,呈现较好的统一性、规范性。相对于地面各科学领域数据共享程度不足的问题,空间科学更容易构建统一的面向AI就绪(Ready4AI)的数据中心,为新型AI范式的探索提供有力支持;③空间科学实验的跨学科协同将有力推动AI4S的发展。空间科学实验领域属于系统工程,需要载荷专家、技术专家和科学家共同协作,团队具备跨学科的协同优势,更有利于推动新型科研范式的探索。因此,以AI驱动的空间科学实验研究在AI4S中担当着先锋角色,为推动科学研究和应用领域的创新发展贡献着独特的力量。
(2)数据驱动的空间科学实验研究需要空间科学实验和AI领域的交叉人才。空间科学实验领域科学家与AI专家的专业背景、学科差异大,相互理解程度低,彼此互相促进的障碍仍然较大。但是,AI4S属于交叉学科,需要专业领域科学家提出科学问题,AI专家发挥技术能力,同时还需要探索已有知识如何融入智能模型,抽象出AI擅长的科学分析场景,相互协作,才有可能在科学领域促进认知智能的涌现。
(3)构建AI4S的空间科学实验领域开放共享生态的必要性。近年来,AI领域的技术发展之所以如此之快,很大程度得益于其开放的大规模公开数据集,以及开源的算法研发模式。但是,AI在科学智能领域存在一定瓶颈,这与科学数据更加专业、准入门槛更高、通用性更低有一定关系。为了促进AI4S领域的发展,构建开放共享数据生态十分必要,这有助于领域科学家、AI专家更便捷获取数据,更多的团队参与进来,共同促进、加快领域的发展十分有益。此外,AI算法的研发需要更多的数据、更大的算力支持,单一的科学实验室较难满足数据与资源的需求。通过构建基于云计算的大算力基座、海量丰富场景数据、开源共享协同算法的空间科学实验研究生态和支持平台,促进传统“作坊式”的科研模式向新一代AI4S范式转变。
[1] |
李国杰. 智能化科研(AI4R): 第五科研范式. 中国科学院院刊, 2024, 39(1): 1-9. Li G J. AI4R: The fifth scientific research paradigm. Bulletin of Chinese Academy of Sciences, 2024, 39(1): 1-9. DOI:10.16418/j.issn.1000-3045.20231007002 (in Chinese) |
[2] |
鄂维南. AI助力打造科学研究新范式. 中国科学院院刊, 2024, 39(1): 10-16. E W N. AI helps to establish a new paradigm for scientific research. Bulletin of Chinese Academy of Sciences, 2024, 39(1): 10-16. DOI:10.16418/j.issn.1000-3045.20231224001 (in Chinese) |
[3] |
Hey T, Tansley S, Tolle K, et al. The Fourth Paradigm: DataIntensive Scientific Discovery. Redmond: Microsoft Research, 2009.
|
[4] |
顾逸东. 关于空间科学发展的一些思考. 中国科学院院刊, 2022, 37(8): 1031-1049. Gu Y D. Thoughts on space science development. Bulletin of Chinese Academy of Sciences, 2022, 37(8): 1031-1049. DOI:10.16418/j.issn.1000-3045.20220507004 (in Chinese) |
[5] |
刘泽康. 空间站应用与发展阶段开年提速. 国际太空, 2023, (9): 4-8. Liu Z K. Space station applications and development stages accelerate at the beginning of the year. Space International, 2023, (9): 4-8. (in Chinese) |
[6] |
顾逸东, 高铭, 赵光恒. 2022—2032年中国空间站运行期科研利用规划. 空间科学学报, 2020, 40(5): 609-614. Gu Y D, Gao M, Zhao G H. Science research and utilization planning of China's Space Station in operation period 2022-2032. Chinese Journal of Space Science, 2020, 40(5): 609-614. (in Chinese) |
[7] |
Zhang C, Yang Z, He X, et al. Multimodal intelligence: Representation learning, information fusion, and applications. IEEE Journal of Selected Topics in Signal Processing, 2020,, 3(14): 478-493. |
[8] |
Elsinga G E, Scarano F, Wieneke B, et al. Tomographic particle image velocimetry. Experiments in Fluids, 2006, 41(6): 933-947. DOI:10.1007/s00348-006-0212-z |
[9] |
Matía I, González-Camacho F, Marco R, et al. Nucleolar structure and proliferation activity of Arabidopsis root cells from seedlings germinated on the International Space Station. Advances in Space Research, 2005, 36(7): 1244-1253. |
[10] |
Horio M. Overview of fluidization science and fluidized bed technologies// Scala F, ed. Fluidized Bed Technologies for Near-Zero Emission Combustion and Gasification. Cambridge: Woodhead Publishing, 2013: 3-41.
|