一种新型信息基础设施:高通量低熵算力网(信息高铁)
徐志伟 , 李国杰 , 孙凝晖     
1. 中国科学院计算技术研究所 北京 100190;
2. 计算机体系结构国家重点实验室 北京 100190;
3. 中国科学院大学 计算机科学与技术学院 北京 100049
摘要:人类正在进入一个“人机物”三元融合的万物智能互联时代,需要一种新型信息基础设施,即全球规模的高通量低熵算力网,形象地简称为“信息高铁”。文章介绍了信息高铁的愿景,包括基础性需求、关键科学技术问题和系统结构。与互联网、云计算、大数据、物联网等现有网络计算系统相比,信息高铁的目标是原生支持“人机物”三元融合和低熵有序,降低系统无序的负面影响,提升系统通量与应用品质。
关键词“人机物”融合系统    低熵算力网    高通量计算    受限尾行为    智能流    
Information Superbahn: Towards New Type of Cyberinfrastructure
XU Zhiwei, LI Guojie, SUN Ninghui     
1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;
2. State Key Laboratory of Computer Architecture, Beijing 100190, China;
3. School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 100049, China
Abstract: The world is entering a new era of human-cyber-physical ternary computing with diverse intelligent applications over trillions of devices. This calls for a new type of cyberinfrastructure characterized by a planet-scale, high-goodput, low-entropy computing network, colloquially named Information Superbahn. This article highlights the vision of Information Superbahn, including fundamental requirements, key scientific problems, and a candidate system architecture. The goal of building the Information Superbahn is to natively support human-cyber-physical systems and low-entropy computing modes, to reduce the effects of systems disorder. Compared with existing network computing systems, such as Internet, cloud computing, big data and Internet of Things, Information Superbahn aims to achieving higher system goodput and application quality of service.
Keywords: human-cyber-physical systems    low-entropy computing network    high-goodput computing    constrained tail behavior    intelligence flow    

信息基础设施(cyberinfrastructure),是指承载各种信息应用的系统平台,包括由终端设备、网络、服务器等基础软硬件构成的网络计算系统。中国科学院2009年发表了《中国至2050年信息科技发展路线图》战略研究报告[1, 2]。在12年后,该报告提出的信息基础设施发展趋势变得更加清晰,即从现在至2050年,世界将兴起一种新型信息基础设施——高通量低熵算力网(high-goodput, low-entropy computing network),被形象地简称为“信息高铁”(Information Superbahn)。

现有的互联网、云计算、大数据、物联网等网络计算系统有1个共同点:系统平台提供尽力而为的基础设施,由应用开发者降低各种无序波动,保障用户体验。区别于现有网络计算系统,信息高铁有2个显著特征:①在基础设施层提供对低熵有序性质的支持,降低各种无序混乱对用户体验的负面影响,从而显著提升应用品质、系统通量、系统效率;②原生支持“人机物”三元融合,适应智能万物互联时代的各种应用。然而,这2个新特征难以通过现有系统的延续式增量优化实现,需要研究新的系统结构、抽象与方法。

1 万物智能互联时代对新型信息基础设施的需求

万物智能互联时代对信息基础设施提出了新需求。信息高铁在计算模式、计算性能、用户体验、应用效率4个方面的新需求较为鲜明突出,即信息高铁应支持“人机物”模式、高通量性能、高品质体验,以及全生命周期效率。

1.1 “人机物”三元融合的计算模式

不同于图灵机等理论计算模型,计算模式是指贯穿从理论到应用的全栈使用模型与执行模型,如交互式计算、云计算、图计算等。计算模式在历史上出现了4个时代与3次大的变迁:①手工计算时代(数千年前至今),如人使用算盘求两数之和;②计算机一元计算时代(1946年至今),如超级计算机求解方程组;③ “人机”二元计算时代(2000年至今),如构建视觉数据集ImageNet;④ “人机物”三元计算时代(正在开始),尚无鲜明完整实例。

在跨度数千年的时间里,人类(人)使用算筹、算盘、纸和笔等原始计算工具(机)实现计算过程。这种手工模式每一微小步骤都需要人工操作,速度太慢,在20世纪被数字电子计算机自动执行整个计算过程的一元计算模式替代。“手工计算”向“计算机一元计算”的变迁引发了当代计算机革命。

21世纪初发生了“计算机一元计算”向“人机二元计算”的模式变迁[3, 4]。一个例子是李飞飞和李凯团队的ImageNet基准测试集构建项目。通过云计算工具,他们在全球雇佣了数千普通人来人工标注几百万张图片,将预计19年才能完成的“构建ImageNet知识本体”的计算过程缩短至不到3年时间。

从现在到2050年期间,将产生以“人机物”三元计算为特征的计算模式变迁,即“计算机一元计算”与“‘人机’二元计算”向“‘人机物’三元计算”变革;出现各种“人机物”三元融合的计算系统;人、机、物将成为计算过程的执行主体和对象客体。简而言之,人类社会、信息空间、物理世界都会成为计算系统的模块集合。

1.2 高通量的计算性能

“人机物”三元融合的一个趋势是信息基础设施覆盖的信息设备数量将大幅增加,进而出现万亿设备新世界[5]。其中,绝大部分设备将是面向物理世界的物端设备,而不是桌面电脑和智能手机等人端设备。与包含数十亿设备的现有互联网相比,这些数以万亿计的信息设备将产生数量级增长的并发任务,需要信息基础设施数量级提升任务吞吐率(throughput)。“李特尔定律”(Little’s Law)可能会取代“摩尔定律”(Moore’s Law),成为未来信息系统的重要指导原理[6]。信息高铁强调低熵有序,追求的是高通量计算(high-goodput computing);其性能指标是通量(goodput),即保质任务吞吐率,也就是单位时间完成的保质任务数。

① 由约翰·利特尔在1954年提出,即系统处理任务时,吞吐率=并发度/ 延迟。

② 英特尔创始人之一戈登·摩尔的经验之谈,其核心内容为:单位面积的集成电路上可以容纳的晶体管数目在大约每经过18个月便会增加1倍。

借鉴半导体芯片制造业的良率(yield)概念,可定义信息高铁的良率,即为:

因此,信息高铁的通量为:

类比交通业,保质任务可看作高铁中准时到达目的地的乘客,那么保质任务集合即为总任务集合中去除下列非保质任务,包括非载荷任务(司机和乘务员)、未完成任务(未到目的地就下车的乘客)、重复任务(上错车乘客),以及不满足用户体验的任务(高铁延误的乘客)。

1.3 高品质的用户体验

过去20年,中国互联网应用取得了长足发展,一个重要经验是业界实践了一条基本原理:用户体验不佳的功能是不存在的功能。例如,微信应用系统实现了每条微信消息在数据中心多副本备份且读写延迟小于数十毫秒的指标,用以保障“微信消息瞬时可靠传递”的用户体验。信息高铁需要继承这条原理,并在基础设施层提供支持,限制用户体验的无序波动和混乱行为。

特别需要发展有助于保障“受限尾行为”的平台技术,因为信息高铁中的计算任务并不需要100% 的都是保质任务。受限尾行为涵盖高品质的多类指标,如功能、性能、适应性、安全性等。典型需求例子包括:99.9百分位的任务低成本完成;99.99百分位的任务按时完成;99.999百分位的任务产生正确结果;99.9999百分位的任务满足隐私保护法规……

1.4 全生命周期的应用效率

《中国至2050年信息科技发展路线图》报告指出,中国将在2035—2050年期间进入中高级信息化社会。信息基础设施必须支持中高级信息社会应用模式的各种新形态。传统模式是安装一套应用软件,然后稳定使用数年,但这种模式的占比只会越来越小。未来的常态将是众多网络应用服务系统不断涌现且快速迭代升级,以满足不断变化的价值创新与业务运维需求,及安全隐私保护与合规监管要求。

因此,信息高铁的应用效率强调全生命周期效率,涵盖设计研发效率、运行效率、部署运维效率、性能功耗比(能效)等。由于“摩尔定律”放缓,需要更大力度探索系统结构和软件栈创新、从元器件到应用层的跨层协同设计、贯穿生命周期的敏捷过程与工具。美国国防部高级研究计划局(DARPA)已经提出了能效为每瓦每秒3千万亿次运算的前瞻目标[7]

2 信息高铁的关键科学技术问题

构建和使用信息高铁这样的新型信息基础设施必须解决计算机科学技术领域的新问题。文章简要讨论了信息高铁的4类关键科学技术问题及其相关研究(图 1)。最基本的问题是研究信息高铁的新型系统抽象,有效地支持各类信息高铁应用。这些新抽象合起来在计算模式、体系结构、编程运维3个方面提供原生融合“人机物”、无缝衔接端边云和敏捷开发业务体的新能力。

图 1 信息高铁的关键科学技术问题 Figure 1 Key research problems of Information Superbahn
2.1 原生支持“人机物”三元融合的计算模式

计算机科学技术发展数十年来,主要的方法论是将人类社会和物理世界的各种特定问题在图灵机或冯· 诺依曼机之类通用数字计算机上建模,并通过编程和通用计算找到对该特定问题的解答。这是一种行之有效但绕了一圈的非自然方法论,有其一定的固有内生开销。然而,每一个特定的“人机物”应用都有特定需求,并不总是需要使用通用图灵机的最坏情况思维。Kelly将传统方法论的“特定→通用→特定”映射的固有开销称为“图灵税” [8]。进一步,我们认为“图灵税”还包括了“人机物” →机→“人机物”映射的固有开销。因此,降低“图灵税”是实现高通量计算的重要途径。例如,图灵计算模型要求在计算过程开始前将输入数据和状态转移表放入通用图灵机的输入纸带,图灵机停机时计算结果则已放入输出纸带。若使输入数据、状态转移表、输出数据在“人机物”三元世界中更自然地原生变换,那么信息高铁就成为“人机物”作为原生对象、“人机物”提供算力的计算网。这大不同于传统计算机网络,其本质上是通信网,并由计算机提供算力。

Kuppe等提出的行动时序逻辑(TLA)近年来在云计算和大数据系统中得到了越来越广泛的应用,但TLA的更深刻本质是一种“人机物”状态机。原生刻画“人机物”三元计算过程还涉及一个本质的矛盾,其既需要刻画人类社会和物理世界无所不在的原生模拟量现象,又需要继承数字计算的优点。Platzer[9]最近提出了微分动态逻辑(differential dynamic logic),能够刻画包含诺特环的微分方程的逻辑不变性,是对实现“人机物”三元计算的有益探索。

③ Kuppe M A, Lamport L, Ricketts D. The TLA+ toolbox.Proceedings Fifth Workshop on Formal IntegratedDevelopment Environment. (2019-12.23)[2021-01-10]. https://arxiv.org/abs/1912.10633.

从应用角度看,“人机物”原生融合的一个表现是计算过程与人类生产生活的业务过程自然融合,产业界有时称为信息技术与操作技术融合(IT+OT)。这方面的一个初步例子是中国正在实施的数字人民币试点。货币从以前的铜钱、银币进化到纸钞,变为现在区块链技术支撑的数字,同时也并未破坏原有的货币属性与业务过程。

2.2 无缝衔接端边云子系统

信息高铁不是替代信息高速公路,而是在现有网络计算系统的巨人肩膀上创新;其更高效地无缝衔接人端设备、物端设备、边缘计算和云计算子系统,包括遗产系统和新出现的业务形态、应用框架、基础软硬件、数据组织、知识结构、管理策略和治理法规。信息高铁的系统结构需要有2个特征:①高效协调信息高铁的低熵有序性与现有系统的灵活性;②前瞻支持未来信息社会的业务与技术多样性。万维网的表象状态转移(REST)体系结构十分值得借鉴,它站在因特网巨人肩膀上创新,应对了衔接新旧系统、前瞻支持多样性的问题。

④ 基于网络互连协议(IP)的互联网。

信息高铁系统结构面临的新挑战包括5个方面:①如何无缝衔接信息高铁与信息高速公路;②如何支持万亿级异构设备;③如何在高载荷条件下保障用户体验;④需要什么样的系统抽象,让用户管控人工智能“不作恶”;⑤如何支持软件性能工程,挖掘现有软件栈5个数量级的性能提升潜力[10]。面对这些挑战,其中一个研究方向是将领域特定体系结构升级为问题特定体系结构,并定制高效大构件[10]。例如,为了降低不必要的依赖与协调开销,可给业务问题添加合理的规矩,发展“少写”执行模型,大幅度减少运行时可写变量的影响范围。这些相关工作的理论基础包括支持“零协调”的逻辑单调性的一致性定理(CALM定理)等[11]

2.3 敏捷开发高品质业务体

“人机物”三元融合的智能万物互联时代将产生众多应用业务形态和执行模型,需要重新审视基本计算过程类别。在过去数千年的时间里,计算过程仅限于运算流,即每一步完成一个算术运算的计算步骤顺序执行。例如,Ada Lovelace在1843年发表的史上第一个计算机程序包含36行指令,每条指令仅是一个加减乘除运算。直到1946年数字电子计算机诞生之后,计算过程才增加了体现程序控制结构的控制流,如条件转移、循环、函数调用(包括递归调用)等编程抽象。随着计算机网络及并行分布式系统的诞生,计算过程又增加了体现网络思维的消息流。今后,万物智能互联时代将为计算过程添加智能流抽象。

智能流抽象的具体形态尚在研究中,但总体上应该继承云计算系统敏捷开发的快速原型、快速试错与快速升级优点,再进一步增加更加高级的抽象,实现智能基础设施(intelligent infrastructure)[12]。智能流抽象需要满足3个设计原则。①支持专业到行业的整合。大量业务问题是行业问题,其应用软件需要整合多学科专业资源,实现特定的行业解答。②强化部分规约(partial specification)。现有应用软件主要是由人完全编写的,往往会出现过度规约现象(over specification),还需由完全规约向部分规约的转型,提升业务体的自适应性。③强调规则和有序。智能流应将敏捷开发云计算应用的“开发运维一体”(DevOps)方法拓展到低熵有序的端边云应用,从而进化为“开发运维安全一体”(DevOpS)方法。

⑤ 其中大写的S代表大安全(Security)概念,涵盖安全防护、隐私保护、依法监管等应用需求。

3 信息高铁的系统结构设想

信息高铁的发展应借鉴互联网和云计算的发展经验,科研工作要结合现场试验与社区建设,从而实现快速试错与迭代发展[13]。为此,我们提出一个初步的由4层抽象构成的信息高铁系统结构(图 2)。

图 2 信息高铁的一种运行时架构简图 Figure 2 Runtime architecture of information superbahn

(1)赋名资源。包含各种“人机物”主体与客体资源,如用户、硬件、软件、数据、模型、知识、过程、物理世界资源。这些可以是池化与非池化资源,在开发运行时某些阶段可为匿名。但是,资源本质上都在系统中有实名,以便调试与追责。

(2)控域。资源来自信息高铁或现有系统,包含无序的资源使用。控域规定一组资源及其使用策略,将该范围内的资源时空变得有序。同时,控域的设计与部署应该提供足够的应用灵活性。这就像交通高铁中的“列车班次”“提前购票”“凭票上车”“按号入座”。

(3)网程。网程将操作系统的进程概念拓展到“人机物”端边云系统,是信息高铁应用程序(业务体)的运行时抽象。信息高铁系统通过网程实现对业务体的全生命周期管理。

(4)业务体。业务体是高品质行业应用软件的系统抽象。来自“人机物”的计算任务通过“请求—响应”等方式访问业务体。业务体抽象应有3点益处:①通过显式或隐式接口整合多学科新旧资源;②集中刻画业务本质,尽量由“人机物”自动生成或补全执行代码,以及相关数据和元数据;③充分利用高级抽象转换技术,如各种应用框架。现有编译器将高级语言程序转换为可执行代码,未来的编译器和解析器将转换程序、数据、上下文、“人机物”环境等。

4 未来的信息基础设施

未来的信息基础设施既要延续和发展目前具有广泛普及性和便利性的信息高速公路,又要满足高品质用户“可测、可调、可控、可信”的高吞吐率和高良率的新服务要求;既要通过卫星通信实现无论何时何地全覆盖,又要借助人工智能技术实现网络的自适应性和个性化。因此,未来的信息基础设施一定是多种网络形式的无缝链接和协同配合。信息高铁是不可或缺的组成部分。“信息高铁”这一别名为了继承“信息高速公路”的说法以形象地称谓“高通量低熵算力网”,但其并不能全面地表达高通量低熵算力网的特性。这种新的信息基础设施不仅具有高铁交通系统一样准时可控的特点,还具有较强的自适应性,可满足不同用户的高品质服务需求;同时,与交通系统类似,通过“换乘站”等设施,信息高速公路和信息高铁可以实现便捷的“换乘”。整体而言,信息高铁是一个可以统一控制、灵活调度的整体。

过去的信息高速公路本质是数据网,而信息高铁是一个通用网络计算平台,本质上是高效、可控、智能化的大规模分布式计算系统。每一个信息高铁的应用系统,可以看成是业务专列,即一个领域专用、甚至个人专用的网络计算系统。“网络切片”是5G通信和未来网络的重要技术,核心思想是将一个物理网络切割成多个虚拟的端到端网络,每个虚拟网络都可获得逻辑独立(不是物理上独立)的网络资源,且各切片之间相互隔离。信息高铁要实现虚拟网络到物理网络的映射,但不能将信息高铁简单地理解为把网络划分成千上万个切片,供不同的用户分别使用。如果走线路交换的老路,让切片成为网络中的一条线路,可能会导致平均延迟上升几个数量级,这是完全不可接受的。信息高铁需要采用最新的分布式计算技术,许多还在攻关突破阶段。TLA对发展分布式系统有重要的作用,谷歌、微软、亚马逊等大公司目前都在大力培养TLA方面的人才。

我国电信部门虽然尚未提出要建信息高铁,但提出了基于软件定义网络/网络功能虚拟化(SDN/NFV)的第4次网络架构变革、跨越物理和虚拟两个网络的生命周期服务编排(LSO)、实现跨域高层智能联网的随愿网络和云网融合等,这些与信息高铁的目标基本上是一致的。电信运行商也在开发确定性网络(DetNet),重点是尽力而为地提供更高水平的服务质量(QoS),主要关心最坏情况下端到端的延迟,但难以支持高通量应用的(百分位)实时性。确定性网络的目标也是信息高铁的重要应用场景。信息高铁的基础设施应能动态地感知负载与“人机物”环境的变化,以及软硬件技术栈的运行时状态,及时优化自身以适应负载和环境。目前的网管模式基本上是手工配置业务,导致业务开通流程复杂、耗时长,因此特别需要构建灵活、颗粒化和快速响应的网络架构。我们提倡的信息高铁也是商用网络架构升级换代的主要方向之一。

参考文献
[1]
中国科学院信息领域战略研究组. 中国至2050年信息科技发展路线图. 北京: 科学出版社, 2009.
Li G. Information Science & Technology in China: A Roadmap to 2050. Berlin: Springer, 2011.
[2]
Xu Z W, Li G J. Computing for the masses. Communications of the ACM, 2011, 54(10): 129-137. DOI:10.1145/2001269.2001298
[3]
Von Ahn L, Maurer B, McMillen C, et al. reCAPTCHA: Human-based character recognition via web security measures. Science, 2008, 321: 1465-1468. DOI:10.1126/science.1160379
[4]
Deng J, Dong W, Socher R, et al. ImageNet: A large-scale hierarchical image database//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009, 248-255.
[5]
Perry T S. The trillion-device world. IEEE Spectrum, 2019, 56(1): 6. DOI:10.1109/MSPEC.2019.8594775
[6]
Little J D C. Little's Law as viewed on its 50th anniversary. Operational Research, 2011, 59(3): 536-549. DOI:10.1287/opre.1110.0940
[7]
Chen Z, Dongarra J, Xu Z. Post-exascale supercomputing: Research opportunities abound. Frontiers of Information Technology & Electronic Engineering, 2018, 19(10): 1203-1208.
[8]
Edwards C. Moore's Law : What comes next?. Communications of the ACM, 2021, 64(2): 12-14. DOI:10.1145/3440992
[9]
Platzer A. Logical Foundations of Cyber-Physical Systems. Cham: Springer, 2018.
[10]
Leiserson C E, Thompson N C, Emer J S, et al. There's plenty of room at the top: What will drive computer performance after Moore's Law?. Science, 2020, 368: 9744. DOI:10.1126/science.aam9744
[11]
Wu C, Faleiro J M, Lin Y, et al. Anna: A KVS for any scale. IEEE Transactions on Knowledge and Data Engineering, 2021, 33(2): 344-358.
[12]
Jordan M I. Artificial intelligence—the revolution hasn't happened yet. Harvard Data Science Review, 2019. DOI:10.1162/99608f92.f06c6e61
[13]
王晓虹, 王卅, 唐宏伟, 等. 构建"新基建"国家战略的技术底座——"信息高铁"综合试验场建设的实践与思考. 中国科学院院刊, 2021, 36(9): 1066-1073.
Wang X H, Wang S, Tang H W, et al. Building substrate for national strategy of new infrastructure construction—practice and thought of information superbahn testbed. Bulletin of Chinese Academy of Sciences, 2021, 36(9): 1066-1073.