生物信息是一种特殊战略性资源,蕴含巨大经济社会价值。近年来,随着信息技术的广泛应用和生物信息资源价值的攀升,生物信息资源保障和应用管控能力已经上升到关系国家安全和社会安全的层次,生物信息技术开发能力关系国家科技安全和产业安全的水平。因此,必须高度重视生物信息资源的统筹管理和高效利用,综合生物技术领域其他安全关切,构建和实施包含生物信息在内的生物安全综合性国家战略和具体领域安全战略,加强生物信息安全综合治理。
1 生物信息是一种战略资源和潜在资产 1.1 生物信息是人类认识利用生物界的主要渠道生物信息是一个约定俗成概念,通常包含两类具有显著不同本源属性的生物数据:(1)生物体遗传信息。这是生物有机体携带的在漫长历史进化中所形成的具有历史特异性、地理特异性的演化信息,通常包括由DNA、RAN和蛋白质等生物大分子所携带的信息,是一种独立的客观存在,具体载体是各类序列数据,数据量通常在TB(太字节,240字节)级规模。(2)非生物体遗传信息。涉及描述生物体各种性状的其他各类数据和复杂衍生信息,是人类为理解、运用生命规律,在研究开发应用过程中通过各种工具、仪器和设备、人类推理能力,直接或间接观测、干涉生物有机体或其部分组分所获取的数据及衍生数据、资源,获取数据的类型和规模与工具方法相关,内在具有规模的无限性,主要类型包括各类生物实验研究数据、人体药物临床试验数据、健康管理数据和文献数据等,数量已突破EB(艾字节,260字节)级[1]。虽然性质不同,但这两类信息都从不同角度,反映了人类认识生物界的程度,也是进一步认识利用生物界的信息载体。目前,人类对生物信息的认识利用重心已经从生物遗传信息逐步转向非遗传信息大数据。
1.2 生物信息蕴含巨大价值生物信息产业是最具潜力的新兴产业之一。生物信息不仅与科研相关,也与人类社会和日常生活发展密切相关,在健康、环境、能源、农业、军事等相关领域具有广泛应用,蕴藏着巨大的军事应用价值、经济价值和社会价值。生物信息的许多研究成果可以很快产业化,成为价值很高的商品。例如,基于特定的生物有机体信息,不仅可以研发疫苗或药物,也可以研发具有特定军事防御用途的产品。人体的性状和功能受各种遗传信息控制,有论断指出“一条基因就可产生一个产业”。与此对应,生物信息的商业应用市场也如雨后春笋,国际上大型信息技术企业和大型制药企业内部的生物信息学部门的数量与日俱增,如IBM、微软、阿斯利康等,一些新兴公司也早已开始提供生物信息服务[2]。
1.3 生物信息爆炸性增长趋势带来发展新挑战由于生物信息蕴含巨大的价值,自人类基因组计划2003年成功完成以来,以美国为代表,世界主要发达国家纷纷投入巨资,启动了大规模的生命科学研究计划,如国际千人基因组计划、DNA百科全书计划、英国十万人基因组计划等,这些计划引领生物数据呈爆炸式增长。据Nucleic Acids Research杂志2014年的“数据库专刊”报道,在线分子生物学数据库收集网站已经收录1 552个分子生物信息数据库[3],而其他非在线数据库更是种类繁多。而且,随着新一代分子分析和高通量技术的发展,以及信息技术的泛在应用,可以预计这种生物信息爆炸性趋势还将持续很长一段时期。同时,在对大型、多尺度生物信息数据的存储、管理和运用过程中,也面临着各种类型的技术挑战和信息安全挑战,包括:维持大规模的本地生物信息副本性价比不高,成本快速增长;提供生物信息数据分析的计算能力受到限制;超大规模的生物信息数据传输不切实际;生物信息数据的生产合作和分享问题;生物信息数据隐私和生物信息数据安全性问题等[4]。这类挑战不解决,将直接影响生物信息的未来发展。
2 生物信息安全是国际社会高度关注的安全领域 2.1 对生物信息的资源掌握已经成为国际战略博弈领域的隐形疆域生物信息资源是各类综合开发利用的源头,涉及广泛的安全领域。国际上围绕生物信息资源领域的控制、隐形掠夺从来就未停止过,生物信息安全已成为国际战略博弈领域的新疆域。部分发达国家通过多种途径汇集各类生物资源和生物信息,并进一步形成专利或产品,以谋求高额利润或达到其他目的。
西方发达国家很早就开始了竞争,并在生物信息资源建设方面争相投入巨资,大规模采集生物信息、建设生物信息存储设施,加强对信息资源的所有权、掌控权。其典型代表是,以美国为主导投资近30亿美元的人类基因组计划。同时,美国、欧洲和日本等国在20世纪80—90年代相继成立了具有世界权威性、数据同步更新的国家级生物信息中心——美国国家生物技术信息中心(NCBI)(图 1)、欧洲生物信息研究所(EBI)(图 2)和日本DNA数据库(DDBJ),同时配以生物信息的免费共享政策为噱头,已经成为国际生物信息数据存储、交换、获取方面的核心机构,在保障本国生物信息资源安全方面发挥了关键作用。目前,NCBI收录数据库63个,支持软件59个,用于下载FTP站点与资源35个,涵盖的生物信息具有复杂性、广泛性、综合性、权威性和时效性,网站的日常用户数量已经突破400万,每天处理4 TB的输入数据,高峰时每秒点击7 000次[5],成为全球生物信息数据的“巨无霸”。
![]() |
图 1 美国国家生物技术信息中心(NCBI)的标识及数据使用情况 引自:美国国家医学图书馆(NLM)网站 |
![]() |
图 2 欧洲生物信息研究所(EBI)外观及主要数据库 引自:欧洲生物信息研究所(EBI)网站 |
同时,部分国家以国家政策,配合各种行业规则隐形调控生物信息的国际流动,变相进行“生物盗窃”。美国政府相关政策强制性要求生物医学领域政府经费课题完成后,必须将详细的研究数据提供给NCBI;或利用国际主流期刊发表论文规则或业内不成文的规定,要求在向这些国家主导的顶级刊物提交论文时必须配合提交生物信息数据,而且大都必须将数据递交到NCBI的数据库体系[6],进而调控生物信息数据的流动;或通过科研合作隐形掠夺关键生物信息资源,如与发展中国家科研单位合作,打着科学研究旗号,系统采集人体血样与体检、临床数据[7],这种行为引发国际社会强烈反应。
2.2 对生物信息的用途进行风险管控所面临形势日益严峻生物信息开发利用过程也伴随着各类不容忽视的信息用途问题,且部分问题变得日益突出。在理论上,基于精确的基因差异信息,就可以研制针对特定人类群体、特定种族或人种的选择性精准基因组武器[8]。基于重大烈性病菌的遗传信息,有可能重新合成已经灭绝病原体或者研制更具毒性、传染性更强的病原菌(图 3)。同时,生物技术快速发展、生物科技创新门槛降低,生物信息被恐怖分子、生物黑客谬用、滥用的可能性进一步增大。这些情况对未来国际生物安全形势造成潜在的严重且长期的负面影响。
为此,国际社会通过国际协调机制,建立信息传播协调框架,实施信息保密控制、信息技术手段等举措,在信息公开、获取、使用方面设立生物信息滥用多重防范机制。例如,相关国际协调机制包括国际生物军控多边进程、世界卫生组织(WHO)、《生物多样性公约》缔约方会议;许多重要微生物的基因信息,列入国家机密;对生命科学领域的保密信息、敏感但非保密信息,美国政府设计并不断完善一系列复杂的信息公开法律、政策、制度和豁免条款;科技出版界制定防范生物信息滥用的自控机制,如国际知名期刊Nature、Cell、Science和PNAS于2003年联合发布《科学论文发表和安全》声明[10]等;通过身份认证机制,限制人员访问数据行为,记录并回溯用户信息操作行为等。
2.3 大数据时代生物信息的隐私保护问题引起广泛重视隐私涉及个人价值和社会价值,实际上存在于所有信息应用领域,而在生物信息领域更加突出。由于开源与数据共享已经成为生物学研究重要的驱动力量,整合性生物信息数据,特别是纵向、随时间推移的数据,对于研究疾病和健康、理解社会和文化行为、预测未来资源需求、预防犯罪和其他事务等具有重要价值。但与此同时,由于在线数据的不断增长,整合和分析数据能力的不断提升,以及缺乏适当的保护机制将原始数据及其衍生信息进行隔离,隐私保护目前正经受严峻挑战[11]。
目前实际情况是研究人员只能保证不主动泄露生物隐私信息,而被动的或不自知的泄露是非常普遍的。对个人生物信息的不适当公开,将可能导致对个体或者群体的难以修复的伤害。有研究表明,一些高维度的遗传信息与数据在公布与共享后,能通过一些方法推理出参与某项基因组研究的个人身份,使得信息公开与共享所带来的隐私暴露风险大于其所带来的利益[12]。部分国际生物信息数据库运营商也以此为名,增加数据库使用的限制性条件[13]。随着人们对隐私问题特别是基因组隐私问题的关注,将来对一些重要信息的访问可能会受到限制,例如个人基因组数据。因此,必须尽可能地找到保证患者隐私的方法,这样才能在生物信息数据研究中获得公众的信任。
2.4 生物信息核心技术是保障生物信息高效利用和生物信息经济安全的主要手段生物信息的最终目标是使用,但对生物信息的利用水平取决于对生物信息核心技术的掌握程度。只有通过生物信息数据管理、集成、共享、分析、转化和标准化等核心技术,才能有效地将价值密度较低的生物信息转化为价值密度较高的信息和知识并迅速得到利用,从而使生物信息形成先进的生产力,这反过来也影响了生物信息在综合安全保障能力方面的价值实现。例如,美国国防部国防威胁降低局设立的“算法开发挑战赛”最后由两名生物信息学家和一名计算科学家组成的团队提交的名为“MetaScope”方案获得大奖。该方案赋予了美国陆军在有限资源背景下快速处理、分析生物序列数据的能力,显著提升了国防威胁降低局对生物威胁的诊断和处理水平。
当前,世界范围内对生物信息数据的研究和利用正进入高速发展时期,各主要科技强国新启动生物信息数据研究计划,发展生物信息核心技术,提升对生物信息的利用水平,以用促建,在应用中发现、解决对应的各类问题,其中的代表性计划是美国“从大数据向知识转化计划(BD2K)”。从技术研发布局看,美国重视生物信息共享政策与标准制定、分析方法与软件工具的开发;欧洲国家侧重于电子健康档案和生物数据的收录、整合与解析;亚太地区重视信息技术的开发,但整体相对薄弱。据不完全统计,当前已有生物大数据分析工具和系统上千个,其中半数以上为美国科学家和研究机构开发[14]。与生物大数据相关的主要尖端技术,如Apache Hadoop、NoSQL、语义Web技术等也相应进入快速发展时期。
3 我国生物信息安全面临复杂形势与挑战 3.1 整体安全意识淡薄,资源安全面临可持续发展挑战我国具有较好的生物信息资源工作基础和巨大开发潜力,但整体安全意识淡薄,目前我国生物信息资源存储与利用渠道均严重依赖于国外,生物信息的所有权和掌控权受到严重制约。
在生物信息的资源产出方面,人类基因组计划实施以来,中国对生物数据资源的国际贡献日益增大,数据规模已经达到EB级[15, 16]。华大基因已成为世界上最大的测序中心;在蛋白质组学方面,以军事医学科学院为代表的一批研究中心和研究组参与了多个国际项目,在世界上占有举足轻重的地位;在健康信息领域,我国正在建设越来越多的大型队列,现代医疗诊断、干预数字设备及移动监护设备的发展使医疗数据的产生速度呈指数增长。
但在信息资源的存储和流动方面,整体安全意识淡薄。虽然从单个机构、部门来看,生物信息资源的保存和流动受到重视,建有不同规模的专属、专业数据库,然而仅用于支持单位、部门操作层的业务活动。出于个体利益,我国部分单位的内部生物信息资源甚至有对内封锁、对外开放的不正常现象。关键问题是,从整体看,我国尚未有自主的国家级生物信息中心和综合性数据平台,生物数据分散保存,尚未形成系统性的信息资源。而且,许多生物数据处于“出口转内销”的模式,科研数据提交到国外数据库,需要数据时又不得不从国外数据库下载,生物信息资源自由地流向国外。对于这种不加辨别的生物信息缴存处理方式,特别是对于我国已出现的民族基因信息向国外流失的现象,必须保持高度警醒。
在信息资源的利用渠道方面,我国生命科学研究人员高度依赖国际生物信息数据库建设机构所提供的服务。国外有些生物信息数据库虽然对学术机构免费开放,但已开始向商业性用户收取费用。如,世界上权威的代谢通路数据库KEGG,其使用费为每年5 000美元;人类疾病相关变异数据库HGMD,其年费是3 725美元;药物基因组变异与药物反应数据库PGMD,年费也达3 735美元[17]。这些生物信息资源无偿使用或者有偿限制性使用的状况还能维持多久,存在众多变数,前景难测。如果因为政治、经费或其他原因,这些生物信息数据库资源对中国研究人员临时或永远关闭,必将会对中国生命科学事业产生极大的影响。例如,2013年,美国政府关门两周,导致我国生物医学从业者依赖度甚高的NCBI网站也随之暂停更新[18],给我国生物信息界敲响了一个警钟。
3.2 生物信息使用权政策不明,国内共享管理规范规则缺失,受制于国际标准和规则相对于我国在生命科学数据产出和数据使用方面的国际大国地位,目前生物信息数据资源的使用权不明,生物信息数据标准不完善,业内公认的数据共享与管理的标准规范规则制定实施缺失或滞后,生物信息管理和综合治理水平相对较低,使其绝大多数生物信息数据散布在各个单位和个人手里,难以流通实现内在价值。同时,我国对生物信息资源共享的国际贡献没有得到充分的肯定,而大型生物信息机构立项建设错失20世纪末到21世纪初20年间的战略机遇期,能够代表我国生物信息综合发展水平的组织缺乏,加上数据共享与管理的标准、规范、规则制定的高门槛,综合导致我国在国际舞台上对重要生物信息数据库的管理共享和利用规则或标准制定上缺乏发言权、话语权和主导权,这些因素也严重影响着我国对生物信息的整合和利用。
国内科技界已经意识到这类问题的重要性与迫切性。生物信息数据共享与管理的标准规范规则已经受到业内广泛重视。大型生物信息机构立项建设方面,我国科技界在向国家报送国家生物信息学中心建设的建议书的同时,由国家发展和改革委员会等部门批复建设的国家基因库已经投入建设(图 4),预计2017年底完成国家基因库二期建设后,基因信息数据存储支持能力可达500 PB(拍字节,250字节)以上[19],将显著提升我国在生物信息国际规则制定方面的竞争力。
![]() |
图 4 深圳国家基因库介绍 引自:深圳国家基因库网站 |
我国对生物信息和生物技术谬用研究及恶意研究比较重视,制定了行为准则以及生物安全管理制度等[20]。但是对有关从业人员日常活动和信息管理的管控还存在措施落实不到位,导致部分人员对敏感信息的处理比较自由随意等问题。部分科研人员以学术研究为名,借助生物信息技术,开展对具有重大生物安全风险的未知领域的探索,如遗传改造和人工合成病原微生物,因此也存在一定的生物信息谬用滥用风险。另外,患者个人隐私泄露情况时有发生。2014年5月,国家卫生计生委印发《人口健康信息管理办法(试行)》,对涉及国家秘密的人口健康信息系统,明确要求按照国家涉密信息管理要求进行分级保护,杜绝泄密。
3.4 生物信息技术发展和商业化开发水平较低,影响生物产业安全与美国等科技发达国家相比,目前我国生物信息技术发展还处于较低水平。更有专家指出,我国生物信息技术与国际前沿水平相差至少30年[1]。我国生物大数据技术研究以点为主,缺乏系统性的技术体系建设,难以构成完整配套的生物大数据分析、管理、利用和服务技术体系,数据分析构架、软件系统与先进的IT技术接轨能力偏弱,成为制约我国生物大数据资源利用水平提升的主要原因之一。同时,虽然也有一批生物信息技术专业研究队伍,达到或接近国际先进水平,如军事医学科学院、上海生物信息技术中心、哈尔滨工业大学生物信息技术中心等,但相比先进国家依然整体偏弱。上述因素使我国在生物信息核心技术及系统的发展上面临瓶颈,并长期处于较低的研发水平,直接影响生物产业安全。
值得注意的是,我国生物信息技术研发应用的大发展已经拉开帷幕。我国已经投资1.8亿元部署“863”项目“生物大数据开发与利用关键技术研究”,涉及的内容包括生物大数据标准化和集成、融合技术,生物大数据表述索引、搜索与存储访问技术等。
4 提升我国生物信息综合安全能力的建议 4.1 加强生物信息安全的综合治理包含生物信息在内的生物技术领域涉及各种安全关切,我国应综合各种安全关切,构建和实施包含生物信息在内的生物安全综合性国家战略和具体领域安全战略。在生物信息安全领域,一方面,要加强生物学信息资源的综合保护和管理,另一方面,需要通过标准和规范,以开放心态参与国内、国际竞争和合作。此外,还需要调动多方积极性,共同参与生物信息数据产出、存储、挖掘和综合利用,共享生物信息内在价值。
具体而言,需要围绕生物信息的产生、存储、流动、应用各个环节,实施精准政策和措施,保障生物信息的整体安全。在保障核心生物信息的源头安全方面,由政府部门牵头,建立生物信息传播协调管理框架和信息安全保密检查审查机制,杜绝敏感和保密生物信息的随意采集、泄露;学会和行业协会参与,进一步完善行业行为准则和制度,形成隐私信息泄露惩处合力。生物信息资源存储和共享方面,由政府部门牵头,以学术界为主体,产业界参与,积极推进建立国家级生物信息中心,建立生物信息的收集、管理、整编标准和规范,统筹管理国家生物信息战略资源。信息资源流动方面,组建代表国家生物信息学术产业界的协商机制和平台,积极融入国际协调机制,配合行业自律机制和技术手段,有效维护生物信息数据自主权。综合应用方面,以科研机构和产业研发力量为主体,实施重大项目,集中突破生物信息核心技术,培养一大批专业的生物大数据人才。加快生物信息产业的全面发展,以发展带动生物信息安全管理完善。
4.2 统筹各方资源,优化生物信息资源建设和开发利用的政策资金投入充分利用生物大数据时代的战略机遇期,整合生物信息存储基础设施政府科技财政投入,弥补生物信息资源建设历史“欠账”,建设新型国家生物信息中心或云中心。政策引导,构建与IT产业界、生物健康产业界融合的生态体系,打通生物信息科研与转化应用链条,将生物信息潜在价值转化为真实价值,引导战略投资者的科技投入。需要特别指出,生物信息的综合开发需要高端复合型人才,国际上在生物信息的综合投资中对人才资源投资占比可达80%以上,我国需要安排专项基金,有针对性地重点引进、培养一批高级生物信息技术人才。
4.3 强化保障生物信息安全的科技部署面向我国生物数据汇集、管理、共享与利用的重大需求,重点突破生物数据质量控制、集成融合、索引组织、存储管理、搜索访问、数据可视化、分析建模、知识库构建等生物信息技术的开发与利用关键技术。面向生物大数据发展趋势,加强生物大数据理论研究,构建生物大数据国家技术研究中心,提供和完善计算设施、数据分析构架、软件系统、数据存储融合建模和挖掘分析技术。在对接国际已有生物数据标准的同时,积极构建我国生物信息和健康数据标准。
[1] | 吴红月.生物大数据:中国能否与世界同步?科技日报,2014-02-26(1). |
Click to display the text | |
[2] | 王小理,阮梅花,王玥,等.生物信息技术国际发展态势分析.国际科学技术前沿报告2013.北京:科学出版社,2013: 113-120. |
[3] | Nucleic Acids Research.NAR Database Summary Paper Alphabetic List.[2016-01-29].http://www.oxfordjournals.org/our_journals/nar/database/a/. |
Click to display the text | |
[4] | NCI.NCI Cancer Genomics Cloud Pilots Concept.[2014-11-05].https://cbiit.nci.nih.gov/docs/nci-cancer-genomics-cloud-pilotsconcept. |
Click to display the text | |
[5] | 李勤.生物大数据的国际趋势.[2016-01-29].http://observation.biotech.org.cn/Show/top/sj_detail10/. |
Cited By in Cnki | |
[6] | 张懿.莫让数据封闭“锁”住创新,专家建议加快组建国家级生命科学数据共享平台.文汇报,2013-07-13(1). |
[7] | 刘磊.可能影响我国基因安全的若干问题及对策.国际技术经济研究,2003,6(2): 39-44. |
Cited By in Cnki | |
[8] | 张晓莹,郭继卫,周志坚.“军事生物安全”的理论研究.军事医学,2011,35(1): 12-16. |
Cited By in Cnki (5) | |
[9] | Valdivia-Granda W A.Bioinformatics for biodefense: challenges and opportunities.Biosecurity and Bioterrorism: Biodefense Strategy,Practice,and Science,2010,8(1): 69-77. |
Click to display the text | |
[10] | Science.Statement on Scientific Publication and Security.[2016-01-18].http://www.sciencemag.org/site/feature/data/security/statement.pdf. |
Click to display the text | |
[11] | PCAST.PCAST Assesses Federal Information Technology R&D.[2015-08-16].https://www.whitehouse.gov/blog/2015/08/07/pcast-assesses-federal-information-technology-rd. |
Click to display the text | |
[12] | Laura L R,Lisa D B,Judith H G,et al.The complexities of genomic identifiability.Science,2013,339(6117): 275-276. |
Click to display the text | |
[13] | Natasha G.Researchers criticize genetic data restrictions.[2013-01-18].http://www.nature.com/news/2008/080904/full/news.2008.1083.html. |
Click to display the text | |
[14] | 王庆.生物大数据:美国带给我们哪些启示.[2015-12-25].http://observation.biotech.org.cn/Show/top/sj_detail15. |
Cited By in Cnki | |
[15] | 王庆.生物大数据亟待收集管理共享挖掘.[2015-12-25].http://observation.biotech.org.cn/Show/top/sj_detail13. |
Cited By in Cnki | |
[16] | 张旭.大数据:生物学变革新契机.北京:科学出版社,2015. |
[17] | 郑金武.大数据:生物医学变革新契机.中国科学报,2014-12-09(8). |
[18] | 观察者.美国政府停摆打击中国生命科学中国需自主“国家生物信息学中心”.[2015-12-25].http://www.guancha.cn/Science/2013_10_21_180103.shtml. |
Cited By in Cnki | |
[19] | 南方网.推进国家基因库建设创建珠三角国家大科学中心.[2015-12-25].http://tech.southcn.com/t/2015-08/05/content_130038622.htm. |
Cited By in Cnki | |
[20] | 郑涛,黄培堂,沈倍奋.当前国际生物安全形势与展望.军事医学,2012,36(10): 721-724. |
Cited By in Cnki (6) |