登录窗口
作者登录 审稿登录 编辑登录 读者登录
订阅 | 旧版入口 | English
 
  • 首页
  • 期刊简介
  • 编委会
  • 作者投稿
  • 订阅指南
  • 联系我们
  • 过刊目录
首页>战略与政策>构建多元化的人工智能训练数据供给体系
构建多元化的人工智能训练数据供给体系
发布时间:2025-01-17   
   来源:光明日报   作者:赵精武
点击数量:209次

数据作为数字时代的“新石油”,不仅是传统产业、新兴产业发展的重要支撑,同时也是人工智能科技创新的关键创新资源。

现阶段,人工智能产业发展面临的最突出、最迫切的困境,便是训练数据供给不足。随着网络空间已公开数据资源趋于“消耗殆尽”,人工智能产业愈发需要专业化程度高、领域属性强的高质量数据来提升算法模型性能。因此,建构我国人工智能法治保障体系的一项核心目标,便是形成多元化的训练数据供给体系,以满足不同规模企业的训练数据使用需求,推动算法模型性能朝着专业化方向升级。而构建多元化的人工智能训练数据供给体系是一项系统性工程,只有通过持续拓宽数据采集渠道、扩大数据流动范围、提高数据质量要求,才能为人工智能产业注入源源不断的创新动力,实现高质量发展。

健全多源头数据采集机制,拓展数据广度。在实践中,人工智能企业获取训练数据的方式主要包括网络爬虫抓取已公开数据、使用开源数据集、购买数据产品等。整体而言,数据采集方式较为单一,难以满足相关产业对训练数据质量的基本需求。若想扩展训练数据获取广度,需要在以下两个层面实现数据采集机制的延伸:一是在数据采集行为合法性方面,以类型化列举、监管实践指南等方式明确训练数据来源合法性的常见类型,以消除企业业务合规担忧;二是在数据市场供给形式方面,深入探索公共数据的开放利用模式,降低中小企业获取高质量训练数据的市场门槛,整合数据交易基础制度,拓展可交易数据产品的质量和类型。具体而言,公共服务部门在长期社会公共服务过程中积累了海量高质量数据,但由于数据安全和数据使用收益归属不明等现实因素,此类公共数据面向人工智能产业的开放使用制度还需进一步深入探索。以交通部门为例,实时路况数据不仅可以提供实时交通拥堵情况报告,在人工智能技术加持下,还可以预测性地分析未来时间段交通流量情况、交通事故发生概率等。科研机构也积累了大量专业性较强的科学数据,如医学研究机构的临床病例数据,经由科学化整理和标准化处理,能够在医疗影像诊断、传染病防控等领域发挥重要作用。这些潜在的数据“富矿”,仍有待配套的法律制度予以松绑和深挖,进而形成层次化的数据采集渠道。

建构高质量数据标注机制,挖掘数据深度。对于训练数据,既有数量上的要求,更有质量上的要求。训练数据的精确性、一致性、时效性等技术指标,直接影响着人工智能性能能否提升。以医疗影像识别为例,若是存在训练数据将正常细胞标识为癌变细胞、同一细胞多次标注为不同信息内容等情况,那么这些质量堪忧的训练数据只会“污染”人工智能性能,进而严重危害患者生命健康。国家网信办等七部门2023年发布的《生成式人工智能服务管理暂行办法》也专门要求在人工智能技术研发过程中,服务提供者应当制定符合本法要求的“清晰、具体、可操作的标注规则”。因此,合理科学的数据标注规则是保障训练数据质量和避免算法歧视的重要环节。在数据标注方式上,应当以“人机协作标注”为主要方式。技术研发者和服务提供者虽然可以通过批量自动化处理系统对各类数据资源进行高效批注,但潜在误差标注风险难以有效控制。相对地,采用人工批注模式,除了成本高昂之外,还可能在不经意间渗透标注人员的个人伦理观,产生潜在科技伦理风险。因此,理想的数据标注方式应是人机协作,以此填补上述数据标注方式的短板,提升数据标注结果的准确性、完整性和中立性。

完善数据跨境传输机制,丰富数据类型。人工智能训练数据的高质量供给,离不开数据跨境传输制度的支撑。不同国家、不同地区的数据资源具有多元化的本地特征,这类数据资源能够优化人工智能算法模型,提升人工智能产品和服务的通用性。近年来,我国数据跨境传输的法律法规相继出台,确立了以“安全评估、个人信息出境标准合同、个人信息保护认证以及特殊机制”为内容的数据跨境传输治理框架。同时,《促进和规范数据跨境流动规定》进一步解绑了基于学术合作、跨国生产制造、市场营销等活动进行数据跨境传输的限制条件。为了更好推动训练数据的跨境流动,需要遵循发展与安全并重的治理逻辑。从长远来看,数据资源本地化不利于人工智能产业的创新发展,也不利于数据要素的市场化配置。数据跨境传输制度的建构是为了实现又好又快的跨境传输数据,在数据资源的“一进一出”中,充分获取全球范围内的高质量训练数据资源。在促进产业发展的同时,还需要确保数据出境安全,积极探索多边、双边数据跨境合作机制,提升我国在数据跨境传输国际规则制定中的话语权,以构建网络空间命运共同体为导向,实现训练数据安全有序流动。

出台数据供给配套政策,畅通数据流动。在财政支持政策方面,不同规模的科技企业获取训练数据的能力并不相同,为了降低人工智能产业的市场门槛,有必要通过设立专项资金、实施税收优惠政策等手段降低中小企业获取高质量训练数据的实际难度。针对在特定领域具有卓越表现的中小企业、科研机构予以专项扶持,特别是涉及先进标注算法、数据整合技术等事项,可以通过专项资金助力企业购置更先进的设备、扩充专业人才队伍。在技术标准体系方面,统一的技术标准是确保训练数据质量、规范数据供给的重要工具。在训练数据采集、标注环节,设置统一的技术标准体系能够有效降低后续数据分析、数据挖掘等环节的研发成本。同时,科学客观的技术标准也能针对科技伦理事项辅助确立更为统一的标注规则。在基础设施平台建设方面,为了缓解各行业、各领域数据流动范围狭窄、流动类型有限等“数据孤岛”现象,需要政府部门推动建设面向训练数据供给的数字基础设施以及公共算法训练平台。通过这些基础设施和公共平台,将涵盖经济、地理、交通等各个领域的数据资源进行汇总,从而有效提高训练数据的总体数量和质量。

(作者:赵精武,系北京航空航天大学法学院副教授、北京科技创新中心研究基地副主任)





推荐文章
  • 油气安全战略与“双碳”战略:关系与路径
    百年变局叠加世纪疫情给全球能源安全敲响警钟,深刻理解能源转型...
  • 2023年中国经济增长速度的预测分析与政策建议
    受新冠肺炎疫情及采取的对应措施等因素的影响,2022年中国经...
  • 《2022研究前沿》——11个大学科领域发展趋势与重点研究问题
    2022年12月,中国科学院科技战略咨询研究院、中国科学院文...
  • 《2022技术聚焦》——20个高影响力专利技术焦点分析解读
    2022年,中国科学院科技战略咨询研究院研制《2022技术聚...
  • 新时代科技强国战略
    科技强国是现代化强国的核心要义,科技现代化是中国式现代化的重...
  • 科技改革十年回顾与未来走向
    文章从科技宏观治理、攻关应急体制机制、科研人员全职业生涯、科...
专题
  • 专题:生物制造——回顾与展望
  • 专题:智慧农业的发展与思考
  • 专题:人工智能与公共安全
  • 专题:纪念中国科学院学部成立70周年
  • 专题:人工智能与未来社会
  • 专题:科技创新与产业创新深度融合
  • 专题:高端制造的现状与未来思考
  • 专题:国家关键技术战略的认识与对策
  • 专题:科技支撑中国西部生态屏障建设战略研究
  • 专题:大力推进科研范式变革
  • 专题:国家公园现代化治理体系建设
  • 专题报道
  • 专题:新时期重大科技基础设施建设理论与实践
  • 专题:“十五五”区域协调发展与国土空间发展格局优化
  • 专题报道
  • 专题:黄河流域科技创新研究与对策
  • 专题:科技创新引领现代化产业体系建设
  • 专题:前沿科技伦理风险及其治理
  • 专题:中国能源发展战略研究
  • 专题:科技预算绩效评价的理论与实践
  • 专题:中国生态文明建设进展与成效
  • 专题:技术经济安全理论与实践
  • 专题:开放科学发展趋势与治理策略
  • 专题:综合防治荒漠化 打赢“三北”攻坚战
  • 专题:科技创新支撑“一带一路”高质量发展
  • 专题:主要“一带一路”共建国家气候变化影响和适应研究
  • 专题:跨越“中等技术陷阱”与实现中国式现代化
  • 专题:构建自立自强的信息技术体系
  • 专题:新材料科学发展战略思考与创新实践
  • 专题:智库双螺旋法应用及实证研究
  • 专题:海洋观测探测与安全保障技术
  • 专题:中国空间科学——战略与突破
  • 专题:科技与金融融合逻辑与建议
  • 专题:数据要素市场化配置问题探究
  • 专题:中国战略性关键矿产资源安全研究
  • 专题:“双循环”格局下中国区域创新
  • 专题:哲学助力科技创新
  • 专题:绿色“一带一路”建设的挑战与应对
  • 专题:服务碳中和目标的海洋负排放技术路径与战略思考
  • 专题:哲学与科学
  • 专题:生物多样性保护与生态文明
  • 专题:生态草牧业高质量发展
  • 专题:建党百年·青年说
  • 专题:碳中和目标背景下的能源转型
  • 专题:科技助力“黑土粮仓”建设
  • 专题:科技伦理治理的战略研究
  • 专题:有组织的基础研究
  • 专题:新时代科学基金运行体系与管理研究
  • 专题:融合科学与开放数据
  • 专题:黄河流域生态保护和高质量发展
  • 专题:科技领航黄河三角洲农业高新技术产业示范区高质量发展
  • 专题:湾区比较研究
  • 专题:荒漠化治理与可持续发展
  • 专题:“十四五”规划的区域战略与空间治理
  • 专题:长江经济带高质量发展
  • 专题:公共卫生应急体系建设的战略思考
  • 专题:环境污染与人体健康
  • 专题:科技评价——实践与展望
  • 专题:畜牧业可持续发展
  • 专题:水声信号处理和声呐技术·发展现状和展望
  • 专题:中国高性能计算发展战略
  • 专题:行星科学——新学科·新梦想
  • 专题:国际新形势下知识产权保护研究
  • 专题:中国科技70年·回顾与思考
  • 专题:战略生物资源的保护与利用
  • 专题:2030年可持续发展目标的理论、指标与实践
  • 专题:土壤与可持续发展
  • 专题:知识产权转化与运营
  • 专题:“丝绸之路经济带”中亚能源地缘配置与国家安全
  • 专题:科学普及问题政策研究
  • 专题:分子模块设计育种
  • 专题:环境微塑料污染与管控策略
  • 专题:中国科学院·改革开放四十年
  • 专题:传统工艺的认知与振兴
  • 专题:国家生态保护与建设工程生态成效评估
  • 专题:心理学与社会治理
  • 专题:大气灰霾追因与控制
  • 专题:中国微生物组计划
  • 专题:“一带一路”建设对策研究
  • 专题:土壤微生物组
  • 专题:建成遗产
  • 专题:作物病虫害的导向性防控
  • 专题:青藏高原综合科学研究进展
  • 专题:气候变化的全球治理
  • 专题:科技促进农业供给侧结构性改革
  • 专题:生物传感与器官芯片
  • 专题:“十三五”区域发展战略研究
  • 专题:分布式可再生能源和智能微网
  • 专题:2015/2016超级厄尔尼诺事件研究
  • 专题:精准扶贫重大战略与政策研究
  • 专题: 生物安全——新问题、新挑战
  • 专题:绿色设计
  • 专题:空间科技助力“一带一路”建设
  • 专题:信息化变革科研模式
  • 专题:“一带一路”生态风险与地缘战略
  • 专题:脑科学与类脑智能
  • 专题:现代智库建设及其思想传播
  • 专题:知识产权强国建设
  • 专题:海岸科学与可持续发展
  • 专题:心理健康研究与服务
  • 专题:当代国家凝聚力研究
  • 专题:海洋科学发展现状与展望
  • 专题:云计算创新发展战略
  • 专题:在线社交网络分析理论和技术
  • 专题:西藏经济社会与科技协同发展
  • 专题:土壤与生态环境安全
  • 专题:可持续发展从行动走向科学
  • 专题:创新发展政策研究
  • 专题:土壤与可持续发
  • 专题:落实全面深化改革的科技思考
  • 专题:生物计算机研究进展
  • 专题:科教国际化发展战略
  • 专题:互联网产业发展战略
  • 专题:标准化发展战略
  • 专题:土壤重金属污染治理
  • 专题:可持续发展的难点与热点
  • 专题:生态系统服务与评估
  • 专题:知识产权战略与创新驱动发展
  • 专题:我国空间科学发展的挑战和机遇
  • 专题:知识产权的法制保障
  • 专题:城镇化战略研究
  • 专题:现代农业
  • 专题:大气灰霾追因与控制
  • 专题:知识产权管理
  • 专题:科研信息化
  • 专题:农业物联网
  • 专题:国家创新平台建设
快速通道
作者登录
编辑登录
审稿登录
读者登录
过刊浏览
点击排行
下载排行
引用排行
RSS
E-mail
文件检索
返回首页

 
 
您是第37302839位访问者!
1996-2021 中国科学院版本所有 备案序号: 京ICP备05002857
地址:北京三里河路52号 邮编 100864 Email:bulletin@cashq.ac.cn
技术支持:北京勤云科技发展有限公司