5月30日,全国数据资源调查工作组(国家工业信息安全发展研究中心)编纂的《全国数据资源调查报告(2023年)》对外公布。
根据说明,2024年2月,国家数据局联合中央网信办、工业和信息化部、公安部组织开展全国数据资源调查,国家工业信息安全发展研究中心承担调查实施工作。在前期工作基础上,此次调查扩大调查范围、扩展调查对象、增设调查指标,通过全量测算和抽样调查等方式,调查全国关键数据资源情况,为政府施策、产业发展提供参考。
调查报告指出,数据作为新型生产要素,具有重要基础性和战略性,是发展新质生产力的重要基础。近年来,在政产学研用合力推动下,我国数据规模实现快速增长,数据流通交易架构逐步形成,数据开发利用创新探索,数据要素价值加快释放,为做大做强数字经济、建设数字中国奠定了坚实基础。
调查发现,我国数据资源管理和利用整体处于起步阶段,数据“产-存-算”规模优势基本形成,数据“供给-流通-应用”主体逐渐丰富,海量数据和丰富场景优势潜力仍待释放。
全国数据生产、存储、计算呈现规模大、增速快的特点。2023年,全国数据生产总量达到32.85泽字节(ZB),同比增长22.44%。2023年,全国数据存储总量为1.73泽字节(ZB),存储空间利用率为59%。2023年,2200多个算力中心的算力规模超0.23十万亿亿次浮点运算/秒(ZFLOPS),同比增长约30%。其中,智能算力占比约30%。
2023年,全国一体化政务数据共享枢纽接入53个国家部门、31个省/自治区/直辖市和新疆生产建设兵团数据,“一网通办”事项不断增加。2023年,公共数据开放量同比增长超16%。18.6%的平台企业和51%的中央企业在数据开发利用过程中应用到政府开放数据。4个国家部门、15个省级数据管理部门探索公共数据授权运营。
值得注意的是,数据生产存储、流通交易、开发利用过程中的数据量降幅较大,能支撑人工智能训练的数据资源较少,数据价值仍需进一步挖掘。2023年,全国数据产存转化率为2.9%,海量数据源头即弃。企业一年未使用的数据占比为38.93%,大量数据被存储后不再被读取和复用。交易所需求方是供给方的1.75倍,数据产品成交率为17.9%,数据场内交易供需匹配率低。2023年,尚未建设数据管理系统的大企业比例为21.9%,实现规划管理的数据资源仍然较少。2023年,开展数字化转型的大企业中,实现数据复用增值的仅有8.3%,数据价值挖掘任重道远。
1)我国数据生产规模持续扩大
2023年数据生产总量达到32.85泽字节(ZB),同比增长22.44%,非结构数据爆发式增长。随着5G、AI技术的快速发展及智能设备的规模应用,内容创作、影像视听等非结构数据对我国数据总规模增长贡献较大,消费民生领域新业态不断涌现,满足了人们不断增长的文化娱乐消费需求。
2)智慧城市扩大物联感知范围
公共数据获取范围不断扩大,设施物联传感数据占比超40%。城市各种基础设施、资源、服务等加速数字化、网络化、智能化升级,摄像头、传感器、无线设备等相互连接形成城市的“神经脉络”,实时捕捉城市交通、人流等各种信息,推动海量数据从大街小巷汇入城市大脑。
3)智能应用推动数据产量提速
随着技术的创新突破以及硬件的迭代更新,生产生活的数字化应用逐渐增加,推动我国数据产量快速增长。在生活方面,智能网联车驱动车、路、网、云数据快速交换,出行数据同比增幅达到49%。在生产方面,老旧生产设备的升级改造以及智能边缘设备、工业机器人、数控机床等智能设备的推广应用,推动生产制造数据同比增幅达到20%。
4)算力中心规模持续增长,算力建设仍需适度超前布局
至2023年底,2200多个算力中心的算力规模约为0.23十万亿亿次浮点运算/秒(ZFLOPS),同比增长约为30%。与此同时,大模型训练算力需求高涨,科学、政务、金融、工业等行业算力需求随之增加,一体化算力体系建设仍需加快推进,保持适度超前布局。
5)消费领域数据交互活跃度较高
2023年,四大运营商数据显示全国数据总流量较去年同期增长7.6%,数据流量保持稳步增长。随着汽车、家居、穿戴等智能终端品类不断丰富和声像视听数据交互需求持续增加,移动互联网数据流通活跃度不断增加。
6)平台和央企数据流通量远超其他企业
中央企业和平台企业成为行业领域的数据枢纽,在各自领域探索交互机制。平台企业是行业领域的数据枢纽。本次调查中,平台企业平均数据交互量为行业重点企业的249倍,各行业数据正逐渐向平台聚拢。SaaS服务模式日益成熟,平台提供数据产品中SaaS化产品占比超五成,订阅式交易占比逐年增多。中央企业成为产业链数据枢纽。本次调查中,中央企业平均数据交互量为行业重点企业的42倍。链主企业正在通过产业链协同赋能上下游企业,汇聚全产业链数据。
在发展趋势方面,全国数据资源调查工作验证了我国发展数字经济具备超大规模市场、海量数据资源和丰富应用场景潜在优势。未来,随着数据技术不断进步,基础制度持续完善,数据生产规模将保持高速增长,存储计算将向按需调度发展,数据流通将向规范有序、多元协同发展,数据开发利用将向需求牵引、智能驱动发展。
1)数据生产向高增速和高质量同步发展
在政策、技术和应用多重因素驱动下,我国数据规模将保持快速增长趋势,高质量数据资源将成为经济增长的重要源泉。一方面,数据规模优势将进一步扩大。数据生产能力将随着卫星通信、自动驾驶、生成式AI等新技术的规模化应用而持续提升,预计2024年数据生产量增长将超25%,同时,数据存储能力也将随硬件技术的升级迭代和成本降低提升。另一方面,数字化转型将促进各行业高质量数据形成,数据从设备、系统的分散状态释放、汇聚和应用。同时,AI大模型的迅猛发展对大规模、高质量、多样性数据集提出更高要求,有助于数据质量进一步提升。
2)数据存储计算向一体化按需供给发展
随着人工智能训练需求的高涨,算力在短期内仍会出现难以满足需求的情况,但会随应用需求加速调整布局,提高算力利用率。一方面,数据存储结构将按需调整,边缘智能计算将有所提高,把有价值的数据释放出来;协同交互需求推动部分数据向云端迁移,实现在线调度和应用。另一方面,随着数据高效计算、实时读取需求不断增长,未来全国一体化算力体系将向算力能力发布、算力调度、安全服务等多元功能扩展,缓解东部实时算力压力的同时,释放西部算力优势。
3)数据流通向规范有序、多元协同发展
随着国家层面的数据交易规范进一步完善。一方面,随着数据流通基础规则不断完善,数据交易场所、数据服务商等流通载体将逐步走向规范有序发展。另一方面,场内场外流通交易模式更加多元化,各类细分领域交易机构向专业化发展。平台企业和中央企业将持续发挥行业数据枢纽作用,带动行业领域的数据汇聚、流通和应用。
4)数据应用向需求牵引、智能驱动发展
应用场景牵引的数据开发利用将成为主要趋势,AI技术成为数据开发利用的重要推动力。一方面,应用需求涌现,场景逐渐丰富化。大模型对海量高质量数据提出了迫切需求,垂直领域的数据应用需求将持续保持快速增长,并逐步从业务降本提效转向协同创新、市场拓展,数据驱动业务发展将成为主要应用诉求。另一方面,自然语言处理、语音识别等技术进步降低开发门槛,围绕数据增值的产品服务将逐渐成为数据供给的主要方式。