数据词元化:让数据从“沉睡的资源”变成“流动的资本”

2026-06-18 15:39:58
作者:张娜等
分享
AIME

问财摘要

1、本文基于对青岛数据集团首席数据官、青岛数据资产登记评价中心主任赵传启的专访,围绕数据要素“资源化—资产化—资本化”三级递进框架的落地梗阻展开深度剖析。文章指出,当前数据要素市场的核心矛盾并非供给总量不足,而是转化链路的粒度错配;数据词元化作为衔接三级跃迁的关键中间层,兼具技术单元与价值单元双重属性,可通过标准化价值颗粒破解流通堵点。文中同时结合公共数据场景拆解词元化的落地路径,为数据价值高效释放提供实践参考。
免责声明 内容由AI生成
文章提及标的
数据要素--
人工智能--

编者按

内容提要

本文基于对青岛数据集团首席数据官、青岛数据资产登记评价中心主任赵传启的独家专访,围绕数据要素(886041)“资源化—资产化—资本化”三级递进框架的落地梗阻展开深度剖析。文章指出,当前数据要素(886041)市场的核心矛盾并非供给总量不足,而是转化链路的粒度错配;数据词元化作为衔接三级跃迁的关键中间层,兼具技术单元与价值单元双重属性,可通过标准化价值颗粒破解流通堵点。文中同时结合公共数据场景拆解词元化的落地路径,为数据价值高效释放提供实践参考。

■中国经济时报记者张娜

当前,国家数据局明确将“词元交易”纳入数据要素(886041)市场顶层设计,各地数据资产入表实践也加速落地。数据自2020年4月从国家层面被确立为继土地、劳动力、资本、技术之后的第五大生产要素至今,“资源化—资产化—资本化”的三级递进框架已是行业共识。但数据要素(886041)化无法一步到位,落地现实远没有理论推演顺滑。

“问题的核心从来不是数据供给不足”,青岛数据集团首席数据官、青岛数据资产登记评价中心主任赵传启日前在接受中国经济时报记者采访时说,我国数据总量稳居全球前列,各行业沉淀的原始数据体量庞大。真正的卡点在转化链路的断层上:我们始终用粗颗粒的“数据集”作为流通标的,却要完成精细化的要素配置与价值定价,粒度错配之下,数据要素(886041)的价值一直没有完全释放。

数据要素化的三级跃迁与现实断层

数据要素(886041)化是一条连续的价值增值链条,每往前一步,要素属性就增强一分,但转化的摩擦成本也指数级上升。

赵传启指出,当前市场在“资源—资产—资本”的跃迁中,每一级都面临不同的梗阻,且级间衔接尤为脆弱。

第一级是资源化,解决“能不能用”的问题。散落的系统日志、碎片化的业务记录、非结构化的文本影像,经过采集、清洗、标注、脱敏形成可信数据集,才算拿到要素化的入场券。但当前绝大多数原始数据仍沉睡在各部门、各企业的系统中,连最基础的“可用”门槛都未跨过;即便完成资源化,也只是完成从原始零散数据到标准化可用数据的第一步转化,离价值变现相去甚远。

第二级是资产化,解决“算不算数”的问题。当数据能够被确权、计量并纳入财务报表,才具备资产属性。数据资产入表明确了会计确认与计量的规则,让数据从技术资源变成了账面资产,但这一步只回答了“算不算资产”,没能解决“值多少钱、怎么流通”。大量完成入表的数据资产,因非标属性强、估值无共识,始终停留在账面,无法进入流通环节实现价值。

第三级是资本化,解决“能不能增值”的问题。这是要素化的终极形态——数据能像生产要素一样参与生产经营、通过交易实现增值、通过组合产生乘数效应,真正成为驱动经济增长的生产要素。现实是绝大多数数据卡在资产化与资本化之间:粗颗粒的非标数据集难以支撑精细化的价值计量与风险定价,抬高了数据资产金融化的交易成本与信任成本,价值无法高效释放。

赵传启认为,随着国家数据局将“词元交易”纳入数据要素(886041)市场顶层设计,这条曾被视作大模型技术细节的路径,正在走出技术圈层,成为填补要素转化断层的关键中间层。它不是对三级转化框架的颠覆,而是补上了数据从“资源”到“资本”之间最关键的一块拼图。

数据词元化:填补断层的关键中间件

三级转化链路的断层,本质是粗颗粒流通标的与精细化价值配置的粒度错配。要弥合这一断层,必须在资源与资产之间植入一层标准化的价值转化单元,数据词元化正是承担这一功能的核心中间件。

他进一步分析指出,对应“资源化—资产化—资本化”的三级转化框架,词元化是连接两级转化的关键中间传导层。它向上承接原始数据的资源化加工,将异构、多模态的数据资源统一为标准化价值单元,解决不同来源数据口径不一、难以通兑的问题;向下支撑资产化与资本化,让数据以标准化标的进入交易市场,完成价值评估、收益分配与金融化运作。没有这一层,数据就像未经冶炼的矿石,难以直接进入产业链循环;有了这一层,数据要素(886041)的流通效率才能真正向传统生产要素靠拢。

“这条路径的价值之所以被持续放大,在于它踩中了智能时代的底层范式变迁。”赵传启表示,随着垂直领域大模型规模化落地,推理调用需求快速增长,传统整包数据集的供给模式已难以适配实时、按需的调用场景,未来主流的数据价值释放场景,将越来越多地以大模型推理调用的形式呈现,数据供给的颗粒度必须下沉到词元级才能匹配需求。

数据词元化的双重内涵:既是技术单元更是价值单元

很多人对词元的认知仍停留在大模型技术层面,这只是其狭义定义。放在数据要素(886041)的语境下,词元的内涵已经完成了从技术处理单元到经济价值单元的跃迁。

要真正理解这一路径,需要厘清它的双重属性。赵传启从狭义和广义两个方面进行了深入分析。

狭义上,词元(Token)是技术层面的最小语义单元,是基础。通过BPE等分词算法,将文本、语音等非结构化数据拆解为大模型可识别、可计算的语义片段,核心是解决机器对数据的理解与处理问题,是大模型运行的基础前置环节。

广义上,词元是数据要素(886041)的价值计量与流通单位,是延伸形态。在原始数据权属清晰的前提下,按照语义边界、价值密度对数据资源拆解,形成边界清晰、语义自洽、权属可追溯的价值颗粒,以此为基础实现流通、定价、结算与收益分配,资产本体仍是底层数据资源。它不再只是技术处理的中间产物,而是数据从“原始资源”迈向“流通要素”的核心中间形态,也是“构建以词元为基础的可量化、可定价数据价值体系”的核心指向。

落地有声:公共数据如何借词元化释放价值

公共数据是体量最大、权威度最高的数据资源,也是流通堵点最突出的领域,恰好是词元化价值最典型的验证场景。长期以来,公共数据共享多以数据集批量交付、整表授权为主,颗粒度偏粗导致供需匹配度不足,存在‘获取的数据用不上、所需的数据拿不到’的错配问题;同时权属边界模糊,敏感信息泄露风险高,部门间“不愿共享、不敢共享”成为常态;再加上价值无法量化核算,跨部门协同缺乏可持续的激励机制。

如何突围这一困局?赵传启说,词元化为这一困局提供了系统解法:首先是分级拆解,将结构化数据的单字段属性映射为标准化业务词元,将非结构化的政策、监管数据提取为核心语义单元,替代传统整表整库交付;其次是基于词元粒度的精细化权限管控,可针对不同业务场景配置差异化的数据访问范围,实现‘按需授权、最小够用’,在技术层面支撑‘一事一授权、一次一调用’的管控要求;最后是量化分润,建立基于词元价值权重的量化分润机制,结合调用频次、价值密度、场景贡献度等多维度核算收益,按数据提供方的价值贡献分配收益或财政激励,替代无偿共享模式,形成可持续的流通闭环。

赵传启指出,目前该模式已在部分公共数据场景开展试点探索,核心价值在于将公共数据从“整库搬运”转向“价值按需交付”,在守住安全底线的前提下,最大化激活了公共数据的要素价值。

数据要素(886041)化从来不是一蹴而就的过程,从原始比特到生产资本,中间隔着无数层转化与抽象。过去行业的注意力更多集中在供给侧,比拼数据总量与资源规模;随着市场进入深水区,市场核心矛盾已经从“供给不足”转向“流通不畅”。词元化的真正意义,不在于创造了一个新概念,而在于为数据要素(886041)市场提供了一套标准化的价值语言——它既是技术处理单元,也是价值计量标尺,更是可信流通载体。

正如赵传启所言,“当数据能够像水、电一样,以标准化形态、可计量方式、可追溯链路实现按需取用、按效付费,数据要素(886041)真正深度融入实体经济循环的时代,才会真正到来。”

专家点评

数据词元化的实践探索具有开创意义

■陈波

青岛数据集团实践的开创意义,主要体现在两个方面。

第一个开创了颗粒化价值计量的确权新路径,在词元经济循环这个起点上实现突破。第二个是开创了按实际使用效用持续分润的收益分配新机制,使数据价值通过词元经济循环得以实现。

因为这两个突破,使得数据有了长久收益,这才是市场认可的真正原因。今年4月,全国首个词元计量收益分配体系在青岛试运行,以“有效词元贡献量”为核心分配依据。数据价值不再是“一锤子买卖”的卖断,而是按其在智能调用中被实际使用的程度和产生的效用,持续分润。

分配体系试运行仅两个月,平台上高价值数据集占比突破40%,较去年同期增长了两倍以上。这组数据本身就是最好的证明,当你把分配机制设计对了,高质量数据的供给会自动涌出来。这正是词元经济循环的“飞轮启动”时刻——用合理的价值分配机制牵引高质量数据供给,实现供给侧与需求侧的正向循环,数据提供方看到持续回报,愿意投入更多高质量数据,模型质量随之提升,应用价值增大,更多调用带来更多分润,循环由此加速。

我们已经看到“数据不动词元动”带来的新趋势,我们将持续跟踪研究其发展情况,以及其它地区、其它行业的类似情况,对人工智能(885728)计量体系和能力建设、行业高质量数据集建设等相关政策措施的健全完善提供有价值的参考。

(作者单位:中国经济时报社)

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈
数据词元化:让数据从“沉睡的资源”变成“流动的资本”