成果名称:数据要素基础元件的标准化抽象——数据件
研发时间:2022年12月-至今
成果形式:应用系统、论文、专利
主要完成人:郭嘉丰、李冰、何文婷、廖华明、程学旗
主要完成单位:中国科学院计算技术研究所
成果描述:
数据件是数据要素流通使用的基本单位,通过对数据要素的标准化封装,支撑数据要素和数据主体、数据应用“解耦”,实现全网加工“要素化”数据。数据件相关技术已发表顶会论文(SIGIR、CIKM等)10余篇,授权相关专利19项,新申请专利12项。数据件技术成果包括以下内容:
形成数据件标准化封装技术体系。凝练数据件语义标识、信息结构、标化能力和访问控制四个抽象层,保障数据要素的可寻址、可交换、可操作和可管控特性,让数据要素在不同主体、不同应用系统间高效流转与使用。完成数据件构造客户端,实现多源异构数据要素的语义对齐,形成十余个领域应用标化能力,百GB级数据要素分钟级构造。
突破数据件广谱关联发现技术。通过数据场的形式实现去中心化的语义检索与关联发现关键技术,支撑广域环境下数据件的按需组织和灵活使用。支持海量数据的精准发现,广域场景下百万级数据要素检索分钟级响应。
构建数据件协同计算框架。突破自适应资源特性的广域编排与多副本联合传输加速技术,实现最优化资源调度,降低数据件传输响应时间,提升数据要素计算时效。
目前,数据件系统已在郑州城市算力网中进行试点应用,针对大模型高效训推与BI类统计分析场景,自动构建向量索引库与预聚合中间态。在应用时可大幅缩减数据加工链路,实现数据要素的即插即用。
图片素材: