T/ZIIC 001 -2022
中关村工业互联网产业联盟
团体标准
Zhongguancun industrial Internet Industry
Alliance
Group standard
工业互联网标识数据处理 预处理规程
Identification Data Processing for the Industrial Internet -
Preprocessing Protocol
2022年11月1日发布 2022 年12月1日实施
中关村工业互联网产业联盟 发布
全国团体标准信息平台
I 目 次
前言 ................................ ................................ ................. 1
1 范围 ................................ ................................ .............. 2
2 规范性引用文件 ................................ ................................ .... 2
3 术语和定义 ................................ ................................ ........ 2
4 缩略语 ................................ ................................ ............ 3
5 工业互联网标识数据预处理 ................................ .......................... 3
5.1 预处理的目的及效果 ................................ ............................ 3
5.2 预处理步骤的分类 ................................ .............................. 4
5.3 数据发现 ................................ ................................ ...... 4
5.4 数据验证 ................................ ................................ ...... 4
5.5 数据结构化 ................................ ................................ .... 4
5,6 数据充实 ................................ ................................ ...... 4
5.7 数据过滤 ................................ ................................ ...... 5
5.8 数据清洗 ................................ ................................ ...... 5
全国团体标准信息平台
1 前 言
本文件按照 GB/T1.1-2020《标准化工作导则 第1部分: 标准化文件的结构和起草规则》 的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。
本文件由中华人民共和国工业和信息化部提出并归口。
本文件起草单位:哈尔滨工业大学、江苏天人工业互联研究院有限公司、南京遒涯信息技术有限公
司、南京视幻科技开发有限公司、南京艾瑞曼智能科技有限公司、南京聚合智慧能源有限公司、迈格生
命科技(深圳)有限公司
本文件主要起草人: 王宏志、丁小欧、梁斌、刘一达、李攀、刘鑫、李丹丹、黄靖宇、田君懿、吕
海岩
本标准为首次发布。
全国团体标准信息平台
中关村工业互联网产业联盟团体标准
T/ZIIC 001 -2022
2 工业互联网标识数据处理 预处理规程
1 范围
本文件规定了工业互联网标识数据的预处理过程和规程。
本文件适用于各工业互联网标识数据的预处理流程的设计、改进与应用。
2 规范性引用文件
本文件没有规范性引用文件。
3 术语和定义
下列术语和定义适用于本文件。
工业互联网数据 Industrial Internet data :
工业互联网数据是指在工业互联网应用中所产生的数据,是工业互联网的核心 .从数据类型上主要包括
设备数据、应用系统数据、企业数据、知识库数据和用户个人数据等 ,覆盖工业数据全生命周期。
工业大数据 industrial big data :
将标识符翻译成与其相关联的信息的过程。
在工业活动过程中产生的具有体量巨大、来源多样、生成极快、多变等特征并且难以用传统数据体系结
构有效处理的包含大量数据集的数据。
时间序列标识 time series identifier :
在一个系统中表征特定时间序列数据的唯一标识符。
时间戳 time stamp :
对时间和其他待签名数据进行签名得到的,用于表明数据时间属性的数据。
[来源: GB/T 25069 -2022,3.541]
时间序列数据 time series data :
在多个时间点观察或测量的并按照时间排列的一组数据。
时间序列数据元数据 metadata for time series data :
描述时间序列数据类型、格式等属性信息的数据。
数据预处理 data preprocessing :
全国团体标准信息平台
中关村工业互联网产业联盟团体标准
T/ZIIC 001 -2022
3 在对所采集的原始工业数据进行研究、处理等相关操作前,对原始数据进行的如数据清洗、数据集成、
数据规约、数据变换等预操作。
4 缩略语
下列缩略语适用于本文件。
本文件没有缩略语。
5 工业互联网标识数据预处理
5.1 预处理的目的及效果
工业互联网标识数据的 原始数据在许多不同场景下采集:日志、传感器输出、政府数据、医学研究
数据、气候数据、地理空间数据等。完成采集的数据通过许多不同的方式存储,如不同的文件系统或在
线数据仓库。
在典型的场景中, 来自各种来源的原始数据没有任何标准化的格式或结构, 也没有特定 的目标用例。
因此,原始数据中可能会出现数据格式上、内容上或其它方面的诸多错误,如包含无效字符,使用不同
的编码,缺少必要的属性列,包含不需要的行,存在缺失值,不遵循合法的数据结构和模式等等。为了
修正或消除上述各类在原始数据采集过程中可能存在的数据质量问题,需要在正式对数据进行操作前
对其进行预处理。
因此,作为整个数据分析及处理流水线中的非常靠前的步骤,数据预处理流程对原始数据进行的 结
构级和语法级的数据转换 ,有助于提高数据的 可用性、可读性、可解释性 、改进数据质量并为后续的数据
操作及分析步骤提供便利。
图1 数据预处理流程的目的
全国团体标准信息平台
中关村工业互联网产业联盟团体标准
T/ZIIC 001 -2022
4 5.2 预处理步骤的分类
数据预处理不是一个单一步骤的过程。相反,它通常由许多单独的准备步骤组成。
工业互联网标识数据的预处理规程可分为六个更广泛的类别:
⚫ 数据发现
⚫ 数据验证
⚫ 数据结构化
⚫ 数据充实
⚫ 数据过滤
⚫ 数据清洗
5.3 数据发现
数据发现是分析和整合采集自不同来源的数据的过程。由于存储各工业数据的不同数据库可能存
在相同字段具有不同的名字的情况,或所包含字段重复、确实、冲突的情况,因此数据发现过程可以消
除这些数据中存在的不一致和冗余。
常见的数据发现过程包括:
⚫ 匹配数据模式
⚫ 寻找缺失的数据
⚫ 定位离群点
5.4 数据验证
数据验证 是依据预设置的 规则和约束对 原始数据进行检查的 过程。
常见的数据验证过程包括:
⚫ 依据正确性规则进行数据验证
⚫ 依据完整性规则进行数据验证
⚫ 依据其他数据质量约束规则进行数据验证
5.5 数据结构化
数据结构化包括创建、表示和构造信息的任务。
常见的数据结构化过程包括:
⚫ 更新模式
⚫ 检测及更改编码
⚫ 根据预定义的数据结构及格式转换数据
5,6 数据充实
全国团体标准信息平台
中关村工业互联网产业联盟团体标准
T/ZIIC 001 -2022
5 数据充实是为采集自不同来源的原始数据增加或补充信息的过程。
常见的数据充实过程包括:
⚫ 使用默认值进行数据充实
⚫ 使用平均值进行数据充实
⚫ 使用
T-ZIIC 001—2022 工业互联网标识数据处理 预处理规程
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思安 于 2022-12-12 11:51:05上传分享