说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211264500.7 (22)申请日 2022.10.17 (71)申请人 湖南能源大 数据中心有限责任公司 地址 410000 湖南省长 沙市天心区万家丽 南路二段68 8号中南总部 基地7栋13 07 (72)发明人 毛苗 伍歆 马骏 王向阳  熊厚辉  (74)专利代理 机构 长沙致为远航知识产权代理 事务所(普通 合伙) 43280 专利代理师 肖周强 (51)Int.Cl. G06F 16/903(2019.01) G06F 16/907(2019.01) G06K 9/62(2022.01) (54)发明名称 一种基于多源异构电力数据的数据关联方 法 (57)摘要 本申请提供一种基于多源异构电力数据的 数据关联方法, 目的是为了解决电力数据在不同 数据源中表 示不同的问题, 该方法包括获取数据 源中的数据; 通过特征工程对各数据源中的各项 数据分别进行属性提取; 将锚点数据源中各项数 据的属性的特征向量分别通过量化映射到离散 子空间, 生成与各项数据的属性相对应的代表向 量和离散子空间的倒排列表; 将待匹配数据源中 各项数据的属性相对应的特征向量与锚点数据 源中各项数据的属性相对应的代表向量进行匹 配; 通过属性相似度度量公式分别计算待匹配数 据源中相同属性的待融合数据的相似度得分。 能 够将多个不同维度数据源中的数据进行特征向 量化处理, 并利用平滑加权杰卡德(Jaccard)算 法提升其 准确率。 权利要求书2页 说明书6页 附图1页 CN 115329158 A 2022.11.11 CN 115329158 A 1.一种基于多源异构电力数据的数据关联 方法, 其特 征在于, 包括如下步骤: 步骤1: 获取锚点数据源中的数据和待 匹配数据源中的数据, 所述锚点数据源包括电力 营销档案, 所述待匹配数据源 包括机构工商信息档案和个人信息档案; 步骤2: 通过特征工程对各数据源中的各项数据分别进行属性提取, 得到各项数据 所对 应的属性; 步骤3: 将各项数据的属性分别进行特征向量化处理, 生成与各项数据的属性相对应的 特征向量; 步骤4: 将锚点数据源中各项数据的属性的特征向量分别通过量化映射到离散子空间, 生成与各项数据的属性相对应的代 表向量和离 散子空间的倒排列表; 步骤5: 将待匹配数据源中各项数据的属性相对应的特征向量与锚点数据源中各项数 据的属性相对应的代 表向量进行匹配; 若不存在相同属性, 则将待匹配数据源中的数据与锚点数据源中的数据进行融合; 若存在相同属性, 则将待匹配数据源中相同属性的特征向量与锚点数据源中相同属性 的代表向量取点积, 再根据离散子空间的倒排列 表, 匹配相应子空间的特征向量, 选取点积 最大的特 征向量对应的数据作为待融合数据, 执 行步骤6; 步骤6: 通过属性相似度度量公式分别计算待匹配数据源中相同属性的待融合数据的 相似度得分和锚点数据源中相同属 性数据的相似度得分, 舍弃相似度得分低的数据, 保留 相似度得分高的数据, 再 执行步骤5; 其中, 属性相似度 度量公式为: 式中, 表示数据源一中的第 条数据与数据源二中 的第 条数据的属性相似度得 分, 数据源一包含 条属性, 数据源二包含 条属性, 和 的取值范围分别为 和 ; 数据源一的第 条数据拥有属性 , ,…, 分别对应值为 , ,…, , 数据源二的第 条 数据拥有属性 , ,…, 分别对应值 为 , ,…, ; 表示数据源一的属性集合与数据源二的属性集合中意义相同且存在对应关系的两 个属性组成的属性对, 两个属性分别为数据源一中的属性 和数据源二中的属性 , ; 是 区间的值, 对属性 和属性 的相似度进行正则 化, 为属性 的可能取值, 是数据源一中属性 的总量, 是数据源 一中 值等于 的数量; 为属性 的可能取值, 是数据源二中属性 的 总量, 是数据源二中 值等于 的数量。 2.根据权利要求1所述的基于多源异构电力数据的数据关联方法, 其特征在于, 所述步 骤3: 将各项 数据的属性分别进 行特征向量化处理, 生成与各项 数据的属性相对应的特征向 量包括:权 利 要 求 书 1/2 页 2 CN 115329158 A 2将文本类属性使用GPT ‑3语言模型生成1024维的向量, 数值类属性离散化后作为ID类 特征使用One ‑Hot生成固定维度向量。 3.根据权利要求2所述的基于多源异构电力数据的数据关联方法, 其特征在于, 所述步 骤4: 将锚点数据源中各项数据的属性的特征向量分别通过量化映射到离散子空间, 生 成与 各项数据的属性相对应的代 表向量和离 散子空间的倒排列表包括: 将锚点数据源中各项数据的属性的特征向量粗分为若干个子向量空间, 对各子向量空 间分别进行点积量化, 取误差函数最小子 向量空间的质心作为该项数据的代表向量, 误差 函数为: 式中, 为锚点数据源的特 征向量, 为 对应的近似特 征向量; 在子向量空间中对每 个特征向量计算与代 表向量的欧拉距离, 欧拉距离公式为: 式中, 为特征向量,   为代表向量所组成的矩 阵, 为代表向量的总数, 为数据的属 性; 每个子向量空间根据欧拉距离按从小到大的顺序分别维护一个倒 排列表, 跟踪各离散 子空间中的特 征向量。权 利 要 求 书 2/2 页 3 CN 115329158 A 3

.PDF文档 专利 一种基于多源异构电力数据的数据关联方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多源异构电力数据的数据关联方法 第 1 页 专利 一种基于多源异构电力数据的数据关联方法 第 2 页 专利 一种基于多源异构电力数据的数据关联方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:41:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。