说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210443796.2 (22)申请日 2022.04.26 (71)申请人 华北电力大 学 地址 102206 北京市昌平区北农路2号 (72)发明人 薛安成 陶畅 景子洋 欧阳明浩   邓雄耀 洪海雁 王书鸿  (51)Int.Cl. G06K 9/62(2022.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06Q 50/06(2012.01) (54)发明名称 一种基于 XGBoost模型的继电保护缺陷文本 定级方法 (57)摘要 本发明提供一种基于XGBoost模型的继电保 护缺陷文本定级方法。 首先对继电保护缺陷文本 数据特征进行介绍, 划分为结构化数据和非结构 化数据以及各自的处理情况; 进一步的, 利用继 电保护专业词典完成对继电保护缺陷文本的预 处理工作, 对缺陷文本进行数据清洗和分词操 作; 其次, 基于TF ‑IDF赋值法将每条缺陷数据做 文本向量化表达, 引入集成学习XGBoo st模型, 并 利用模型对向量化数据训练处理; 最后构建出适 合实际要求的保护装置缺陷定级分类器。 该方法 直接从保护缺陷记录文本出发, 采取XGBoost模 型训练出缺陷定级分类器, 基于该方法构建的缺 陷文本定级分类器可以为现场运维人员提供辅 助决策和缺陷数据分析处 理做参考。 权利要求书2页 说明书6页 附图2页 CN 114818919 A 2022.07.29 CN 114818919 A 1.一种基于XGBo ost模型的继电保护缺陷文本 定级方法, 所述方法包括: 步骤1、 继电保护缺陷文本结构组成及特 征分析; 步骤2、 基于词典的继电保护缺陷日志处 理模型构建; 步骤3、 缺陷数据的文本向量 化表达与特 征提取; 步骤4、 引入集成学习XGBo ost模型, 构建保护装置缺陷定级分类 器。 2.根据权利 要求1所述一种基于XGBoost模型的继电保护缺陷文本定级方法, 其特征在 于, 在所述步骤1中, 针对某网数据库存储的继电保护缺陷记录信息的组成结构, 根据其特 征划分为结构化数据和非结构化数据; 本专利将从非结构化数据入手, 从非结构化信息中 提取有效特 征作缺陷分类; 继电保护缺陷记录信息由2部分组成: 1).有属性标签表征的规范 型数据; 2).无属性标签表征的短文本数据, 即缺陷日志, 称为非规范 型数据; 规范型数据具有便于计算机保存管理和编译的特点, 目前有关继电保护数据研究方面 的工作: 状态检修、 可靠性评估、 关联规则获取、 缺陷定级等 都集中在此类数据; 而缺陷日志 这类半结构化文本数据虽蕴含着丰富的历史状态、 检修举措及效果信息, 但受限于多歧义、 难切分、 模糊性的特点, 尚未得到挖掘; 有鉴于此, 本节基于某区域电网继电保护设备缺陷 日志, 分析日志格式, 总结挖掘难点问题, 并建立了数据处 理模型。 3.根据权利 要求1所述一种基于XGBoost模型的继电保护缺陷文本定级方法, 其特征在 于, 在所述步骤2中基于词典的继电保护缺陷日志处理模型构建; 工作包括噪音数据去除、 分词处理和数据分类, 具体地: 本课题词典的构建流程主要如下:基于正则表达式的停用词识别方法, 实现了缺陷文 本中无关字词的剔除; 采用机器与人工相结合的方法, 构建了继电保护缺陷文本 分词词典; 采用潜在语义分析和决策树分类方法, 实现了缺陷文本中的同义词合并; 整合了停用词表、 分词词典、 同义词表各部 分, 最终构建了适用于保护装置缺陷文本 分析的专 业词典; 利用词 典和python工具库jieba函数包对缺陷数据进行分词, 将非结构化的缺陷日志切分为质量 较高的、 信息准确的数据, 为下一 步利用词袋模型做基础。 4.根据权利 要求1所述一种基于XGBoost模型的继电保护缺陷文本定级方法, 其特征在 于, 在所述 步骤3中, 缺陷数据的文本向量 化表达与特 征提取, 具体如下: 1)定义继电保护领域词典中的词汇作为特征项, 简称为词项, 所有词项的集合称为词 表空间, 将给定的缺陷文本数据转化为词项的序列, 然后基于TF ‑IDF对词项的权重进行赋 值; 上述过程被称为词袋模型。 2)根据TF ‑IDF赋值法得到的继电保护领域词典共包含了4365个词汇, 由此得到4365维 的词表空间; 根据TF ‑IDF法我们可以将缺陷文本转化得到4265维的词向量; 用文本向量代 表该条缺陷数据提供 给分类器模型做后续处 理计算。 5.根据权利 要求1所述一种基于XGBoost模型的继电保护缺陷文本定级方法, 其特征在 于, 在所述步骤4中, 利用向量化文本结合XGBoost模型做训练, 构建缺陷定级分类器, 具体 如下: 1)从训练集中抽取277条数据(测试集数据条数 ×学习率), 从数据中通过采样法训练 基分类模型;权 利 要 求 书 1/2 页 2 CN 114818919 A 22)重复步骤1)150次形成150个决策树基分类器; 每次数据采样过程 中每条数据被采样 概率不相同, 每条 数据被采样概 率会随着每一个弱分类 器的错误率赋予不同权值; 3)利用决策树基分类器对每条测试数据分类投票, 根据正确率对票数有权向加获得票 数最多一类, 即为所划分的缺陷等级; 4)采用十折交叉法, 评估XGBClas sifier准确率。权 利 要 求 书 2/2 页 3 CN 114818919 A 3

.PDF文档 专利 一种基于XGBoost模型的继电保护缺陷文本定级方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于XGBoost模型的继电保护缺陷文本定级方法 第 1 页 专利 一种基于XGBoost模型的继电保护缺陷文本定级方法 第 2 页 专利 一种基于XGBoost模型的继电保护缺陷文本定级方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。