专利一种基于XGBoost模型的继电保护缺陷文本定级方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210443796.2 (22)申请日 2022.04.26 (71)申请人华北电力大学地址 102206 北京市昌平区北农路2号 (72)发明人薛安成　陶畅　景子洋　欧阳明浩　邓雄耀　洪海雁　王书鸿　 (51)Int.Cl. G06K 9/62(2022.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06Q 50/06(2012.01) (54)发明名称一种基于 XGBoost模型的继电保护缺陷文本定级方法 (57)摘要本发明提供一种基于XGBoost模型的继电保护缺陷文本定级方法。首先对继电保护缺陷文本数据特征进行介绍，划分为结构化数据和非结构化数据以及各自的处理情况；进一步的，利用继电保护专业词典完成对继电保护缺陷文本的预处理工作，对缺陷文本进行数据清洗和分词操作；其次，基于TF ‑IDF赋值法将每条缺陷数据做文本向量化表达，引入集成学习XGBoo st模型，并利用模型对向量化数据训练处理；最后构建出适合实际要求的保护装置缺陷定级分类器。该方法直接从保护缺陷记录文本出发，采取XGBoost模型训练出缺陷定级分类器，基于该方法构建的缺陷文本定级分类器可以为现场运维人员提供辅助决策和缺陷数据分析处理做参考。权利要求书2页说明书6页附图2页 CN 114818919 A 2022.07.29 CN 114818919 A 1.一种基于XGBo ost模型的继电保护缺陷文本定级方法，所述方法包括：步骤1、继电保护缺陷文本结构组成及特征分析；步骤2、基于词典的继电保护缺陷日志处理模型构建；步骤3、缺陷数据的文本向量化表达与特征提取；步骤4、引入集成学习XGBo ost模型，构建保护装置缺陷定级分类器。 2.根据权利要求1所述一种基于XGBoost模型的继电保护缺陷文本定级方法，其特征在于，在所述步骤1中，针对某网数据库存储的继电保护缺陷记录信息的组成结构，根据其特征划分为结构化数据和非结构化数据；本专利将从非结构化数据入手，从非结构化信息中提取有效特征作缺陷分类；继电保护缺陷记录信息由2部分组成： 1).有属性标签表征的规范型数据； 2).无属性标签表征的短文本数据，即缺陷日志，称为非规范型数据；规范型数据具有便于计算机保存管理和编译的特点，目前有关继电保护数据研究方面的工作：状态检修、可靠性评估、关联规则获取、缺陷定级等都集中在此类数据；而缺陷日志这类半结构化文本数据虽蕴含着丰富的历史状态、检修举措及效果信息，但受限于多歧义、难切分、模糊性的特点，尚未得到挖掘；有鉴于此，本节基于某区域电网继电保护设备缺陷日志，分析日志格式，总结挖掘难点问题，并建立了数据处理模型。 3.根据权利要求1所述一种基于XGBoost模型的继电保护缺陷文本定级方法，其特征在于，在所述步骤2中基于词典的继电保护缺陷日志处理模型构建；工作包括噪音数据去除、分词处理和数据分类，具体地：本课题词典的构建流程主要如下:基于正则表达式的停用词识别方法，实现了缺陷文本中无关字词的剔除；采用机器与人工相结合的方法，构建了继电保护缺陷文本分词词典；采用潜在语义分析和决策树分类方法，实现了缺陷文本中的同义词合并；整合了停用词表、分词词典、同义词表各部分，最终构建了适用于保护装置缺陷文本分析的专业词典；利用词典和python工具库jieba函数包对缺陷数据进行分词，将非结构化的缺陷日志切分为质量较高的、信息准确的数据，为下一步利用词袋模型做基础。 4.根据权利要求1所述一种基于XGBoost模型的继电保护缺陷文本定级方法，其特征在于，在所述步骤3中，缺陷数据的文本向量化表达与特征提取，具体如下： 1)定义继电保护领域词典中的词汇作为特征项，简称为词项，所有词项的集合称为词表空间，将给定的缺陷文本数据转化为词项的序列，然后基于TF ‑IDF对词项的权重进行赋值；上述过程被称为词袋模型。 2)根据TF ‑IDF赋值法得到的继电保护领域词典共包含了4365个词汇，由此得到4365维的词表空间；根据TF ‑IDF法我们可以将缺陷文本转化得到4265维的词向量；用文本向量代表该条缺陷数据提供给分类器模型做后续处理计算。 5.根据权利要求1所述一种基于XGBoost模型的继电保护缺陷文本定级方法，其特征在于，在所述步骤4中，利用向量化文本结合XGBoost模型做训练，构建缺陷定级分类器，具体如下： 1)从训练集中抽取277条数据(测试集数据条数 ×学习率)，从数据中通过采样法训练基分类模型；权　利　要　求　书 1/2 页 2 CN 114818919 A 22)重复步骤1)150次形成150个决策树基分类器；每次数据采样过程中每条数据被采样概率不相同，每条数据被采样概率会随着每一个弱分类器的错误率赋予不同权值； 3)利用决策树基分类器对每条测试数据分类投票，根据正确率对票数有权向加获得票数最多一类，即为所划分的缺陷等级； 4)采用十折交叉法，评估XGBClas sifier准确率。权　利　要　求　书 2/2 页 3 CN 114818919 A 3

专利 一种基于XGBoost模型的继电保护缺陷文本定级方法

专利一种基于XGBoost模型的继电保护缺陷文本定级方法