说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210443543.5 (22)申请日 2022.04.26 (71)申请人 华北电力大 学 地址 102206 北京市昌平区北农路2号 (72)发明人 薛安成 陶畅 景子洋 欧阳明浩   洪海雁 王书鸿 邓雄耀  (51)Int.Cl. G06K 9/62(2022.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/289(2020.01) G06F 40/242(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06Q 50/06(2012.01) (54)发明名称 一种基于Bagging模型的继电保护缺陷文本 定级方法 (57)摘要 本发明提供一种基于Bagging模型的继电保 护缺陷文本定级方法。 首先通过AI技术和人工结 合的方式构建继电保护专业词典, 主要包括停用 词表, 同义词表和专业词表的构建。 进一步的, 利 用继电保护专业词典完成对继电保护缺陷文本 的预处理工作, 对缺陷文本进行数据清洗和分词 操作。 其次, 基于TF ‑IDF赋值法将每条缺陷数据 做文本向量化表达, 引入集成学习Bagging模型, 并利用模型对向量化数据训练处理。 最后构建出 适合实际要求的保护装置缺陷定级分类器。 该方 法直接从保护缺陷记录文本出发, 文本预处理后 通过TF‑IDF向量化获取缺陷文本中的特征, 采取 Bagging模型训练出缺陷定级分类器, 基于该方 法构建的缺陷文本定级分类器可以为现场运维 人员提供辅助决策和缺陷数据分析处 理做参考。 权利要求书2页 说明书5页 附图2页 CN 114881130 A 2022.08.09 CN 114881130 A 1.一种基于Ba gging模型的继电保护缺陷文本 定级方法, 所述方法包括: 步骤1、 构建继电保护专业词典; 步骤2、 完成对继电保护缺陷文本的预处 理工作; 步骤3、 缺陷数据的文本向量 化表达与特 征提取; 步骤4、 引入集成学习Ba gging模型, 构建保护装置缺陷定级分类 器。 2.根据权利 要求1所述一种基于Bagging模型的继电保护缺陷文本定级方法, 其特征在 于, 在所述步骤1中, 构建继电保护专业词典包括停用词表, 专业词典和同义词表构建三部 分: 首先应用基于正则表达式的停用词识别方法, 实现了缺陷文本中无关字词的剔除; 采 用jieba(结巴)分词 与人工相结合的方法, 构建了继电保护缺陷文本 分词词典; 采用潜在语 义分析和决策树分类方法, 实现了缺陷文本中的同义词合并; 整合了停用 词表、 分词词典、 同义词表各部分, 最终构建了适用于保护装置缺陷文本分析的专业词典。 如表3所示。 表3继电保护缺陷专业词典 。 3.根据权利 要求1所述一种基于Bagging模型的继电保护缺陷文本定级方法, 其特征在 于, 在所述步骤2中, 继电保护缺陷文本的预处理工作包括噪音数据去除、 分词处理和数据 分类, 具体地: 首先, 对缺陷文本数据进行清洗, 删除重复缺陷记录、 空白缺陷记录等无意义数据; 然 后, 按照缺陷等级将缺陷文本 分为危急、 严重、 一般三部 分, 利用jieba分词结合专 业词典的 方法分别进行分词处 理; 重复缺陷记录剔除、 空白缺陷记录删除及按照缺陷等级的缺陷文本划分通过excel软 件筛选完成; 之后将三组文本转换为txt格式文档存 储以备调用。 4.根据权利 要求1所述一种基于Bagging模型的继电保护缺陷文本定级方法, 其特征在 于, 在所述 步骤3中, 缺陷数据的文本向量 化表达与特 征提取, 具体如下: 1)定义继电保护领域词典中的词汇作为特征项, 简称为词项, 所有词项的集合称为词 表空间, 将给定的缺陷文本数据转化为词项的序列, 然后基于TF ‑IDF对词项的权重进行赋 值; 上述过程被称为词袋模型; 2)根据TF ‑IDF赋值法得到的继电保护领域词典共包含了4365个词汇, 由此得到4365维 的词表空间。 根据TF ‑IDF法我们可以将缺陷文本转化得到4265维的词向量; 用文本向量代 表该条缺陷数据提供 给分类器模型做后续处 理计算。 5.根据权利 要求1所述一种基于Bagging模型的继电保护缺陷文本定级方法, 其特征在 于, 在所述步骤4中, 利用向量化文本结合Bagging模型做训练, 构建缺陷定级分类器, 具体 如下:权 利 要 求 书 1/2 页 2 CN 114881130 A 21)从训练集中抽取2820条数据(测试集数据条数 ×学习率), 从数据中通过自主采样法 训练基分类模型; 2)重复步骤1)6 00次形成6 00个决策树基分类 器; 3)利用决策树基分类 器对每条测试 数据分类投票, 划分缺陷等级; 4)采用十折交叉法, 评估Ba ggingClassifier准确率。权 利 要 求 书 2/2 页 3 CN 114881130 A 3

.PDF文档 专利 一种基于Bagging模型的继电保护缺陷文本定级方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于Bagging模型的继电保护缺陷文本定级方法 第 1 页 专利 一种基于Bagging模型的继电保护缺陷文本定级方法 第 2 页 专利 一种基于Bagging模型的继电保护缺陷文本定级方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。