说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210643031.3 (22)申请日 2022.06.08 (71)申请人 浙江工业大 学 地址 310014 浙江省杭州市拱 墅区潮王路 18号 (72)发明人 高楠 王永健 吴一鸣 陈朋  (74)专利代理 机构 杭州天正专利事务所有限公 司 33201 专利代理师 楼明阳 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 16/33(2019.01) G06F 40/258(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) (54)发明名称 一种基于双知识图谱的新闻标题短文本分 类方法 (57)摘要 一种基于双知识图谱的新闻标题短文本分 类方法, 包含: 对新闻标题短文本进行预处理, 去 除特殊字符; 通过jieb a分词工具提取新闻标题 中的关键词, 去除停用词; 通过CNDBPedia外部知 识库提供的API, 将关键词链接到外部知识库获 取实体集合; 通过余弦相似度对实体集合进行消 岐, 得到候选实体集合; 基于全局关键词共现信 息, 构建领域知识图, 解决OOV问题; 通过链接到 外部知识库获取与实体相关的解释信息, 丰富上 下文语义信息; 使用BERT获取原始新闻标题和实 体链接的解释信息的字 符级向量表 示, 并融合这 两部分的向量表示, 以弥补短文本信息不足的缺 点; 使用TextCNN来提取多个连续单词之间的N ‑ grams特征, 捕捉深层次的语义信息; 最后通过 Softmax函数进行分类, 得到最终的分类结果。 权利要求书2页 说明书5页 附图2页 CN 114996455 A 2022.09.02 CN 114996455 A 1.一种基于双 知识图谱的新闻标题短文本分类方法, 包 含以下步骤: 步骤1: 对新闻标题短文本进行预处理, 去除特殊字符; 并根据哈工大停用词表去除停 用词; 步骤2: 通过jieba分词工具提取新闻标题中的关键词; 步骤3: 通过CNDBPedi a外部知识库提供的API, 将关键词链接到外部知识库获取实体集 合; 步骤4: 通过余弦相似度对获取到的实体集合进行消岐, 得到候选实体集合; 对于步骤3 获得的实体集合, 使用BERT获取实体集合和新闻标题的向量表示; 然后使用余弦相 似度计 算实体Ei与新闻标题Si的相似度, 选取相似度得分最高的实体加入候选实体集 合; 步骤5: 基于全局关键词共现信息, 构建一张领域知识图, 解决O OV问题; 5.1)以关键词为节点构建一张领域知识图; 具体来说, 使用固定大小的滑动窗口来收 集关键词共现信息; 使用逐点互信息P MI来计算两个 关键词节点之间的权重; 文本中两个关 键词同时出现的概率越高, 就表明这两个 关键词之间的相关性越强; 当P MI的值小于0时, 就 认为这两个关键词之间的关系是弱相关的; 只有PMI值大于0, 才会在两个关键词之间创建 一条边; PMI的计算过程如下 所示: 这里#W(i)代表语料库 中包含关键词i的滑动窗口的数量, #W(i,j)代表同时包含关键 词i和关键词j的滑动窗口 的数量, #W代 表滑动窗口 的总数量; 5.2)当实体链接出现OOV问题时, 从领域知识图中查询这个关键词的邻居节点; 根据 PMI计算的权重值对邻居节点排序, 取出排名前三的邻居节点; 首先使用排名最低的邻居节 点替换原有的关键词, 重新从外部知识库中链接实体, 如果依旧出现OOV问题, 则依次取出 下一个排名的邻居重新链接, 直至成功或遍历结束为止; 步骤6: 对于候选实体集合中的每个实体, 通过链接到CNDBPedia外部知识库获取与该 实体相关的解释信息, 丰富上 下文语义信息; 步骤7: 使用BERT获取原始新闻标题和实体链接的解释信息的字符级向量表示, 并融合 这两部分的向量表示, 以弥补短文本信息不足的缺 点; 采用微调的预训练模型BERT来获取字符级语义信息; 使用字符级嵌入代替词嵌入; 假设新闻标题短文本S长度为n, 解释信息K长度为l, 向量维度为d; 若新闻标题或解释 信息的长度不够长, 则使用<PAD>来填充句子, 反之截断多余的部分; 这样我们就可以获得 短文本语义矩阵Ws和解释信息语义矩阵Wk; 权 利 要 求 书 1/2 页 2 CN 114996455 A 2代表新闻标题短文 本S中的第i个单词的d维向量表示, 代表向量拼接操作; 因 此, 语义增强后的特 征表示矩阵 步骤8: 采用TextCN N提取多个连续单词之间的N ‑grams特征, 捕捉深层次的语义信息; 卷积层采用 大小的卷积核作用于长度为n+l个单词的语义矩阵,可以得到深 层次的语义特 征; ci=f(w·xi:i+h‑1+b)    (7) 这里 代表偏置项, f是非线性激活函数, 最终就可以得到一个新的特 征矩阵c; c=[c1,c2,…,cn‑h+1]     (8) 池化层用来捕获最重要的特征值, 并采用dropout随机初始化特征值为0; dropout是一 种正则化手段, 用来避免模型过拟合; 将不同大小 卷积核得到的特征矩阵拼接到一块, 输入 全连接层用于分类; 步骤9: 通过softmax激活函数输出每 个类别的概 率值, 得到最终的分类结果。 2.如权利要求1所述的一种基于双知识图谱的新闻标题短文本分类方法, 其特征在于: 步骤1所述的特殊字符包括中英文标点符号、 英文字符、 数字和特殊符号。 3.如权利要求1所述的一种基于双知识图谱的新闻标题短文本分类方法, 其特征在于: 步骤8所述的TextCN N包括卷积层、 池化层和全连接层。权 利 要 求 书 2/2 页 3 CN 114996455 A 3

.PDF文档 专利 一种基于双知识图谱的新闻标题短文本分类方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于双知识图谱的新闻标题短文本分类方法 第 1 页 专利 一种基于双知识图谱的新闻标题短文本分类方法 第 2 页 专利 一种基于双知识图谱的新闻标题短文本分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。