专利一种基于双知识图谱的新闻标题短文本分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210643031.3 (22)申请日 2022.06.08 (71)申请人浙江工业大学地址 310014 浙江省杭州市拱墅区潮王路 18号 (72)发明人高楠　王永健　吴一鸣　陈朋　 (74)专利代理机构杭州天正专利事务所有限公司 33201 专利代理师楼明阳 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 16/33(2019.01) G06F 40/258(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) (54)发明名称一种基于双知识图谱的新闻标题短文本分类方法 (57)摘要一种基于双知识图谱的新闻标题短文本分类方法，包含：对新闻标题短文本进行预处理，去除特殊字符；通过jieb a分词工具提取新闻标题中的关键词，去除停用词；通过CNDBPedia外部知识库提供的API，将关键词链接到外部知识库获取实体集合；通过余弦相似度对实体集合进行消岐，得到候选实体集合；基于全局关键词共现信息，构建领域知识图，解决OOV问题；通过链接到外部知识库获取与实体相关的解释信息，丰富上下文语义信息；使用BERT获取原始新闻标题和实体链接的解释信息的字符级向量表示，并融合这两部分的向量表示，以弥补短文本信息不足的缺点；使用TextCNN来提取多个连续单词之间的N ‑ grams特征，捕捉深层次的语义信息；最后通过 Softmax函数进行分类，得到最终的分类结果。权利要求书2页说明书5页附图2页 CN 114996455 A 2022.09.02 CN 114996455 A 1.一种基于双知识图谱的新闻标题短文本分类方法，包含以下步骤：步骤1：对新闻标题短文本进行预处理，去除特殊字符；并根据哈工大停用词表去除停用词；步骤2：通过jieba分词工具提取新闻标题中的关键词；步骤3：通过CNDBPedi a外部知识库提供的API，将关键词链接到外部知识库获取实体集合；步骤4：通过余弦相似度对获取到的实体集合进行消岐，得到候选实体集合；对于步骤3 获得的实体集合，使用BERT获取实体集合和新闻标题的向量表示；然后使用余弦相似度计算实体Ei与新闻标题Si的相似度，选取相似度得分最高的实体加入候选实体集合；步骤5：基于全局关键词共现信息，构建一张领域知识图，解决O OV问题； 5.1)以关键词为节点构建一张领域知识图；具体来说，使用固定大小的滑动窗口来收集关键词共现信息；使用逐点互信息P MI来计算两个关键词节点之间的权重；文本中两个关键词同时出现的概率越高，就表明这两个关键词之间的相关性越强；当P MI的值小于0时，就认为这两个关键词之间的关系是弱相关的；只有PMI值大于0，才会在两个关键词之间创建一条边； PMI的计算过程如下所示：这里#W(i)代表语料库中包含关键词i的滑动窗口的数量， #W(i,j)代表同时包含关键词i和关键词j的滑动窗口的数量， #W代表滑动窗口的总数量； 5.2)当实体链接出现OOV问题时，从领域知识图中查询这个关键词的邻居节点；根据 PMI计算的权重值对邻居节点排序，取出排名前三的邻居节点；首先使用排名最低的邻居节点替换原有的关键词，重新从外部知识库中链接实体，如果依旧出现OOV问题，则依次取出下一个排名的邻居重新链接，直至成功或遍历结束为止；步骤6：对于候选实体集合中的每个实体，通过链接到CNDBPedia外部知识库获取与该实体相关的解释信息，丰富上下文语义信息；步骤7：使用BERT获取原始新闻标题和实体链接的解释信息的字符级向量表示，并融合这两部分的向量表示，以弥补短文本信息不足的缺点；采用微调的预训练模型BERT来获取字符级语义信息；使用字符级嵌入代替词嵌入；假设新闻标题短文本S长度为n，解释信息K长度为l，向量维度为d；若新闻标题或解释信息的长度不够长，则使用<PAD>来填充句子，反之截断多余的部分；这样我们就可以获得短文本语义矩阵Ws和解释信息语义矩阵Wk；权　利　要　求　书 1/2 页 2 CN 114996455 A 2代表新闻标题短文本S中的第i个单词的d维向量表示，代表向量拼接操作；因此，语义增强后的特征表示矩阵步骤8：采用TextCN N提取多个连续单词之间的N ‑grams特征，捕捉深层次的语义信息；卷积层采用大小的卷积核作用于长度为n+l个单词的语义矩阵,可以得到深层次的语义特征； ci＝f(w·xi:i+h‑1+b) (7) 这里代表偏置项， f是非线性激活函数，最终就可以得到一个新的特征矩阵c； c＝[c1,c2,…,cn‑h+1] (8) 池化层用来捕获最重要的特征值，并采用dropout随机初始化特征值为0； dropout是一种正则化手段，用来避免模型过拟合；将不同大小卷积核得到的特征矩阵拼接到一块，输入全连接层用于分类；步骤9：通过softmax激活函数输出每个类别的概率值，得到最终的分类结果。 2.如权利要求1所述的一种基于双知识图谱的新闻标题短文本分类方法，其特征在于：步骤1所述的特殊字符包括中英文标点符号、英文字符、数字和特殊符号。 3.如权利要求1所述的一种基于双知识图谱的新闻标题短文本分类方法，其特征在于：步骤8所述的TextCN N包括卷积层、池化层和全连接层。权　利　要　求　书 2/2 页 3 CN 114996455 A 3

专利 一种基于双知识图谱的新闻标题短文本分类方法

专利一种基于双知识图谱的新闻标题短文本分类方法