说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210823699.6 (22)申请日 2022.07.14 (71)申请人 昆明理工大 学 地址 650500 云南省昆明市呈贡区景明南 路727号 (72)发明人 余正涛 梁胤 朱恩昌  (74)专利代理 机构 昆明隆合知识产权代理事务 所(普通合伙) 53220 专利代理师 何娇 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 融合主题与实体知识的新闻匹配方法 (57)摘要 本发明提出一种融合主题与实体知识的新 闻匹配方法, 属于自然语言处理技术领域。 该方 法通过把待匹配的文本分别通过主题分析模型 和实体识别工具得到主题与实体知识, 提取到的 主题和实体知识的特征对新闻文本进行进一步 的理解, 构成伪孪生网络的形式, 计算两者的相 似分数, 判断其是否匹配。 本发明提出的方法能 够基于多种形式的新闻文本有效地提升匹配的 准确率, 适用于新闻与案件的新闻相关性匹配 。 权利要求书2页 说明书7页 附图1页 CN 115292447 A 2022.11.04 CN 115292447 A 1.融合主题与实体知识的新闻匹配方法, 其特征在于: 通过主题信息生成模型获取主 题分布向量, 然后利用主流实体识别模型识别出新闻的实体知识, 并通过模板化词向量的 方法获取实体知识嵌入向量, 同时将主题分布向量、 实体知识嵌入向量两个向量与新闻上 下文语义表示向量进行融合, 得到具备偏好的待匹配新闻上下文语义文本嵌入向量, 再利 用曼哈顿距离计算两者匹配度。 2.根据权利要求1所述的融合主题与实体知识的新闻匹配方法, 其特征在于: 所述融合 主题与实体知识的新闻匹配方法的具体步骤如下: Step1、 语料预处理: 预处理不同规模的平行训练语料、 验证语料和测试语料, 用于模型 训练、 参数调优和效果测试; Step2、 文本编码: 获取预处理的新闻文档数据后, 将其通过WoBERT模型进行训练获得 具有上下文语义信息的词嵌入表征, 从而得到新闻文本的词袋表示向量和词嵌入向量; 训 练过程中的输入编码向量是词、 句和位置三个嵌入表征的结合; Step3、 主题提取: 利用主题信息生成模型BERT ‑ECTM获取主题分布向量, 以获取新闻语 料; 具体为: 将Step2中获取的新闻文本的词袋表 示向量和词嵌入向量输入到主题分析模 型 中, 获取具有新闻的主题分布; Step4、 实体知识提取: 当输入待匹配新闻进行命名实体识别后, 输出其命名实体标注 信息, 选取其中的 “NR、 NS、 NT和T ”词性标签; 利用模板Embedding方法获取新闻中的实体嵌 入, 使用“e”的嵌入来表示 实体知识嵌入向量, 利用最大池化中的平滑方式获取每个实体的 实体嵌入; 将Step2得到的BERT编码的新闻文本的词嵌入向量进行线性变换后将其与Step3 得到的新闻的主题分布向量和Step4得到的实体知识嵌入向量进行拼接, 获取具备偏好的 待匹配新闻上 下文语义文本嵌入向量, 用于后续文本匹配 计算; Step5、 匹配: 根据得到的具有偏好的待匹配新闻的上下文语义文本嵌入向量, 先计算 两个的语义表 示向量的曼哈顿距离, 然后经过sigmoid函数进 行归一化处理, 从而计算新闻 a和新闻b的匹配度, 也 就是相似分数。 3.根据权利要求1所述的融合主题与实体知识的新闻匹配方法, 其特征在于: 所述 Step1的具体步骤为: Step1.1、 选取若干个热点案件, 爬取相关的新 闻, 并经过人工校对的方法, 选取若干个 案件相关的热点 新闻; Step1.2、 在Step1.1的所获得的热点新闻语料上, 利用新闻匹配数据 集构建方法, 构成 “新闻‑新闻”对的形式, 其中每 个类别新闻正负例各5 00对, 共13 000对; Step1.3、 在Step1.2的基础上, 将整个数据集划分为10600对训练集、 1200对验证集和 1200对测试集。 4.根据权利要求1所述的融合主题与实体知识的新闻匹配方法, 其特征在于: 所述 Step3的具体步骤为: Step3.1、 将编码模块中获取的新闻文本的词袋表示向量 和词嵌入向量 输入到主题分析模型中, 获取 具有偏好的主题分布; Step3.2、 从主题中采样, 利用第n个单词的主题, 根据主题, 结合新闻的词嵌入向量 进行解码, 得到具 备偏好的主题 ‑词分布Wdn;权 利 要 求 书 1/2 页 2 CN 115292447 A 2Step3.3、 然后将主题 ‑词分布向量Wdn输入多头自注意力机制中进行计算, 从而得到新 的更具偏好的主题分布向量: Wdn~BERT‑ECTM(Qd,Nd) 其中Wdn表示具有偏好主题分布 ‑词分布向量, Mulit ‑Head‑Attention表示多头自注意 力机制的计算过程, Md表示更具偏好的主题分布向量, 将其融入到新闻匹配中, 以提升其性 能, d表示主题分布向量的维度大小。 5.根据权利要求1所述的融合主题与实体知识的新闻匹配方法, 其特征在于: 所述 Step4的具体步骤为: Step4.1、 采用的中文命名实体识别工具jieba识别新闻中案件相关实体知识, 当文本 输入待匹配新闻进行命名实体识别后, 输出其命名实体标注信息, 选取其中的 “NR、 NS、 NT和 T”词性标签, 其中NR对应人名这一实体类别, NS对应地名, NT对应组织机构名, T对应时间, 实体用mi表示; Step4.2、 因为新闻的实体知识数量有限, 常规的实体嵌入编码方法并不合理, 因此利 用模板Embedding方法获取新闻中的实体嵌入ei; 具体做法为: 使用 “e”的嵌入来表示后文 中提到的实体知识嵌入向量, 利用最大池化中的平滑方式, 即log ‑sumexp pooling获取每 个实体mi的实体嵌入ei: 其中i表示实体知识的数量, p表示实体知识嵌入的维度大小, p等于主题分布向量的维 度大小d; n表示整个篇 章中的词汇数目, ni表示实体词汇在句子中的排 位; Step4.3、 首先将BERT编码的新闻的词嵌入向量 进行线性变换得到 然后将其与新闻的主题分布向量和实体知识嵌入向量进行拼接, 获取具备偏好的待匹配新 闻上下文语义文本嵌入向量, 用于后续文本匹配 计算; 其中q表示 新闻上下文语义的嵌入维度大小, Md表示更具偏好的主题分布向量。 6.根据权利要求1所述的融合主题与实体知识的新闻匹配方法, 其特征在于: 所述 Step5的具体步骤为: Step5.1、 根据Step4得到的具备偏好的待匹配新闻a和新闻b的上下文语义表示向量Hqa 和Hqb, 第一步便是计算Hqa和Hqb的曼哈顿距离; 选择曼哈顿距离作为损失函数, 原因是新闻 无论是结构还是语义具有较大的差异性, 计算新闻的直接差异性来判断是否匹配表现一 般; 故而根据曼哈顿距离定义, 推断其更适于计算待匹配新闻的实际距离, 进一步判断是否 匹配; Step5.2、 将得到的曼哈顿距离经过sigmoid函数进行归一化处理, 从而计算新闻a和新 闻b的匹配度, 也 就是相似分数; Similarity(Nout,Xout)=1‑sigmoid(manhat tan(Hqa,Hqb)) P=Simlarity(Hqa,Hqb) 其中P表示待匹配文本计算出的匹配分数, 当P>0.6时, 预测待匹配的新闻是匹配的。权 利 要 求 书 2/2 页 3 CN 115292447 A 3

.PDF文档 专利 融合主题与实体知识的新闻匹配方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 融合主题与实体知识的新闻匹配方法 第 1 页 专利 融合主题与实体知识的新闻匹配方法 第 2 页 专利 融合主题与实体知识的新闻匹配方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。