专利融合主题与实体知识的新闻匹配方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210823699.6 (22)申请日 2022.07.14 (71)申请人昆明理工大学地址 650500 云南省昆明市呈贡区景明南路727号 (72)发明人余正涛　梁胤　朱恩昌　 (74)专利代理机构昆明隆合知识产权代理事务所(普通合伙) 53220 专利代理师何娇 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称融合主题与实体知识的新闻匹配方法 (57)摘要本发明提出一种融合主题与实体知识的新闻匹配方法，属于自然语言处理技术领域。该方法通过把待匹配的文本分别通过主题分析模型和实体识别工具得到主题与实体知识，提取到的主题和实体知识的特征对新闻文本进行进一步的理解，构成伪孪生网络的形式，计算两者的相似分数，判断其是否匹配。本发明提出的方法能够基于多种形式的新闻文本有效地提升匹配的准确率，适用于新闻与案件的新闻相关性匹配。权利要求书2页说明书7页附图1页 CN 115292447 A 2022.11.04 CN 115292447 A 1.融合主题与实体知识的新闻匹配方法，其特征在于：通过主题信息生成模型获取主题分布向量，然后利用主流实体识别模型识别出新闻的实体知识，并通过模板化词向量的方法获取实体知识嵌入向量，同时将主题分布向量、实体知识嵌入向量两个向量与新闻上下文语义表示向量进行融合，得到具备偏好的待匹配新闻上下文语义文本嵌入向量，再利用曼哈顿距离计算两者匹配度。 2.根据权利要求1所述的融合主题与实体知识的新闻匹配方法，其特征在于：所述融合主题与实体知识的新闻匹配方法的具体步骤如下： Step1、语料预处理：预处理不同规模的平行训练语料、验证语料和测试语料，用于模型训练、参数调优和效果测试； Step2、文本编码：获取预处理的新闻文档数据后，将其通过WoBERT模型进行训练获得具有上下文语义信息的词嵌入表征，从而得到新闻文本的词袋表示向量和词嵌入向量；训练过程中的输入编码向量是词、句和位置三个嵌入表征的结合； Step3、主题提取：利用主题信息生成模型BERT ‑ECTM获取主题分布向量，以获取新闻语料；具体为：将Step2中获取的新闻文本的词袋表示向量和词嵌入向量输入到主题分析模型中，获取具有新闻的主题分布； Step4、实体知识提取：当输入待匹配新闻进行命名实体识别后，输出其命名实体标注信息，选取其中的 “NR、 NS、 NT和T ”词性标签；利用模板Embedding方法获取新闻中的实体嵌入，使用“e”的嵌入来表示实体知识嵌入向量，利用最大池化中的平滑方式获取每个实体的实体嵌入；将Step2得到的BERT编码的新闻文本的词嵌入向量进行线性变换后将其与Step3 得到的新闻的主题分布向量和Step4得到的实体知识嵌入向量进行拼接，获取具备偏好的待匹配新闻上下文语义文本嵌入向量，用于后续文本匹配计算； Step5、匹配：根据得到的具有偏好的待匹配新闻的上下文语义文本嵌入向量，先计算两个的语义表示向量的曼哈顿距离，然后经过sigmoid函数进行归一化处理，从而计算新闻 a和新闻b的匹配度，也就是相似分数。 3.根据权利要求1所述的融合主题与实体知识的新闻匹配方法，其特征在于：所述 Step1的具体步骤为： Step1.1、选取若干个热点案件，爬取相关的新闻，并经过人工校对的方法，选取若干个案件相关的热点新闻； Step1.2、在Step1.1的所获得的热点新闻语料上，利用新闻匹配数据集构建方法，构成 “新闻‑新闻”对的形式，其中每个类别新闻正负例各5 00对，共13 000对； Step1.3、在Step1.2的基础上，将整个数据集划分为10600对训练集、 1200对验证集和 1200对测试集。 4.根据权利要求1所述的融合主题与实体知识的新闻匹配方法，其特征在于：所述 Step3的具体步骤为： Step3.1、将编码模块中获取的新闻文本的词袋表示向量和词嵌入向量输入到主题分析模型中，获取具有偏好的主题分布； Step3.2、从主题中采样，利用第n个单词的主题，根据主题，结合新闻的词嵌入向量进行解码，得到具备偏好的主题 ‑词分布Wdn；权　利　要　求　书 1/2 页 2 CN 115292447 A 2Step3.3、然后将主题 ‑词分布向量Wdn输入多头自注意力机制中进行计算，从而得到新的更具偏好的主题分布向量： Wdn～BERT‑ECTM(Qd,Nd) 其中Wdn表示具有偏好主题分布 ‑词分布向量， Mulit ‑Head‑Attention表示多头自注意力机制的计算过程， Md表示更具偏好的主题分布向量，将其融入到新闻匹配中，以提升其性能， d表示主题分布向量的维度大小。 5.根据权利要求1所述的融合主题与实体知识的新闻匹配方法，其特征在于：所述 Step4的具体步骤为： Step4.1、采用的中文命名实体识别工具jieba识别新闻中案件相关实体知识，当文本输入待匹配新闻进行命名实体识别后，输出其命名实体标注信息，选取其中的 “NR、 NS、 NT和 T”词性标签，其中NR对应人名这一实体类别， NS对应地名， NT对应组织机构名， T对应时间，实体用mi表示； Step4.2、因为新闻的实体知识数量有限，常规的实体嵌入编码方法并不合理，因此利用模板Embedding方法获取新闻中的实体嵌入ei；具体做法为：使用 “e”的嵌入来表示后文中提到的实体知识嵌入向量，利用最大池化中的平滑方式，即log ‑sumexp pooling获取每个实体mi的实体嵌入ei：其中i表示实体知识的数量， p表示实体知识嵌入的维度大小， p等于主题分布向量的维度大小d； n表示整个篇章中的词汇数目， ni表示实体词汇在句子中的排位； Step4.3、首先将BERT编码的新闻的词嵌入向量进行线性变换得到然后将其与新闻的主题分布向量和实体知识嵌入向量进行拼接，获取具备偏好的待匹配新闻上下文语义文本嵌入向量，用于后续文本匹配计算；其中q表示新闻上下文语义的嵌入维度大小， Md表示更具偏好的主题分布向量。 6.根据权利要求1所述的融合主题与实体知识的新闻匹配方法，其特征在于：所述 Step5的具体步骤为： Step5.1、根据Step4得到的具备偏好的待匹配新闻a和新闻b的上下文语义表示向量Hqa 和Hqb，第一步便是计算Hqa和Hqb的曼哈顿距离；选择曼哈顿距离作为损失函数，原因是新闻无论是结构还是语义具有较大的差异性，计算新闻的直接差异性来判断是否匹配表现一般；故而根据曼哈顿距离定义，推断其更适于计算待匹配新闻的实际距离，进一步判断是否匹配； Step5.2、将得到的曼哈顿距离经过sigmoid函数进行归一化处理，从而计算新闻a和新闻b的匹配度，也就是相似分数； Similarity(Nout,Xout)＝1‑sigmoid(manhat tan(Hqa,Hqb)) P＝Simlarity(Hqa,Hqb) 其中P表示待匹配文本计算出的匹配分数，当P>0.6时，预测待匹配的新闻是匹配的。权　利　要　求　书 2/2 页 3 CN 115292447 A 3

专利 融合主题与实体知识的新闻匹配方法

专利融合主题与实体知识的新闻匹配方法