专利融合文档主题特征的跨境民族文本排序方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210735924.0 (22)申请日 2022.06.27 (71)申请人昆明理工大学地址 650500 云南省昆明市呈贡区景明南路727号 (72)发明人毛存礼　陈春吉　余正涛　黄于欣　郝鹏鹏　张勇丙　 (74)专利代理机构昆明隆合知识产权代理事务所(普通合伙) 53220 专利代理师何娇 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称融合文档主题特征的跨境民族文本排序方法及装置 (57)摘要本发明涉及融合文档主题特征的跨境民族文本排序方法及装置，属于自然语言处理技术领域。为了解决跨境民族文本数据中语义缺失的问题，本发明提出了一种融合文档主题特征的跨境民族文本排序方法，主要包括：跨境民族文本数据预处理、跨境民族文化知识图谱特征表示、跨境民族文化文档主题特征提取、融合文档主题特征的跨境民族文本排序方法训练、跨境民族文化文本排序预测五个部分构成。本发明根据上述步骤实现了跨境民族文化文本数据的检索排序装置，具有重要的理论和实际运用价值。权利要求书2页说明书10页附图2页 CN 115114400 A 2022.09.27 CN 115114400 A 1.融合文档主题特征的跨境民族文本排序方法，其特征在于：所述融合文档主题特征的跨境民族文本排序方法的具体步骤如下： Step1、跨境民族文本数据预处理：获得傣族、泰族、彝族、倮倮族四个跨境民族文本数据；采用预训练模型训练跨境民族文化文本数据获得文本词向量表征；利用知识表示模型捕获跨境民族文化知识图谱中的实体特征，利用特征融合的方式增强跨境民族文化文本数据中的实体语义信息；利用文本聚类模型提取跨境民族文化文本数据主题特征信息；利用注意力机制将其与查询文本和待查询文本特征融合； Step2、融合文档主题特征的跨境民族文本排序模型训练：对检索文本中的跨境民族文化实体进行实体语义的扩展，利用文本的潜在主题特征信息捕获检索文本和待检索文本之间的关联关系缓解检索文本中文本语义缺失的问题；计算查询文本和待查询文本之间的文本相似度利用排序学习的方法计算查询文本和待查询文本之间的相关性，最终完成跨境民族文本排序模型训练，获得跨境民族文本排序模型； Step3、跨境民族文本检索排序预测：通过训练跨境民族文本排序模型对输入的检索句进行检索并排序。 2.根据权利要求1所述的融合文档主题特征的跨境民族文本排序方法，其特征在于，所述Step1包括： Step1.1、通过爬虫技术爬取各大民族网站获取跨境民族文化文本数据，经过筛选、过滤、去重、去特殊符号操作后获得傣族、泰族、彝族、倮倮族文本数据对20000条，其中包括正样本数据10000条，负样本数据10000条，包含28个跨境民族文化类别，句对的平均长度是 145个字符； Step1.2、对预处理后的跨境民族文化文本数据分句处理，利用人工构建的跨境民族文化词库联合分词工具对跨境民族文化句进行分词，采用预训练模型训练跨境民族文化文本数据得到词向量表示； Step1.3、采用知识表示模型对跨境民族文化知识图谱中的三元组关系进行表示，将跨境民族文化知识图谱中的每一组关系中的头结点h和尾结点t映射到一个向量空间的超平面上H；抽取检索文本中特定的跨境民族文化实体，利用知识表示模型得到实体的向量表示；对查询文本采用分词工具并结合跨境民族文化领域词库分词，采用预先训练好的 Word2Vec模型对其进行embedding嵌入，得到向量表示；最后采用拼接的方式将上述两种特征向量融合。 3.根据权利要求1所述的融合文档主题特征的跨境民族文本排序方法，其特征在于，所述Step1中，所述利用文本聚类模型提取跨境民族文化文本数据主题特征信息的具体步骤为： Step1.4、利用跨境民族文化文本数据中的实体、主题之间的关联关系构建跨境民族文化文档关联分析图，引入异构图卷积神经网络并进行跨境民族文化文本数据全局特征的提取，对于跨境民族文化文本数据的局部特征采用长短期记忆网络获得，将跨境民族文化文本的局部特征和全局特征信息拼接后输入到多层感知器中，对其进行迭代训练得到跨境民族文化文本聚类模型； Step1.5、为了得到检索文本和待检索文本的主题特征信息，利用跨境民族文化文本聚类模型捕获文本数据中的潜在主题特征Z，将其作为注意力向量的q和向量化表示的检索文权　利　要　求　书 1/2 页 2 CN 115114400 A 2本X计算得到注意力权重a，具体的计算方式如下公式所示；待检索文本和检索文本融合主题特征的方式相同： l表示该检索文本的长度。 4.根据权利要求1所述的融合文档主题特征的跨境民族文本排序方法，其特征在于，所述Step1中，所述利用注意力机制将其与查询文本和待查询文本特征融合的具体步骤为： Step1.6、利用CNN网络联合注意力机制网络提取文本局部特征，获取跨境民族文化文本数据中更重要的特征信息，并将特征信息传递给前馈网络，完成跨境民族文化文本数据的第一次局部特征抽取，对得到的局部特征进行第二次特征的抽取，最后采用残差网络和第一次抽取的特征信息进行联合，共同组成跨境民族文化文本数据的表征向量。 5.根据权利要求1所述的融合文档主题特征的跨境民族文本排序方法，其特征在于，所述Step2包括： (1)、通过获得的查询文本和待查询文本语义表征向量Vquery和Vresult，将上述两种向量采用余弦相似度计算得到相似度矩阵其中每个元素为对应的余弦相似度； (2)、利用高斯核函数将获得的相似度矩阵Msimilarity中的特征向量映射成高阶特征，将得到的高阶特征向量拼接后计算查询文本和待检索文本之间的相关性，最后利用排序学习方法对检索文本和待检索文本的相关性向量进行线性计算，最后根据相关性得分进行排序。 6.融合文档主题特征的跨境民族文本排序装置，其特征在于，包括用于执行如权利要求1‑5任一项权利要求所述方法的模块。权　利　要　求　书 2/2 页 3 CN 115114400 A 3

专利 融合文档主题特征的跨境民族文本排序方法及装置

专利融合文档主题特征的跨境民族文本排序方法及装置