说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210735924.0 (22)申请日 2022.06.27 (71)申请人 昆明理工大 学 地址 650500 云南省昆明市呈贡区景明南 路727号 (72)发明人 毛存礼 陈春吉 余正涛 黄于欣  郝鹏鹏 张勇丙  (74)专利代理 机构 昆明隆合知识产权代理事务 所(普通合伙) 53220 专利代理师 何娇 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 融合文档主题特征的跨境民族文本排序方 法及装置 (57)摘要 本发明涉及融合文档主题特征的跨境民族 文本排序方法及装置, 属于自然语 言处理技术领 域。 为了解决跨境民族文本数据中语义缺失的问 题, 本发明提出了一种融合文档主题特征的跨境 民族文本排序方法, 主要包括: 跨境民族文本数 据预处理、 跨境民族文化知识图谱特征表示、 跨 境民族文化文档主题特征提取、 融合文档主题特 征的跨境民族文本排序方法训练、 跨境民族文化 文本排序预测五个部分构成。 本发 明根据上述步 骤实现了跨境民族文化文本数据的检索排序装 置, 具有重要的理论和实际运用价 值。 权利要求书2页 说明书10页 附图2页 CN 115114400 A 2022.09.27 CN 115114400 A 1.融合文档主题特征的跨境民族文本排序方法, 其特征在于: 所述融合文档主题特征 的跨境民族文本排序方法的具体步骤如下: Step1、 跨境民族文本数据预处理: 获得傣族、 泰族、 彝族、 倮倮族四个跨境民族文本数 据; 采用预训练模型训练跨境民族文化文本数据获得文本词向量表征; 利用知识表示模型 捕获跨境民族文化知识图谱中的实体特征, 利用特征融合的方式增强跨境民族文化文本数 据中的实体语义信息; 利用文本聚类模型提取跨境民族文化文本数据主题特征信息; 利用 注意力机制将其与查询文本和待查询文本特 征融合; Step2、 融合文档主题特征的跨境民族文本排序模型训练: 对检索文本中的跨境民族文 化实体进 行实体语义的扩展, 利用文本的潜在主题特征信息捕获检索文本和待检索 文本之 间的关联关系缓解检索 文本中文本语义缺失的问题; 计算查询文本和待查询文本之 间的文 本相似度利用排序学习的方法计算查询文本和待查询文本之间的相关性, 最 终完成跨境民 族文本排序模型训练, 获得跨 境民族文本排序模型; Step3、 跨境民族文本检索排序预测: 通过训练跨境民族文本排序模型对输入的检索句 进行检索并排序。 2.根据权利要求1所述的融合文档主题特征的跨境民族文本排序方法, 其特征在于, 所 述Step1包括: Step1.1、 通过爬虫技术爬取各大民族网站获取跨境民族文化文本数据, 经过筛选、 过 滤、 去重、 去特殊符号操作后获得傣族、 泰族、 彝族、 倮倮族文本数据对20000条, 其中包括正 样本数据10000条, 负样本数据10000条, 包含28个跨境民族文化类别, 句对的平均长度是 145个字符; Step1.2、 对预处理后的跨境民族文化文本数据分句处理, 利用人工构 建的跨境民族文 化词库联合分词工具对跨境民族文化句进 行分词, 采用预训练模型训练跨境民族文化文本 数据得到词向量表示; Step1.3、 采用知识表示模型对跨境民族文化知识图谱中的三元组关系进行表示, 将跨 境民族文化知识图谱中的每一组关系中的头结点h和尾结点t映射到一个 向量空间的超平 面上H; 抽取检索文本中特定的跨境民族文化实体, 利用知识表示模型得到实体的向量表 示; 对查询文本采用分词工具并结合跨境民族文化领域词库分词, 采用预先训练好的 Word2Vec模型对其进行embedding嵌入, 得到向量表示; 最后采用拼接的方式将上述两种特 征向量融合。 3.根据权利要求1所述的融合文档主题特征的跨境民族文本排序方法, 其特征在于, 所 述Step1中, 所述利用文本聚类模型提取跨境民族文化文本数据主题特征信息的具体步骤 为: Step1.4、 利用跨境民族文化文本数据中的实体、 主题之间的关联关系构 建跨境民族文 化文档关联分析图, 引入异构图卷积神经网络并进行跨境民族文化文本数据全局特征的提 取, 对于跨境民族文化文本数据的局部特征采用长短期记忆网络获得, 将跨境民族文化文 本的局部特征和全局特征信息拼接后输入到多层感知器中, 对其进行迭代训练得到跨境民 族文化文本聚类模型; Step1.5、 为了得到检索文本和待检索文本的主题特征信息, 利用跨境民族文化文本聚 类模型捕获文本数据中的潜在主题特征Z, 将其作为注意力向量的q和向量化表示的检索 文权 利 要 求 书 1/2 页 2 CN 115114400 A 2本X计算得到注意力权重a, 具体的计算方式如下公式所示; 待检索文本和检索文本融合主 题特征的方式相同: l表示该检索文本的长度。 4.根据权利要求1所述的融合文档主题特征的跨境民族文本排序方法, 其特征在于, 所 述Step1中, 所述利用注意力机制将其与查询文本和待查询文本特 征融合的具体步骤为: Step1.6、 利用CNN网络联合注意力机制网络提取文本局部特征, 获取跨境民族文化文 本数据中更重要的特征信息, 并将特征信息传递给前馈网络, 完成跨境民族文化文本数据 的第一次局部特征抽取, 对得到的局部特征进行第二次特征 的抽取, 最后采用残差网络和 第一次抽取的特 征信息进行 联合, 共同组成跨 境民族文化文本数据的表征向量。 5.根据权利要求1所述的融合文档主题特征的跨境民族文本排序方法, 其特征在于, 所 述Step2包括: (1)、 通过获得的查询 文本和待查询 文本语义表征向量Vquery和Vresult, 将上述两种向量 采用余弦相似度计算得到相似度矩阵 其中每个元素为对应的余弦 相似度; (2)、 利用高斯核函数将获得的相似度矩阵Msimilarity中的特征向量映射成高阶特征, 将 得到的高阶特征向量拼接后计算查询文本和待检索文本之 间的相关性, 最后利用排序学习 方法对检索文本和待检索文本的相关性向量进行线性计算, 最后根据相关性得分进行排 序。 6.融合文档主题特征的跨境民族文本排序装置, 其特征在于, 包括用于执行如权利要 求1‑5任一项权利要求所述方法的模块。权 利 要 求 书 2/2 页 3 CN 115114400 A 3

.PDF文档 专利 融合文档主题特征的跨境民族文本排序方法及装置

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 融合文档主题特征的跨境民族文本排序方法及装置 第 1 页 专利 融合文档主题特征的跨境民族文本排序方法及装置 第 2 页 专利 融合文档主题特征的跨境民族文本排序方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。