说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210167615.8 (22)申请日 2022.02.23 (71)申请人 阿里巴巴 (中国) 有限公司 地址 310052 浙江省杭州市滨江区长河街 道网商路69 9号4号楼5楼5 08室 (72)发明人 李旭瑞 康杨杨 孙常龙  (74)专利代理 机构 北京博思佳知识产权代理有 限公司 1 1415 专利代理师 李威 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06Q 10/06(2012.01) (54)发明名称 一种基于知识图谱辅助的文本处理方法和 装置 (57)摘要 本说明书提供一种基于知识图谱辅助的文 本处理方法和装置。 所述方法包括: 获取目标对 象的知识图谱, 以及, 获取与所述目标对象相关 的文本; 其中, 所述知识图谱描述了所述目标对 象与若干其它对象之间的关系。 生成所述知 识图 谱对应的图向量, 以及, 生成与所述文本中包括 的各个句子分别对应的句子向量。 分别计算所述 各个句子对应的句子向量与所述图向量之间的 第一相似度, 并将与所述各个句子对应的所述第 一相似度作为与所述各个句子对应的权重, 针对 与所述各个句子对应的句子向量进行加权平均 计算, 得到与所述文本对应的目标向量。 其中, 所 述目标向量用于作为分类特征样本针对所述目 标对象进行分类预测。 权利要求书3页 说明书15页 附图4页 CN 114579757 A 2022.06.03 CN 114579757 A 1.一种基于知识图谱辅助的文本处 理方法, 其特 征在于, 所述方法包括: 获取目标企业的知识图谱, 以及, 获取与所述目标企业相关的新闻文本; 其中, 所述知 识图谱描述了所述目标企业与若干其它企业之间的关系; 生成所述知识图谱对应的图向量, 以及, 生成与所述新闻文本中包括的各个句子分别 对应的句子向量; 分别计算所述各个句子对应的句子向量与 所述图向量之间的第 一相似度, 并将与 所述 各个句子对应的所述第一相似度作为与所述各个句子对应的权重, 针对与所述各个句子对 应的句子向量进行加权平均计算, 得到与所述新闻文本对应的目标向量; 其中, 所述目标向 量用于作为分类特 征样本针对所述目标对象企业进行风险分类预测。 2.根据权利要求1所述的方法, 其特 征在于, 所述生成所述知识图谱 对应的图向量, 包括: 将所述知识图谱输入至基于深度学习的第 一向量生成模型, 得到与 所述知识图谱对应 的图向量; 所述生成与所述 新闻文本中包括的各个句子分别对应的句子向量, 包括: 将所述新闻文本 中包括的各个句子分别输入至基于深度 学习的第 二向量生成模型, 得 到与所述各个句子分别对应的句子向量。 3.根据权利要求2所述的方法, 其特 征在于, 所述基于深度学习的第一向量 生成模型包括Graphsa ge模型; 所述基于深度学习的第二向量 生成模型包括Transformer模型。 4.根据权利要求2所述的方法, 其特 征在于, 所述与所述各个句子分别对应的句子向量包括: 与所述各个句子的文本对应的文本向量和与各个句子在所述新闻文本中的位置对应 的位置向量 拼接得到的向量。 5.根据权利要求1所述的方法, 其特 征在于, 所述针对与 所述各个句子对应的句子向量进行加权平均计算, 得到与 所述新闻文本对 应的目标向量包括: 针对与所述各个句子对应的句子向量进行加权平均计算, 并将加权平均计算得到的向 量, 与所述图向量进行拼接, 得到与所述 新闻文本对应的目标向量。 6.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 生成与所述 新闻文本对应的全文向量; 所述针对与 所述各个句子对应的句子向量进行加权平均计算, 得到与 所述新闻文本对 应的目标向量包括: 针对与所述各个句子对应的句子向量进行加权平均计算, 并将加权平均计算得到的向 量, 与所述全文向量进行拼接, 得到与所述 新闻文本对应的目标向量。 7.根据权利要求1所述的方法, 其特 征在于, 所述文本包括中心句; 其中, 所述中心句包括包含了与所述目标对象相关的关键词的 句子; 中心句的句子向量 为中心句向量; 所述针对与 所述各个句子对应的句子向量进行加权平均计算, 得到与 所述文本对应的权 利 要 求 书 1/3 页 2 CN 114579757 A 2目标向量包括: 针对与所述各个句子对应的句子向量进行加权平均计算, 并将加权平均计算得到的向 量, 与所述中心句向量 拼接, 得到与所述 新闻文本对应的目标向量。 8.根据权利要求7 所述的方法, 其特 征在于, 所述方法还 包括: 针对每个句子, 计算所述句子对应的句子向量与所述中心句向量之间的第二相似度; 所述将与所述各个句子对应的所述第一相似度作为与所述各个句子对应的权重, 包 括: 将与所述各个句子对应的所述第一相似度和与所述各个句子对应的所述第二相似度 的积, 作为与所述各个句子对应的权 重。 9.一种文本处 理方法, 其特 征在于, 所述方法包括: 获取目标对象的关系图, 以及, 获取与所述目标对象相关的文本; 其中, 所述关系图描 述了所述目标对象与若干其它对象之间的关系; 生成所述关系图对应的图向量, 以及, 生成与所述文本中包括的各个句子分别对应的 句子向量; 分别计算所述各个句子对应的句子向量与 所述图向量之间的第 一相似度, 并将与 所述 各个句子对应的所述第一相似度作为与所述各个句子对应的权重, 针对与所述各个句子对 应的句子向量进行加权平均计算, 得到与所述文本对应的目标向量; 其中, 所述目标向量用 于作为分类特 征样本针对所述目标对象进行分类预测。 10.一种基于知识图谱辅助的文本处 理装置, 其特 征在于, 所述装置包括: 第一对象获取单元, 用于获取目标企业的知识图谱, 以及, 获取与所述目标企业相关的 新闻文本; 其中, 所述知识图谱描述了所述目标企业与若干其它企业之间的关系; 第一向量生成单元, 用于生成所述知识图谱对应的图向量, 以及, 生成与 所述文本 中包 括的各个句子分别对应的句子向量; 第一加权计算单元, 用于分别计算所述各个句子对应的句子向量与 所述图向量之间的 第一相似度, 并将与所述各个句子对应的所述第一相似度作为与所述各个句子对应的权 重, 针对与所述各个句 子对应的句 子向量进行加权平均计算, 得到与所述新闻文本对应的 目标向量; 其中, 所述 目标向量用于作为分类特征样本针对所述 目标企业进行风险分类预 测。 11.一种文本处 理装置, 其特 征在于, 所述装置包括: 第二对象获取单元, 用于获取目标对象的关系图, 以及, 获取与所述目标对象相关的文 本; 其中, 所述关系图描述了所述目标对象与若干其它对象之间的关系; 第二向量生成单元, 用于生成所述关系图对应的图向量, 以及, 生成与所述文本 中包括 的各个句子分别对应的句子向量; 第二加权计算单元, 用于分别计算所述各个句子对应的句子向量与 所述图向量之间的 第一相似度, 并将与所述各个句子对应的所述第一相似度作为与所述各个句子对应的权 重, 针对与所述各个句 子对应的句 子向量进行加权平均计算, 得到与所述文本对应的目标 向量; 其中, 所述目标向量用于作为分类特 征样本针对所述目标对象进行分类预测。 12.一种存储介质, 其特征在于, 其上存储有计算机程序, 该计算机程序执行时实现如权 利 要 求 书 2/3 页 3 CN 114579757 A 3

.PDF文档 专利 一种基于知识图谱辅助的文本处理方法和装置

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识图谱辅助的文本处理方法和装置 第 1 页 专利 一种基于知识图谱辅助的文本处理方法和装置 第 2 页 专利 一种基于知识图谱辅助的文本处理方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:53:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。