专利一种基于知识图谱辅助的文本处理方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210167615.8 (22)申请日 2022.02.23 (71)申请人阿里巴巴（中国）有限公司地址 310052 浙江省杭州市滨江区长河街道网商路69 9号4号楼5楼5 08室 (72)发明人李旭瑞　康杨杨　孙常龙　 (74)专利代理机构北京博思佳知识产权代理有限公司 1 1415 专利代理师李威 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06Q 10/06(2012.01) (54)发明名称一种基于知识图谱辅助的文本处理方法和装置 (57)摘要本说明书提供一种基于知识图谱辅助的文本处理方法和装置。所述方法包括：获取目标对象的知识图谱，以及，获取与所述目标对象相关的文本；其中，所述知识图谱描述了所述目标对象与若干其它对象之间的关系。生成所述知识图谱对应的图向量，以及，生成与所述文本中包括的各个句子分别对应的句子向量。分别计算所述各个句子对应的句子向量与所述图向量之间的第一相似度，并将与所述各个句子对应的所述第一相似度作为与所述各个句子对应的权重，针对与所述各个句子对应的句子向量进行加权平均计算，得到与所述文本对应的目标向量。其中，所述目标向量用于作为分类特征样本针对所述目标对象进行分类预测。权利要求书3页说明书15页附图4页 CN 114579757 A 2022.06.03 CN 114579757 A 1.一种基于知识图谱辅助的文本处理方法，其特征在于，所述方法包括：获取目标企业的知识图谱，以及，获取与所述目标企业相关的新闻文本；其中，所述知识图谱描述了所述目标企业与若干其它企业之间的关系；生成所述知识图谱对应的图向量，以及，生成与所述新闻文本中包括的各个句子分别对应的句子向量；分别计算所述各个句子对应的句子向量与所述图向量之间的第一相似度，并将与所述各个句子对应的所述第一相似度作为与所述各个句子对应的权重，针对与所述各个句子对应的句子向量进行加权平均计算，得到与所述新闻文本对应的目标向量；其中，所述目标向量用于作为分类特征样本针对所述目标对象企业进行风险分类预测。 2.根据权利要求1所述的方法，其特征在于，所述生成所述知识图谱对应的图向量，包括：将所述知识图谱输入至基于深度学习的第一向量生成模型，得到与所述知识图谱对应的图向量；所述生成与所述新闻文本中包括的各个句子分别对应的句子向量，包括：将所述新闻文本中包括的各个句子分别输入至基于深度学习的第二向量生成模型，得到与所述各个句子分别对应的句子向量。 3.根据权利要求2所述的方法，其特征在于，所述基于深度学习的第一向量生成模型包括Graphsa ge模型；所述基于深度学习的第二向量生成模型包括Transformer模型。 4.根据权利要求2所述的方法，其特征在于，所述与所述各个句子分别对应的句子向量包括：与所述各个句子的文本对应的文本向量和与各个句子在所述新闻文本中的位置对应的位置向量拼接得到的向量。 5.根据权利要求1所述的方法，其特征在于，所述针对与所述各个句子对应的句子向量进行加权平均计算，得到与所述新闻文本对应的目标向量包括：针对与所述各个句子对应的句子向量进行加权平均计算，并将加权平均计算得到的向量，与所述图向量进行拼接，得到与所述新闻文本对应的目标向量。 6.根据权利要求1所述的方法，其特征在于，所述方法还包括：生成与所述新闻文本对应的全文向量；所述针对与所述各个句子对应的句子向量进行加权平均计算，得到与所述新闻文本对应的目标向量包括：针对与所述各个句子对应的句子向量进行加权平均计算，并将加权平均计算得到的向量，与所述全文向量进行拼接，得到与所述新闻文本对应的目标向量。 7.根据权利要求1所述的方法，其特征在于，所述文本包括中心句；其中，所述中心句包括包含了与所述目标对象相关的关键词的句子；中心句的句子向量为中心句向量；所述针对与所述各个句子对应的句子向量进行加权平均计算，得到与所述文本对应的权　利　要　求　书 1/3 页 2 CN 114579757 A 2目标向量包括：针对与所述各个句子对应的句子向量进行加权平均计算，并将加权平均计算得到的向量，与所述中心句向量拼接，得到与所述新闻文本对应的目标向量。 8.根据权利要求7 所述的方法，其特征在于，所述方法还包括：针对每个句子，计算所述句子对应的句子向量与所述中心句向量之间的第二相似度；所述将与所述各个句子对应的所述第一相似度作为与所述各个句子对应的权重，包括：将与所述各个句子对应的所述第一相似度和与所述各个句子对应的所述第二相似度的积，作为与所述各个句子对应的权重。 9.一种文本处理方法，其特征在于，所述方法包括：获取目标对象的关系图，以及，获取与所述目标对象相关的文本；其中，所述关系图描述了所述目标对象与若干其它对象之间的关系；生成所述关系图对应的图向量，以及，生成与所述文本中包括的各个句子分别对应的句子向量；分别计算所述各个句子对应的句子向量与所述图向量之间的第一相似度，并将与所述各个句子对应的所述第一相似度作为与所述各个句子对应的权重，针对与所述各个句子对应的句子向量进行加权平均计算，得到与所述文本对应的目标向量；其中，所述目标向量用于作为分类特征样本针对所述目标对象进行分类预测。 10.一种基于知识图谱辅助的文本处理装置，其特征在于，所述装置包括：第一对象获取单元，用于获取目标企业的知识图谱，以及，获取与所述目标企业相关的新闻文本；其中，所述知识图谱描述了所述目标企业与若干其它企业之间的关系；第一向量生成单元，用于生成所述知识图谱对应的图向量，以及，生成与所述文本中包括的各个句子分别对应的句子向量；第一加权计算单元，用于分别计算所述各个句子对应的句子向量与所述图向量之间的第一相似度，并将与所述各个句子对应的所述第一相似度作为与所述各个句子对应的权重，针对与所述各个句子对应的句子向量进行加权平均计算，得到与所述新闻文本对应的目标向量；其中，所述目标向量用于作为分类特征样本针对所述目标企业进行风险分类预测。 11.一种文本处理装置，其特征在于，所述装置包括：第二对象获取单元，用于获取目标对象的关系图，以及，获取与所述目标对象相关的文本；其中，所述关系图描述了所述目标对象与若干其它对象之间的关系；第二向量生成单元，用于生成所述关系图对应的图向量，以及，生成与所述文本中包括的各个句子分别对应的句子向量；第二加权计算单元，用于分别计算所述各个句子对应的句子向量与所述图向量之间的第一相似度，并将与所述各个句子对应的所述第一相似度作为与所述各个句子对应的权重，针对与所述各个句子对应的句子向量进行加权平均计算，得到与所述文本对应的目标向量；其中，所述目标向量用于作为分类特征样本针对所述目标对象进行分类预测。 12.一种存储介质，其特征在于，其上存储有计算机程序，该计算机程序执行时实现如权　利　要　求　书 2/3 页 3 CN 114579757 A 3

专利 一种基于知识图谱辅助的文本处理方法和装置

专利一种基于知识图谱辅助的文本处理方法和装置