专利一种基于篇章语境的多任务联合知识挖掘方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210094662.4 (22)申请日 2022.01.26 (71)申请人清华大学地址 100084 北京市海淀区双清路3 0号清华大学 (72)发明人聂再清　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师王治东 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) (54)发明名称一种基于篇章语境的多任务联合知识挖掘方法及装置 (57)摘要本发明提供一种基于篇章语境的多任务联合知识挖掘方法及装置。该方法包括：确定待分析的文本内容；将文本内容输入到基于篇章语境知识图谱的篇章知识挖掘模型内对文本内容中的知识点进行多任务联合知识挖掘，获得篇章知识挖掘模型输出的知识挖掘结果；篇章语境知识图谱是对应各个知识挖掘任务的知识图谱，包含文本内容中实体知识、实体关系及目标背景知识信息；所述目标背景知识信息是从外部知识图谱和所述文本内容中提取的与所述文本内容中实体知识相对应的背景知识信息。本发明提供的方法，通过基于包含目标背景知识信息的篇章语境知识图谱构建的篇章知识挖掘模型，能够有效识别文本内容中知识点的关联性，从而提升了知识挖掘的精度。权利要求书2页说明书8页附图2页 CN 114610894 A 2022.06.10 CN 114610894 A 1.一种基于篇章语境的多任务联合知识挖掘方法，其特征在于，包括：确定待分析的文本内容；将所述文本内容输入到基于篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行多任务联合知识挖掘，获得所述篇章知识挖掘模型输出的知识挖掘结果；其中，所述篇章语境知识图谱是对应各个知识挖掘任务的知识图谱，包含所述文本内容中实体知识、实体关系以及目标背景知识信息；所述目标背景知识信息是从外部知识图谱和所述文本内容中提取的与所述文本内容中实体知识相对应的背景知识信息。 2.根据权利要求1所述的基于篇章语境的多任务联合知识挖掘方法，其特征在于，还包括：基于所述知识挖掘结果对所述篇章语境知识图谱进行迭代更新，以实现针对所述文本内容产生更多实体知识的链接，得到满足预设条件的知识挖掘结果。 3.根据权利要求2所述的基于篇章语境的多任务联合知识挖掘方法，其特征在于，基于所述知识挖掘结果对所述篇章语境知识图谱进行迭代更新，以实现针对所述文本内容产生更多实体知识的链接，得到满足预设条件的知识挖掘结果，具体包括：对所述知识挖掘结果进行逻辑一致性检测，并将检测通过的实体知识加入到所述篇章语境知识图谱中，获得新的篇章语境知识图谱；将所述文本内容输入到基于新的篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行下一轮的多任务联合知识挖掘和迭代更新，直至不能挖掘出新的知识点时输出满足预设条件的知识挖掘结果。 4.根据权利要求1所述的基于篇章语境的多任务联合知识挖掘方法，其特征在于，所述确定待分析的文本内容，具体包括：获得初始的文本内容，对所述初始的文本内容进行分段、断句以及分词处理，得到预处理后的所述待分析的文本内容。 5.根据权利要求1所述的基于篇章语境的多任务联合知识挖掘方法，其特征在于，还包括：从所述文本内容中提取相应的实体知识和实体关系，基于所述实体知识和所述实体关系构建所述文本内容对应的知识图谱；从外部知识图谱和所述文本内容中提取与所述文本内容中实体知识相对应的目标背景知识信息，并将所述目标背景知识信息加载到所述文本内容对应的知识图谱中得到篇章语境知识图谱，将所述篇章语境知识图谱输入到篇章知识挖掘模型，确定基于篇章语境知识图谱的篇章知识挖掘模型。 6.一种基于篇章语境的多任务联合知识挖掘装置，其特征在于，包括：文本预处理单元，用于确定待分析的文本内容；知识挖掘单元，用于将所述文本内容输入到基于篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行多任务联合知识挖掘，获得所述篇章知识挖掘模型输出的知识挖掘结果；其中，所述篇章语境知识图谱是用于各个知识挖掘任务的包含所述文本内容中实体知识、实体关系以及目标背景知识信息的知识图谱；所述目标背景知识信息是从外部知识图谱和所述文本内容中提取的与所述文本内容中实体知识相对应的背景知识信息。权　利　要　求　书 1/2 页 2 CN 114610894 A 27.根据权利要求6所述的基于篇章语境的多任务联合知识挖掘装置，其特征在于，所述知识挖掘单元，还用于基于所述知识挖掘结果对所述篇章语境知识图谱进行迭代更新，以实现针对所述文本内容产生更多实体知识的链接，得到满足预设条件的知识挖掘结果。 8.根据权利要求7所述的基于篇章语境的多任务联合知识挖掘装置，其特征在于，所述知识挖掘单元，具体用于：对所述知识挖掘结果进行逻辑一致性检测，并将检测通过的实体知识加入到所述篇章语境知识图谱中，获得新的篇章语境知识图谱；将所述文本内容输入到基于新的篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行下一轮的多任务联合知识挖掘和迭代更新，直至不能挖掘出新的知识点时输出满足预设条件的知识挖掘结果。 9.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任意一项所述的基于篇章语境的多任务联合知识挖掘方法的步骤。 10.一种处理器可读存储介质，所述处理器可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求 1至5任意一项所述的基于篇章语境的多任务联合知识挖掘方法的步骤。权　利　要　求　书 2/2 页 3 CN 114610894 A 3

专利 一种基于篇章语境的多任务联合知识挖掘方法及装置

专利一种基于篇章语境的多任务联合知识挖掘方法及装置