说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111628067.6 (22)申请日 2021.12.28 (66)本国优先权数据 202111448168.5 2021.1 1.30 CN (71)申请人 腾讯科技 (深圳) 有限公司 地址 518000 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 铁瑞雪  (74)专利代理 机构 深圳市隆天联鼎知识产权代 理有限公司 4 4232 代理人 叶虹 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 文本类型识别方法、 装置、 计算机可读介质 及电子设备 (57)摘要 本申请属于计算机技术领域, 具体涉及一种 文本类型识别方法、 装置、 计算机可读介质及电 子设备。 该文本类型识别方法包括: 对待识别文 本进行特征抽取, 得到待识别文本的文本语义特 征; 根据文本语义特征预测待识别文本中的至少 一个对象实体; 获取与对象实体相关的待选关联 类型集合; 根据文本语义特征预测与对象实体具 有待选关联类型的目标实体, 并将对象实体、 待 选关联类型和目标实体组成三元 组; 当三元组中 存在待选关联类型为实施关联类型的第一类三 元组时, 将待识别文本识别为对第一类三元组的 对象实体具有影响的文本。 由此, 将对象实体的 语义与整体文本的语义表征进行融合, 从而高 效、 准确地实现对 待识别文本的文本 类型识别。 权利要求书3页 说明书18页 附图9页 CN 114357163 A 2022.04.15 CN 114357163 A 1.一种文本类型识别方法, 其特 征在于, 包括: 获取待识别文本, 并对所述待识别文本进行特征抽取, 得到所述待识别文本的文本语 义特征; 根据所述文本语义特 征预测所述待识别文本中的至少一个对象实体; 获取与所述对象实体相关的待选关联类型集合, 所述待选关联类型集合中包括至少一 种待选关联类型, 所述待选关联类型用于表示两个实体之间的关联 所属的类型; 根据所述文本语义特征预测与所述对象实体具有所述待选关联类型的目标实体, 并将 所述对象实体、 所述待选关联类型和所述目标实体组成三元组; 当所述三元组中存在待选关联类型为实施关联类型的第 一类三元组时, 将所述待识别 文本识别为对所述第一类三元组的对 象实体具有影响的文本, 其中, 所述实施关联类型用 于表示所述对象实体是 执行所述目标实体所示的行为的执 行实体。 2.根据权利要求1所述的文本类型识别方法, 其特征在于, 所述待选关联类型还包括语 义肯定关联类型, 所述语义肯定关联类型用于表示一个实体对另一实体进行语义肯定, 所 述当所述三元组中存在待选 关联类型为 实施关联类型的第一类三元组时, 将所述待识别文 本识别为对所述第一类三元组的对象实体具有影响的文本, 包括: 当所述三元组中存在所述第一类三元组和待选关联类型为语义肯定关联类型的第二 类三元组, 并且所述第一类三元组和所述第二类三元组的目标实体相同时, 将所述待识别 文本识别为对所述第一类三元组的对象实体具有影响的文本 。 3.根据权利要求1所述的文本类型识别方法, 其特征在于, 所述待选关联类型还包括语 义否定关联类型, 所述语义否定关联类型用于表示一个实体对另一实体进行语义否定, 所 述当所述三元组中存在待选 关联类型为 实施关联类型的第一类三元组时, 将所述待识别文 本识别为对所述第一类三元组的对象实体具有影响的文本, 包括: 当所述三元组中存在所述第一类三元组和待选关联类型为语义否定关联类型的第三 类三元组, 并且至少一个所述第一类三元组与至少一个所述第三类三元组的目标实体相同 时, 将所述待识别文本识别为对所述第一类三元组的对象实体不具有影响的文本; 和/或 当所述三元组中存在所述第 一类三元组, 并且第 一类三元组的客体不是待选关联类型 为语义否定 关联类型的第三类三元组的目标实体时, 将所述待识别文本识别为对所述第一 类三元组的对象实体具有影响的文本 。 4.根据权利要求1所述的文本类型识别方法, 其特征在于, 所述待选关联类型还包括并 列关联类型, 所述并列关联类型用于表示两个实体共同实施目标实体所示的行为, 在所述 将所述待识别文本识别为对所述第一类三元组的对象实体具有影响的文本之后, 所述方法 还包括: 将所述第一类三元组的对象实体作为目标对象实体; 当所述三元组中存在待选关联类型为并列关联类型的第四类三元组时, 将所述待识别 文本识别为对所述第四类三元组中包括了所述目标对 象实体的三元组的对 象实体和目标 实体均具有影响的文本 。 5.根据权利要求1所述的文本类型识别方法, 其特征在于, 所述待选关联类型还包括实 施涉及关联类型, 所述实施涉及关联类型用于表示所述对象实体对所述目标实体所示的行 为有涉及, 但不实施该目标实体所示的行为, 在所述将所述待识别文本识别为对所述第一权 利 要 求 书 1/3 页 2 CN 114357163 A 2类三元组的对象实体具有影响的文本之后, 所述方法还 包括: 当所述三元组中存在待选关联类型为实施涉及 关联类型的第五类三元组时, 将所述待 识别文本识别为对所述第 五类三元组的对 象实体在所述第 五类三元组的目标实体相关的 范围不具有影响的文本 。 6.根据权利要求1所述的文本类型识别方法, 其特征在于, 所述获取与 所述对象实体相 关的待选关联类型集 合, 包括: 获取所述对象实体的实体 类型, 所述实体 类型包括命名实体 类和语义 倾向类; 根据所述实体类型查询预设数据库, 得到与所述对象实体相关的待选关联类型集合, 其中, 所述预设数据库用于存 储所述实体 类型与所述待选关联类型集 合的映射关系。 7.根据权利要求6所述的文本类型识别方法, 其特 征在于: 当所述对象实体的实体类型为命名实体类时, 与 所述对象实体相关的待选关联类型集 合包括共指关联类型、 涉及关联类型、 并列关联类型、 实施关联类型和实施涉及关联类型, 其中, 所述共指关联类型用于表示两个实体指代的是同一对 象、 所述涉及关联类型用于表 示两个实体之 间具有关联, 所述并列关联类型用于表示两个实体共同实施目标实体所示的 行为, 所述实施涉及关联类型用于表示所述对 象实体对所述 目标实体所示的行为有涉及, 但不实施该目标实体所示的行为; 当所述对象实体的实体类型为语义倾向类时, 与 所述对象实体相关的待选关联类型集 合包括语义肯定关联类型和语义否定关联类型, 其中所述语义肯定 关联类型用于表示一个 实体对另一 实体进行语义肯定, 所述语义否定 关联类型用于表示一个实体对另一 实体进行 语义否定。 8.根据权利要求1所述的文本类型识别方法, 其特征在于, 所述根据所述文本语义特征 预测与所述对象实体具有所述待选关联类型的目标实体, 包括: 对所述对象实体进行编码, 得到所述对象实体对应的对象实体编码; 将所述对象实体编码、 所述文本语义特征与所述待选关联类型输入到预训练 的机器学 习模型中, 得到与所述对象实体具有所述待选关联类型的目标实体。 9.根据权利要求1所述的文本类型识别方法, 其特征在于, 所述待选关联类型还包括共 指关联类型, 所述共指关联类型用于表示两个实体指代的是同一对 象, 在所述将所述对 象 实体、 所述待选关联类型和所述目标实体组成三元组之后, 所述方法还 包括: 当所述三元组中存在待选关联类型为共指关联类型的第六类三元组, 将所述第六类三 元组之外的各个所述三元组中与所述第六类三元组的对 象实体相同的对 象实体或目标实 体, 替换为所述第六类三元组的目标实体。 10.根据权利要求9所述的文本类型识别方法, 其特征在于, 在所述将所述对象实体、 所 述待选关联类型和所述目标实体组成三元组之后, 所述方法还 包括: 当所述三元组中存在至少两个所述第六类三元组: 第一三元组和第二三元组, 其中所 述第一三元组的对象实体是所述第二三元组的目标实体, 并且所述第二三元组的对象实体 是所述第一三元组的目标实体时, 计算并对比所述第一三元组的对象实体的文本长度和所 述第二三元组的对象实体的文本 长度; 保留所述第 一三元组和所述第 二三元组中文本长度较长的目标实体所在的三元组, 去 除文本长度较短的目标实体所在的三元组。权 利 要 求 书 2/3 页 3 CN 114357163 A 3

.PDF文档 专利 文本类型识别方法、装置、计算机可读介质及电子设备

文档预览
中文文档 31 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本类型识别方法、装置、计算机可读介质及电子设备 第 1 页 专利 文本类型识别方法、装置、计算机可读介质及电子设备 第 2 页 专利 文本类型识别方法、装置、计算机可读介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:44:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。