说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210611986.0 (22)申请日 2022.05.30 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 秦华鹏 赵岷 林泽南 张国鑫  吕雅娟  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 孙蕾 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/284(2020.01) G06F 16/36(2019.01) (54)发明名称 信息抽取方法、 装置、 电子设备以及存储介 质 (57)摘要 本公开提供了信息抽取方法、 装置、 电子设 备、 存储介质以及程序产品, 涉及人工智能技术 领域, 尤其涉及知 识图谱、 自然语言处理、 深度学 习等技术领域。 具体实现方案为: 对待处理文本 进行切词, 得到词文本序列; 对词文本序列进行 词类标注, 得到与词文本序列相对应的词类标签 序列, 其中, 词类标签序列中的词类标签是按照 语义信息和词性信息设置的标签; 以及基于词类 标签序列, 从词文本序列中抽取目标词文本, 得 到目标信息 。 权利要求书4页 说明书14页 附图11页 CN 114861677 A 2022.08.05 CN 114861677 A 1.一种信息抽取 方法, 包括: 对待处理文本进行切词, 得到词文本序列; 对所述词文本序列进行词类标注, 得到与所述词文本序列相对应的词类标签序列, 其 中, 所述词类标签序列中的词类标签是按照语义信息和词性信息设置的标签; 以及 基于所述词类标签序列, 从所述词文本序列中抽取目标词文本, 得到目标信息 。 2.根据权利要求1所述的方法, 其中, 所述基于所述词类标签序列, 从所述词文本序列 中抽取目标词文本, 得到目标信息, 包括: 确定所述待处 理文本的触发模式; 以及 基于所述词类标签序列, 按照与所述触发模式相匹配的信息抽取模式, 从所述词文本 序列中抽取 所述目标词文本, 得到所述目标信息 。 3.根据权利要求2所述的方法, 其中, 所述确定所述待处 理文本的触发模式, 包括: 从所述词类标签序列中识别满足头词类条件的词类标签, 作为头词类标签; 以所述头词类标签为起点, 按照所述词类标签序列的顺序, 从所述词类标签序列中识 别与预定触发词类标签相匹配的触发词类标签; 以及 基于所述触发词类标签, 将句式触发模式作为所述触发模式。 4.根据权利要求2所述的方法, 其中, 所述确定所述待处 理文本的触发模式, 包括: 从所述词类标签序列中识别满足头词类条件的词类标签, 作为头词类标签; 从所述词文本序列中确定与所述头词类标签相对应的头词文本; 以所述头词文本为起点, 按照所述词文本序列的顺序, 从所述词文本序列中识别与预 定触发词集 合相匹配的触发词文本; 以及 基于所述触发词文本, 将词触发模式作为所述触发模式。 5.根据权利要求2至4中任一项所述的方法, 其中, 所述确定所述待处理文本的触发模 式, 还包括: 按照预定互反关系, 从所述词类标签序列中识别满足尾词类条件的词类标签, 并将所 述满足尾词类条件的词类标签作为所述头词类标签。 6.根据权利要求3所述的方法, 其中, 所述触发模式为句式触发模式, 所述基于所述词类标签序列, 按照与所述触发模式相匹配的信息抽取模式, 从所述词 文本序列中抽取目标词文本, 得到所述目标信息, 包括: 从所述词类标签序列中确定尾词类标签; 确定所述头词类标签和所述尾词类标签之间的关联关系; 以所述头词类标签为起点、 所述尾词类标签为终点, 从所述词类标签序列中识别与所 述关联关系相关的目标词类标签; 以及 基于所述头词类标签、 尾词类标签和所述目标词类标签, 从所述词文本序列中抽取所 述目标词文本, 得到所述目标信息 。 7.根据权利要求 4所述的方法, 其中, 所述触发模式为词触发模式, 所述基于所述词类标签序列, 按照与所述触发模式相匹配的信息抽取模式, 从所述词 文本序列中抽取目标词文本, 得到所述目标信息, 包括: 以与所述触发词文本相对应的词类标签为起点, 按照所述词类标签序列的顺序, 从所 述词类标签序列中识别尾词类标签;权 利 要 求 书 1/4 页 2 CN 114861677 A 2确定所述头词类标签和所述尾词类标签之间的关联关系; 以所述头词类标签为起点、 以所述尾词类标签为终点, 从所述词类标签序列中识别与 所述关联关系相关的目标词类标签; 以及 基于所述头词类标签、 尾词类标签和所述目标词类标签, 从所述词文本序列中抽取所 述目标词文本, 得到所述目标信息 。 8.根据权利要求7所述的方法, 其中, 所述基于所述词类标签序列, 按照与所述触发模 式相匹配的信息抽取模式, 从所述词文本序列中抽取目标词文本, 得到所述目标信息, 还包 括: 在确定以与所述触发词文本相对应的词类标签为起点, 按照所述词类标签序列的顺 序, 从所述词类标签序列中未识别到所述尾词类标签的情况下, 以与所述触发词文本相对 应的词类标签为起点、 以所述头词类标签为 终点, 按照所述词类标签序列的反向顺序, 从所 述词类标签序列中识别所述尾词类标签。 9.根据权利要求7或8所述的方法, 其中, 所述以与所述触发词文本相对应的词类标签 为起点, 按照所述词类标签序列的顺序, 从所述词类标签序列中识别尾词类标签, 包括: 以与所述触发词文本相对应的词类标签为起点、 以分隔词类标签为终点, 依次从所述 词类标签序列中识别所述尾词类标签, 其中, 所述分隔词类标签用于表征待处理文本中的 分隔符号。 10.根据权利要求6或7所述的方法, 其中, 在所述基于所述词类标签序列, 按照与所述 触发模式相匹配的信息抽取模式, 从所述词文本序列中抽取目标词文本, 得到所述 目标信 息之后, 所述基于所述词类标签序列, 从所述词文本序列中抽取目标词文本, 得到目标信 息, 还包括, : 将第i‑1轮目标词类标签作为第i轮起 点词类标签; 基于第i轮起点词类标签, 确定第i轮待识别区间, 其中, 所述第i轮待识别区间包括以 下至少一项: 与所述第i轮起点词类标签相对应的词文本至所述待抽取文本的结尾之间的 词文本序列区间、 所述第i轮起点词类标签至所述词类标签序列的结尾之间的词类标签序 列区间, i大于或者 等于2; 以及 在从所述第i轮待识别区间中确定第i轮触发模式的情况下, 基于所述词类标签序列, 按照与所述第i轮触发模式相匹配的信息抽取模式, 从所述词文本序列中抽取第i轮目标词 文本, 得到第i轮目标信息 。 11.根据权利要求6或7所述的方法, 其中, 所述基于所述头词类标签、 尾词类标签和所 述目标词类标签, 从所述词文本序列中抽取 所述目标词文本, 得到所述目标信息, 包括: 基于所述头词类标签、 尾词类标签和所述目标词类标签, 从所述词文本序列中抽取所 述目标词文本, 得到初始目标信息; 以及 在确定初始目标信 息中包括所述头词文本和所述尾词 文本的情况下, 将所述初始目标 信息作为所述目标信息 。 12.一种信息抽取装置, 包括: 切词模块, 用于对待处 理文本进行切词, 得到词文本序列; 标注模块, 用于对所述词文本序列进行词类标注, 得到与所述词文本序列相对应的词 类标签序列, 其中, 所述词类标签序列中的词类标签是按照语义信息和词性信息设置的标权 利 要 求 书 2/4 页 3 CN 114861677 A 3

.PDF文档 专利 信息抽取方法、装置、电子设备以及存储介质

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 信息抽取方法、装置、电子设备以及存储介质 第 1 页 专利 信息抽取方法、装置、电子设备以及存储介质 第 2 页 专利 信息抽取方法、装置、电子设备以及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:57:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。