说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210596258.7 (22)申请日 2022.05.23 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 张涛 刘涵 胡腾 陈永锋  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 罗岚 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/211(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 段落抽取方法、 装置和电子设备 (57)摘要 本公开提出了一种段落抽取方法、 装置和电 子设备, 涉及自然语言理解和深度学习等人工智 能领域, 其中, 方法包括获取目标文档和目标文 档的抽取需求信息; 确定目标文档中的段落所属 的标题, 并根据标题层级关系, 对目标文档中标 题和段落进行组合, 以确定目标文档的候选段 落; 获取抽取需求信息和候选段落的关联参数; 根据关联参数, 从候选段落中确定抽取需求信息 对应的目标段落。 本公开中, 实现了对目标文档 的文本结构信息的利用, 使 得目标文档具有多粒 度段落抽取的能力, 实现了目标段落的准确获 取, 优化了段落抽取的方法。 权利要求书3页 说明书13页 附图4页 CN 114861676 A 2022.08.05 CN 114861676 A 1.一种段落抽取 方法, 其中, 所述方法包括: 获取目标文档和所述目标文档的抽取需求信息; 确定所述目标文档 中的段落所属的标题, 并根据标题层级关系, 对所述目标文档 中标 题和段落进行组合, 以确定所述目标文档的候选段落; 获取所述抽取需求信息和所述 候选段落的关联参数; 根据所述关联参数, 从所述 候选段落中确定所述抽取需求信息对应的目标 段落。 2.根据权利要求1所述的方法, 其中, 所述获取所述抽取需求和所述候选段落的关联参 数, 包括: 获取所述抽取需求对应的第一向量; 获取所述目标文档中的所述 候选段落的第二向量; 获取所述第一向量和所述第二向量的关联度, 作为所述关联参数。 3.根据权利要求2所述的方法, 其中, 所述方法还 包括: 获取训练好的目标关联度双塔模型; 根据所述目标关联度双塔模型, 获取所述第一向量和所述第二向量的关联度, 并将所 述关联度作为所述抽取需求和所述 候选段落的所述关联参数。 4.根据权利要求3所述的方法, 其中, 所述根据所述关联参数, 从所述候选段落中确定 所述抽取需求信息对应的目标 段落, 包括: 获取所述关联参数中, 满足设定条件的目标关联参数; 将所述目标关联参数对应的候选段落, 确定为所述抽取需求信息对应的所述目标段 落。 5.根据权利要求4所述的方法, 其中, 所述确定所述目标文档 中的段落所属的标题, 并 根据标题层级关系, 对所述 目标文档中标题和段落进行组合, 以确定所述 目标文档的候选 段落, 包括: 根据所述标题的语义信息确定所述目标文档中的所述标题层级关系; 根据所述标题层级关系, 确定不同层级的待组合标题; 将所述待组合标题和所述待组合标题下的对应段落进行组合, 以获取所述目标文档的 所述候选段落。 6.根据权利要求5所述的方法, 其中, 所述根据所述标题层级关系, 确定不同层级的待 组合标题, 包括: 获取所述目标文档中的层级相同的部分相邻标题, 作为所述待组合标题; 或者, 获取所述目标文档中的层级不同的部分相邻标题, 作为所述待组合标题; 或者, 获取所述目标文档中的全部标题, 作为所述待组合标题。 7.根据权利要求3所述的方法, 其中, 所述获取训练好的目标关联度双塔模型之前, 包 括: 获取待训练的关联度双塔模型的训练混淆样本; 根据所述训练混淆样本对所述关联度双塔模型进行训练, 直至训练结束获取训练好的 所述目标关联度双塔模型。 8.根据权利要求7所述的方法, 其中, 所述获取待训练的关联度双塔模型的训练混淆样 本, 包括:权 利 要 求 书 1/3 页 2 CN 114861676 A 2获取样本文档和对应的样本抽取需求信息; 根据所述样本抽取需求信息, 从所述样本文档中抽取正样本和负 样本; 根据所述 正样本和所述负 样本, 获取 所述关联度双塔模型的所述训练混淆样本 。 9.根据权利要求8所述的方法, 其中, 所述根据所述样本需求, 从所述样本文档 中抽取 正样本和负 样本, 包括: 获取所述样本抽取需求信息在所述样本文档中的目标样本段落; 根据所述样本抽取需求信息和所述目标样本段落, 生成所述样本文档中的所述正样 本; 根据所述样本抽取需求信 息和所述样本文档中除所述目标样本段落之外的剩余段落, 生成所述样本文档中的所述负 样本。 10.一种段落抽取装置, 其中, 所述装置包括: 获取模块, 用于获取目标文档和所述目标文档的抽取需求信息; 确定模块, 用于确定所述目标文档中的段落所属的标题, 并根据标题层级关系, 对所述 目标文档中标题和段落进行组合, 以确定所述目标文档的候选段落; 关联模块, 用于获取 所述抽取需求信息和所述 候选段落的关联参数; 抽取模块, 用于根据所述关联参数, 从所述候选段落中确定所述抽取需求信息对应的 目标段落。 11.根据权利要求10所述的装置, 其中, 所述关联模块, 还用于: 获取所述抽取需求对应的第一向量; 获取所述目标文档中的所述 候选段落的第二向量; 获取所述第一向量和所述第二向量的关联度, 作为所述关联参数。 12.根据权利要求1 1所述的装置, 其中, 所述关联模块, 还用于: 获取训练好的目标关联度双塔模型; 根据所述目标关联度双塔模型, 获取所述第一向量和所述第二向量的关联度, 并将所 述关联度作为所述抽取需求和所述 候选段落的所述关联参数。 13.根据权利要求12所述的装置, 其中, 所述抽取模块, 还用于: 获取所述关联参数中, 满足设定条件的目标关联参数; 将所述目标关联参数对应的候选段落, 确定为所述抽取需求信息对应的所述目标段 落。 14.根据权利要求13所述的装置, 其中, 所述抽取模块, 还用于: 根据所述标题的语义信息确定所述目标文档中的所述标题层级关系; 根据所述标题层级关系, 确定不同层级的待组合标题; 将所述待组合标题和所述待组合标题下的对应段落进行组合, 以获取所述目标文档的 所述候选段落。 15.根据权利要求14所述的装置, 其中, 所述抽取模块, 还用于: 获取所述目标文档中的层级相同的部分相邻标题, 作为所述待组合标题; 或者, 获取所述目标文档中的层级不同的部分相邻标题, 作为所述待组合标题; 或者, 获取所述目标文档中的全部标题, 作为所述待组合标题。 16.根据权利要求12所述的装置, 其中, 所述关联模块, 还用于:权 利 要 求 书 2/3 页 3 CN 114861676 A 3

.PDF文档 专利 段落抽取方法、装置和电子设备

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 段落抽取方法、装置和电子设备 第 1 页 专利 段落抽取方法、装置和电子设备 第 2 页 专利 段落抽取方法、装置和电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。