说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210581933.9 (22)申请日 2022.05.26 (71)申请人 神州医疗科技股份有限公司 地址 100080 北京市海淀区北四环西路6 6 号16层1901室 (72)发明人 宋佳祥 杨雅婷 许娟 朱宁  白焜太 刘硕  (74)专利代理 机构 北京星通盈泰知识产权代理 有限公司 1 1952 专利代理师 夏晶 (51)Int.Cl. G06F 16/36(2019.01) G06K 9/62(2022.01) G16H 10/60(2018.01) (54)发明名称 一种基于关系抽取模型的样本优化方法及 系统 (57)摘要 从本申请提出一种基于关系抽取模型的样 本优化方法及系统, 属于数据处理技术领域, 方 法包括: 获取训练样本集, 所述训练样本集包括M 条样本, 每条样本由多个已标记的实体以及实体 之间的关系组成; 构建已知实体的关系列表; 根 据已知实体的关系列表, 在训练样本集中, 若实 体以及实体之间的关系不存在于已知实体的关 系列表中, 则删除训练样本集中该 实体以及实体 之间的关系, 得到新的训练样本集; 在新的训练 样本集中取出任一样本, 将任一样 本改造成正样 本与负样本的集合, 所有样本均经过阈值处理, 得到最终的输入样本。 本申请在训练结果的精度 不产生影 响的前提下, 降低了 “关系抽取 ”的硬件 资源消耗, 提高计算效率。 权利要求书3页 说明书9页 附图3页 CN 114996472 A 2022.09.02 CN 114996472 A 1.一种基于关系抽取模型的样本优化方法, 其特 征在于, 包括如下步骤: 步骤S1: 获取训练样本集, 所述训练样本集包括M条样本, 每条样本由多个已标记的实 体以及实体之间的关系组成; 步骤S2: 构建已知实体的关系列表, 即针对每两个已知实体进行排列组合, 得到所有已 知实体对, 将所有已知实体对以及已知实体对之间的关系保存到关系列表中; 步骤S3: 根据已知实体的关系列表, 在训练样本集中, 若实体以及实体之间的关系不存 在于已知实体的关系列表中, 则删除训练样本集中该实体以及实体之间的关系, 得到新的 训练样本集; 步骤S4: 在新的训练样本集中取出任一样本, 将任一样本改造成正样本与负样本的集 合, 即针对任一样本中每两个已标记实体进 行排列组合, 若负样本超 出设定阈值, 则阻止已 标记实体与其他已标记实体进行组合, 得到已标记实体之间的排列组合以及对应关系类 型; 步骤S5: 直到新的训练样本集中的所有样本均经过步骤S4的阈值处理, 得到最终的输 入样本。 2.如权利要求1所述的基于关系抽取模型的样本优化方法, 其特征在于, 所述根据已知 实体的关系列表, 在训练样本集中, 若实体以及实体之间的关系不存在于已知实体的关系 列表中, 则删除训练样本集中该实体以及实体之间的关系, 得到新的训练样 本集, 包括如下 步骤: 步骤S3.1: 遍历训练样本集中的M条样本; 步骤S3.2: 遍历每一条样本中的已标记实体以及已标记实体之间的关系; 步骤S3.3: 判断已标记实体以及已标记实体之间的关系是否存在于已知实体的关系列 表中; 步骤S3.4: 若已标记实体以及已标记实体之间的关系存在于已知实体的关系列表中, 则保留该已标记实体以及已标记实体之间的关系; 步骤S3.5: 若已标记实体以及已标记实体之间的关系不存在于已知实体的关系列表 中, 则删除该已标记实体以及已标记实体之间的关系的对应标记。 3.如权利要求1所述的基于关系抽取模型的样本优化方法, 其特征在于, 所述正样本, 定义为在所取 的任一样本中若已标记实体之间存在关系, 即关系类型为存在关系, 则称该 已标记实体对的排列 组合以及对应关系类型为正样本; 所述负样本, 定义为在所取 的任一 样本中若已标记实体之间不存在关系, 即关系类型为不存在关系, 则称该已标记实体对的 排列组合以及对应关系类型为负 样本。 4.如权利要求1所述的基于关系抽取模型的样本优化方法, 其特 征在于, 所述在新的训练样本集中取出任一样本, 将任一样本改造成正样本与负样本的集合, 包括如下步骤: 步骤S4.1: 在任一样本中, 针对 任一样本中每两个已标记实体对进行排列组合; 步骤S4.2: 当已标记实体与实体进行排列组合时, 识别二者之间在所述任一样本中是 否存在关系; 步骤S4.3: 如果存在关系, 则将该已标记实体之间的排列组合以及对应关系类型保存 为正样本;权 利 要 求 书 1/3 页 2 CN 114996472 A 2步骤S4.4: 如果不存在关系, 判断此时在所述任一样本中负样本数量是否超过设定阈 值; 步骤S4.5: 若超过设定阈值, 则阻止所述该已标记实体与其 他已标记实体进行组合; 步骤S4.6: 若未超过设定阈值, 则允许所述已标记实体继续与其他已标记实体进行组 合, 并将该已标记实体之间的排列组合以及对应关系类型保存为负 样本。 5.如权利要求3所述的基于关系抽取模型的样本优化方法, 其特征在于, 所述负样本与 所述正样本的数量总和为: N ×(N‑1), 其中, N表示所 取的任一样本中已标记实体 个数。 6.一种基于关系抽取模型的样本优化系统, 其特征在于, 包括: 样本集获取模块、 实体 对组合模块、 新样本集获取模块、 阈值处 理模块、 输入样本获取模块; 所述样本集获取模块、 实体对组合模块、 新样本集获取模块、 阈值处理模块、 输入样本 获取模块依次顺序相连接; 所述样本集获取模块用于获取训练样本集, 所述训练样本集包括M条样本, 每条样本由 多个已标记的实体以及实体之间的关系组成; 所述实体对组合模块用于构建已知实体的关系列表, 即针对每两个已知实体进行排列 组合, 得到所有已知实体对, 将所有已知实体对以及已知实体对之间的关系保存到关系列 表中; 所述新样本集获取模块用于根据已知实体的关系列表, 在训练样本集中, 若实体以及 实体之间的关系不存在于已知实体的关系列 表中, 则删除训练样本集中该实体以及实体之 间的关系, 得到新的训练样本集; 所述阈值处理模块用于在新的训练样本集中取出任一样本, 将任一样本改造成正样本 与负样本的集合, 即针对任一样本中每两个已标记实体进行排列 组合, 若负样本超出设定 阈值, 则阻止已标记实体与其他已标记实体进行组合, 得到已标记实体之间的排列 组合以 及对应关系类型; 所述输入样本获取模块用于直到新的训练样本集中的所有样本均经过所述阈值处理 模块的阈值处 理, 得到最终的输入样本 。 7.如权利要求6所述的基于关系抽取模型的样本优化系统, 其特征在于, 所述新样本集 获取模块包括遍历单 元、 处理单元; 所述遍历单 元与所述处 理单元相连接; 所述遍历单元用于遍历训练样本集中的M条样本, 遍历每一条样本中的已标记实体以 及已标记实体之间的关系, 并将 每一条样本中的已标记实体以及已标记实体之 间的关系发 送到所述处 理单元; 所述处理单元用于判断已标记实体以及已标记实体之间的关系是否存在于已知实体 的关系列表中; 若已标记实体以及已标记实体之间的关系存在于已知实体的关系列表中, 则保留该已标记实体以及已标记实体之 间的关系; 若已标记实体以及已标记实体之 间的关 系不存在于已知实体的关系列表中, 则删除该已标记实体以及已标记实体之间的关系的对 应标记, 得到新的训练样本集。 8.如权利要求6所述的基于关系抽取模型的样本优化系统, 其特征在于, 所述阈值处理 模块包括: 排列组合单 元、 识别单 元、 正样本保存单 元、 负样本处理单元; 所述排列组合单 元、 识别单 元、 正样本保存单 元、 负样本处理单元依次顺序相连接;权 利 要 求 书 2/3 页 3 CN 114996472 A 3

.PDF文档 专利 一种基于关系抽取模型的样本优化方法及系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于关系抽取模型的样本优化方法及系统 第 1 页 专利 一种基于关系抽取模型的样本优化方法及系统 第 2 页 专利 一种基于关系抽取模型的样本优化方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。