说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210517326.6 (22)申请日 2022.05.13 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 李志韬 王健宗 程宁  (74)专利代理 机构 深圳国新 南方知识产权代理 有限公司 4 4374 专利代理师 艾青 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/186(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 训练数据 的增广方法、 装置、 设备和存储介 质 (57)摘要 本申请涉及人工智能技术, 提出一种训练数 据的增广方法、 装置、 设备和存储介质, 该方法包 括: 获取已有训练数据作为待扩充文本; 对待扩 充文本进行关键实体识别; 将待扩充文本中识别 到的第一关键实体替换为对应的第一替换标签, 得到待扩充文本对应的待扩充模板; 利用已训练 的模板扩充模 型对待扩充模板进行扩充, 得到对 应的扩充模板; 对扩充模板中的第一替换标签进 行替换填充, 将得到的扩充文本作为增广训练数 据。 本申请实现了保持关键实体不变的同时扩充 语义模板以丰富语义 地进行训练数据扩 充。 权利要求书2页 说明书10页 附图2页 CN 114881035 A 2022.08.09 CN 114881035 A 1.一种训练数据的增广方法, 其特 征在于, 所述方法包括: 获取已有训练数据作为待扩充 文本; 对所述待扩充 文本进行关键实体识别; 将所述待扩充文本 中识别到的第 一关键实体替换为对应的第 一替换标签, 得到所述待 扩充文本对应的待扩充模板; 利用已训练的模板扩充模型对所述待扩充模板进行扩充, 得到对应的扩充模板; 对所述扩充模板 中的第一替换标签进行替换填充, 将得到的扩充文本作为增广训练数 据。 2.根据权利要求1所述的方法, 其特征在于, 在所述利用已训练 的模板扩充模型对所述 待扩充模板进行扩充, 得到对应的扩充模板之前, 所述方法还 包括: 获取第一训练样本集 合, 其中, 所述第一训练样本集 合包括多条原文本样本; 对每条所述原文本样本进行关键实体识别; 将所述原文本样本 中识别到的第 二关键实体替换为对应的第 二替换标签, 得到所述原 文本样本对应的文本模板; 对所有所述文本模板进行文本聚类, 得到至少一个不同的聚类簇, 其中, 每个所述聚类 簇包括至少一个 语义相似的文本模板; 从同一个聚类簇对应的文本模板中随机抽取任意两个文本模板组成相似模板对输入 至预训练的模板扩充模型中, 以利用不同的相似模板对对所述预训练的模板扩充模型进 行 训练直至 达到收敛条件, 得到已训练的模板扩充模型。 3.根据权利要求2所述的方法, 其特征在于, 所述对所有所述文本模板进行文本聚类, 得到至少一个不同的聚类簇, 包括: 对每条所述文本模板进行文本特 征提取, 得到每条文本模板对应的第一特 征向量; 将所有文本模板对应的第一特征向量输入至已训练的聚类模型以对所述文本模板进 行聚类, 得到 至少一个不同的聚类簇 。 4.根据权利要求3所述的方法, 其特征在于, 所述对每条所述文本模板进行文本特征提 取, 得到每条文本模板对应的第一特 征向量, 包括: 提取每条 所述文本模板对应的tf ‑idf特征; 根据所述文本模板对应的tf ‑idf特征进行tf ‑idf编码, 得到对应文本模板的第一特征 向量。 5.根据权利要求3所述的方法, 其特征在于, 在所述将所有文本模板对应的第 一特征向 量输入至已训练的聚类模型以对所述文本模板进行聚类, 得到至少一个不同的聚类簇之 前, 所述方法还 包括: 利用第二训练样本集合对基于k_Means算法构建的预训练聚类模型进行训练, 得到所 述已训练的聚类模型。 6.根据权利要求1所述的方法, 其特征在于, 所述对所述扩充模板 中的第一替换标签进 行替换填充, 包括: 利用所述第一关键实体对 对应的扩充模板中的第一 替换标签进行替换填充。 7.根据权利要求1所述的方法, 其特征在于, 在所述对所述扩充模板 中的第一替换标签 进行替换填充之前, 所述方法还 包括:权 利 要 求 书 1/2 页 2 CN 114881035 A 2对所述第一关键实体进行扩充, 得到扩充实体; 所述对所述扩充模板中的第一 替换标签进行替换填充, 包括: 利用所述第 一关键实体和/或扩充实体对对应的扩充模板 中的第一替换标签进行替换 填充。 8.一种训练数据的增广装置, 其特 征在于, 所述装置包括: 第一数据获取模块, 用于获取已有训练数据作为待扩充 文本; 识别模块, 用于对所述待扩充 文本进行关键实体识别; 替换模块, 用于将所述待扩充文本中识别 到的第一关键实体替换为对应的第 一替换标 签, 得到所述待扩充 文本对应的待扩充模板; 扩充模块, 用于利用已训练的模板扩充模型对所述待扩充模板进行扩充, 得到对应的 扩充模板; 填充模块, 用于对所述扩充模板中的第一替换标签进行替换填充, 将得到的扩充文本 作为增广训练数据。 9.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机可读指 令, 其特征在于, 所述处理器执行所述计算机可读指 令时执行如权利要求 1‑7任 一项所述的训练数据的增广方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质上存储有计算机可读指令, 其 特征在于, 所述计算机可读指 令被处理器执行时, 使 得所述处理器执行如权利要求 1‑7任一 项所述的训练数据的增广方法的步骤。权 利 要 求 书 2/2 页 3 CN 114881035 A 3

.PDF文档 专利 训练数据的增广方法、装置、设备和存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 训练数据的增广方法、装置、设备和存储介质 第 1 页 专利 训练数据的增广方法、装置、设备和存储介质 第 2 页 专利 训练数据的增广方法、装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。