说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202110320757.9 (22)申请日 2021.03.25 (71)申请人 上海乐言科技股份有限公司 地址 200050 上海市长 宁区长宁路1033号 联通大厦19 楼 (72)发明人 不公告发明人   (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 张振军 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称 槽填充模 型的训练方法及装置、 计算设备和 训练系统 (57)摘要 一种槽填充模 型的训练方法及 装置、 计算设 备和训练系统, 所述方法包括: 获取未标注样本 和已标注样 本, 并将所述已标注样 本作为训练数 据训练预设模型, 以得到槽填充模型; 将所述未 标注样本输入至所述槽填充模型, 以得到所述未 标注样本的预测结果; 根据所述未标注样本的预 测结果筛选出待标注样本, 并将所述待标注样本 发送至外部终端进行标注; 从所述外部终端获取 标注后的待标注样本, 根据所述标注后的待 标注 样本更新所述已标注样本, 并采用更新后的已标 注样本重新训练所述槽填充模型; 判断是否满足 预设停止条件, 如果是, 则得到训练后的槽填充 模型。 通过本发明的方案, 可以减少需要标注的 样本数量, 并提高槽填充 模型的训练效率。 权利要求书2页 说明书12页 附图3页 CN 115130364 A 2022.09.30 CN 115130364 A 1.一种槽填充模型的训练方法, 其特 征在于, 所述方法包括: 步骤一: 获取未标注样本和已标注样本, 并将所述已标注样本作为训练数据训练预设 模型, 以得到 槽填充模型; 步骤二: 将所述未标注样本输入至所述槽填充模型, 以得到所述未标注样本的预测结 果; 步骤三: 根据所述未标注样本的预测结果筛选出所述未标注样本的至少一部分, 记为 待标注样本, 并将所述待标注样本发送至 外部终端进行标注; 步骤四: 获取标注后的待标注样本, 根据所述标注后的待标注样本更新所述已标注样 本, 并采用更新后的已标注样本 重新训练所述槽填充模型; 步骤五: 判断是否满足预设停止条件, 如果是, 则得到训练后的槽填充模型。 2.根据权利要求1所述的槽填充模型的训练方法, 其特 征在于, 所述方法还 包括: 如果不满足所述预设停止条件, 则返回至步骤二, 直至满足所述预设停止条件。 3.根据权利要求1所述的槽填充模型的训练方法, 其特 征在于, 所述方法还 包括: 如果不满足所述预设停止条件, 则返回至步骤三, 直至满足所述预设停止条件。 4.根据权利要求1所述的槽填充模型的训练方法, 其特征在于, 所述未标注样本被划分 为多个槽位, 所述未标注样本的预测结果包括各个槽位的预测结果, 根据所述未标注样本 的预测结果筛 选出待标注样本包括: 根据所述未 标注样本的各个槽位的预测结果, 计算所述未 标注样本的信息熵; 根据所述未 标注样本的信息熵筛 选出所述待标注样本 。 5.根据权利要求4所述的槽填充模型的训练方法, 其特征在于, 所述槽填充模型具有多 个预设槽位类型, 根据所述未标注样本的各个槽位的预测结果, 计算所述未标注样本的信 息熵包括: 对于所述未标注样本的每个槽位, 预测该槽位属于各个预设槽位类型的概率, 并根据 该槽位属于各个预设槽位类型的概 率计算该槽位的信息熵; 将所述未 标注样本的各个槽位的信息熵的平均值作为该 未标注样本的信息熵。 6.根据权利要求5所述的槽填充模型的训练方法, 其特征在于, 根据该槽位属于各个预 设槽位类型的概 率计算该槽位的信息熵包括: 采用下列公式计算所述槽位的信息熵: 其中, H为所述槽位的信息熵, N为所述预设槽位类 型的数量, pi为所述槽位属于第i个预 设槽位类型的概 率, i为正整数, 且1≤i≤N。 7.根据权利要求4所述的槽填充模型的训练方法, 其特征在于, 根据所述未标注样本的 各个槽位的预测结果, 计算所述未 标注样本的信息熵之前, 所述方法还 包括: 对所述未 标注样本进行分词, 以得到多个分词结果; 判断两两相邻的分词结果之间是否具备连接关系, 如果是, 则所述两两相邻的分词结 果属于同一个槽位, 否则, 所述两 两相邻的分词结果 不属于同一个槽位。 8.根据权利要求4所述的槽填充模型的训练方法, 其特征在于, 根据所述未标注样本的 信息熵筛 选出所述待标注样本包括:权 利 要 求 书 1/2 页 2 CN 115130364 A 2按照所述信息熵从大到小的顺序, 选取 预设数量个未 标注样本作为所述待标注样本; 或者, 选取 所述信息熵大于第一预设阈值的未 标注样本作为所述待标注样本 。 9.根据权利要求1所述的槽填充模型的训练方法, 其特征在于, 根据所述标注后的待标 注样本更新所述已标注样本包括: 将所述标注后的待标注样本添加至所述已标注样本中, 以得到更新后的已标注样本; 或者, 采用所述标注后的待标注样本替换所述已标注样本, 以得到更新后的已标注样 本。 10.根据权利要求2所述的槽填充模型的训练方法, 其特征在于, 根据所述未标注样本 的预测结果筛 选出待标注样本包括: 根据所述未标注样本的预测结果, 选择所述未标注样本的至少一部分作为所述待标注 样本; 将所述待标注样本从所述未 标注样本中剔除, 以更新所述未 标注样本 。 11.根据权利要求1所述的槽填充模型的训练方法, 其特征在于, 所述预设停止条件包 括以下一项或多 项: 所述已标注样本的数量达 到第二预设阈值; 采用测试样本测试所述槽填充模型时, 预设指标的取值达到第三预设阈值, 其中, 所述 预设指标包括以下一项或多 项: 准确率、 召回率、 精确率和Fsocre指标。 12.一种槽填充模型的训练装置, 其特 征在于, 所述装置包括: 训练模块, 用于获取未标注样本和已标注样本, 并将所述已标注样本作为训练数据训 练预设模型, 以得到 槽填充模型; 预测模块, 用于将所述未标注样本输入至所述槽填充模型, 以得到所述未标注样本的 预测结果; 筛选模块, 用于根据所述未标注样本的预测结果筛选出未标注样本的至少一部分, 记 为待标注样本, 并将所述待标注样 本发送至外部终端进 行标注; 重新训练模块, 用于从所述 外部终端获取标注后的待标注样本, 根据所述标注后的待标注样本更新所述已标注样本, 并采用更新后的已标注样本 重新训练所述槽填充模型; 判断模块, 用于判断是否满足预设停止条件, 如果是, 则得到训练后的槽填充模型。 13.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理器运 行时执行权利要求1至1 1的任一项所述槽填充模型的训练方法的步骤。 14.一种计算设备, 包括存储器和处理器, 所述存储器上存储有能够在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器运行所述计算机程序时执行权利要求 1至11任一 项所述槽填充模型的训练方法的步骤。 15.一种槽填充模型的训练系统, 其特 征在于, 所述系统包括: 如权利要求14所述的计算设备; 所述外部终端, 所述外 部终端与所述计算设备耦接 。权 利 要 求 书 2/2 页 3 CN 115130364 A 3

.PDF文档 专利 槽填充模型的训练方法及装置、计算设备和训练系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 槽填充模型的训练方法及装置、计算设备和训练系统 第 1 页 专利 槽填充模型的训练方法及装置、计算设备和训练系统 第 2 页 专利 槽填充模型的训练方法及装置、计算设备和训练系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:23:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。