说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210626170.5 (22)申请日 2022.06.02 (71)申请人 北京三快在线科技有限公司 地址 100080 北京市海淀区北四环西路9号 2106-030 (72)发明人 昝文 江小天 肖垚 陈达遥  陈胜  (74)专利代理 机构 北京三高永信知识产权代理 有限责任公司 1 1138 专利代理师 谢冬寒 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 语义识别模型的训练方法、 装置、 电子设备 及存储介质 (57)摘要 本申请公开了一种语义识别模型的训练方 法、 装置、 电子设备及存储介质, 属于互联网技术 领域。 该方法获取样本搜索词和第一样本业务信 息, 基于第一样本业务信息的多个字段分别对应 的字段类型, 确定第一样本业务信息的多个字段 分别对应的掩盖方式, 基于该多个字段分别对应 的掩盖方式, 对第一样本业务信息的多个字段中 的词分别进行掩盖, 得到第二样本业务信息, 基 于样本搜索词和第二样本业务信息, 进行模型训 练, 得到语义识别模型。 由于多个字段中的词都 进行了掩盖, 因此, 这样可 以使模型充分学习多 个字段的语义信息, 从而提高语义识别模型的推 理能力。 权利要求书4页 说明书20页 附图6页 CN 114997166 A 2022.09.02 CN 114997166 A 1.一种语义识别模型的训练方法, 其特 征在于, 所述方法包括: 获取样本 搜索词和第一样本业 务信息; 基于所述第 一样本业务信 息的多个字段分别对应的字段类型, 确定所述第 一样本业务 信息的多个字段分别对应的掩盖方式, 所述多个字段是基于语义信息对所述第一样本业务 信息进行划分得到的, 一个字段对应一种掩盖方式; 基于所述第 一样本业务信 息的多个字段分别对应的掩盖方式, 对所述第 一样本业务信 息的多个字段中的词分别进行掩盖, 得到第二样本业 务信息; 基于所述样本 搜索词和所述第二样本业 务信息, 进行模型训练, 得到语义识别模型。 2.根据权利要求1所述的方法, 其特征在于, 基于所述字段对应的掩盖方式, 对所述字 段中的词进行掩盖的过程, 包括: 若所述字段的掩盖方式为交替掩盖方式, 且基于第 一概率确定当前对所述字段中的词 采用词级别掩盖方式, 从所述字段中选取第一目标词, 对所述第一目标词进行词级别掩盖, 所述第一概率用于表 示对所述字段中的词进 行词级别掩盖的概率, 所述交替掩盖方式用于 表示交替采用字级别掩盖方式和词级别掩盖方式对所述字段中的词进行掩盖; 若所述字段的掩盖方式为交替掩盖方式, 且基于第 二概率确定当前对所述字段中的词 采用字级别掩盖方式, 从所述字段中选取第二目标词, 对所述第二目标词进行字级别掩盖, 所述第二 概率用于表示对所述字段中的词进行字级别掩盖的概 率。 3.根据权利要求2所述的方法, 其特征在于, 所述从所述字段中选取第一目标词, 对所 述第一目标词进行词级别掩盖, 包括: 确定所述字段包括的词组的第一数量; 从所述第一数量的词组中选取第 一预设比例的词组作为所述第 一目标词, 对所述第 一 目标词进行掩盖 。 4.根据权利要求3所述的方法, 其特征在于, 所述从所述第 一数量的词组中选取第 一预 设比例的词组作为所述第一目标词, 包括: 若所述第一预设比例的词组 的数量不超过第 一预设阈值, 将所述第 一预设比例的词组 作为所述第一目标词; 若所述第一预设比例的词组 的数量超过所述第 一预设阈值, 从所述第 一预设比例的词 组中选取 所述第一预设阈值的词组作为所述第一目标词。 5.根据权利要求1所述的方法, 其特征在于, 基于所述字段对应的掩盖方式, 对所述字 段中的词进行掩盖的过程, 包括: 若所述字段的掩盖方式为字级别掩盖方式, 所述字段的字段类型为品类字段类型, 且 基于第三概率确定对所述字段中的词进行掩盖的预设比例为第二预设比例, 从所述字段中 选取第二预设比例的词, 对所述第二预设比例的词进行字级别掩盖, 所述第三概率用于表 示对所述字段中第二预设比例的词进行掩盖的概 率; 若所述字段的掩盖方式为字级别掩盖方式, 所述字段的字段类型为品类字段类型, 且 基于第四概率确定所述预设比例为第三预设比例, 从所述字段中选取第三预设比例的词, 对所述第三预设比例的词进行字级别掩盖, 所述第四概率用于表示对所述字段中第三预设 比例的词进行掩盖的概 率; 若所述字段的掩盖方式为字级别掩盖方式, 所述字段的字段类型为品类字段类型, 且权 利 要 求 书 1/4 页 2 CN 114997166 A 2基于第五概率确定所述预设比例为第四预设比例, 从所述字段中选取第四预设比例的词, 对所述第四预设比例的词进行字级别掩盖, 所述第五概率用于表示对所述字段中第四预设 比例的词进行掩盖的概率, 所述第三概率大于所述第四概率, 所述第四概率大于所述第 五 概率, 所述第四预设比例大于所述第三预设比例, 所述第三预设比例大于所述第二预设比 例。 6.根据权利要求1所述的方法, 其特征在于, 基于所述字段对应的掩盖方式, 对所述字 段中的词进行掩盖的过程, 包括: 若所述字段的掩盖方式为字级别掩盖方式, 所述字段的字段类型为标题字段类型, 且 基于第六概率确定按照词权重的大小从所述字段中选取第三目标词, 基于所述字段包括的 多个词分别对应的第一权重, 从所述字段中选取所述第三 目标词, 对所述第三目标词进行 字级别掩盖, 一个词对应一个第一权重, 所述第六概率用于表示按照词权重的大小选取所 述第三目标词的概 率; 若所述字段的掩盖方式为字级别掩盖方式, 所述字段的字段类型为标题字段类型, 且 基于第七概率确定随机从所述字段中选取第三目标词, 从所述字段中随机选取所述第三目 标词, 对所述第三 目标词进行字级别掩盖, 所述第七概率用于表示 随机选取所述第三 目标 词的概率。 7.根据权利要求6所述的方法, 其特 征在于, 所述样本 搜索词的数量 为多个; 确定所述字段包括的多个词分别对应的第一权 重的过程, 包括: 基于所述第 一样本业务信 息分别对应的点击次数, 确定所述第 一样本业务信 息分别对 应的点击概率, 所述点击次数用于表示通过一个样本搜索词搜索所述第一样本业务信息, 且所述第一样本业 务信息被点击的次数; 基于所述第 一样本业务信 息分别对应的点击概率, 确定所述第 一样本业务信 息对应的 搜索词集合, 所述搜索词集合中包括第三数量个样本搜索词, 所述第三数量个样本搜索词 对应的第一样本业 务信息的点击概 率最高; 对所述第一样本业务信 息和所述多个样本搜索词分别进行分词, 得到第 一集合和多个 第二集合, 一个样本 搜索词对应一个第二 集合; 基于所述搜索词集合、 所述第一集合和所述多个第二集合, 确定所述字段包括的多个 词分别对应的第一权 重。 8.根据权利要求7所述的方法, 其特征在于, 所述基于所述搜索词集合、 所述第一集合 和所述多个第二 集合, 确定所述字段包括的多个词分别对应的第一权 重, 包括: 基于所述搜索词集合, 遍历所述搜索词集合中的样本搜索词, 确定所述第一集合的多 个词分别为所述第三数量个样本 搜索词对应的第二 集合中的词的概 率; 基于所述第一集合的多个词分别为所述第三数量个样本搜索词对应的第二集合中的 词的概率, 确定所述第一 集合的多个词分别对应的第二权 重; 对所述第一集合的多个词分别对应的第 二权重进行归一化处理, 得到多个词分别对应 的第一权 重。 9.根据权利要求1所述的方法, 其特征在于, 基于所述字段对应的掩盖方式, 对所述字 段中的词进行掩盖的过程, 包括: 若所述字段的掩盖方式为字级别掩盖方式, 且所述字段的字段类型为关键词字段类权 利 要 求 书 2/4 页 3 CN 114997166 A 3

.PDF文档 专利 语义识别模型的训练方法、装置、电子设备及存储介质

文档预览
中文文档 31 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语义识别模型的训练方法、装置、电子设备及存储介质 第 1 页 专利 语义识别模型的训练方法、装置、电子设备及存储介质 第 2 页 专利 语义识别模型的训练方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。