说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210687369.9 (22)申请日 2022.06.17 (71)申请人 中国平安人寿保险股份有限公司 地址 518000 广东省深圳市福田区福田街 道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人 张智  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 黄达荣 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/258(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06F 40/247(2020.01) G06N 3/02(2006.01) (54)发明名称 标题判别模型的生成方法和装置、 设备、 介 质 (57)摘要 本申请实施例提供一种标题判别模型的生 成方法和装置、 设备、 介质, 属于自然语言语义理 解技术领域。 该方法包括: 通过对原始标题和原 始内容分别进行语义理解, 并根据语义理解得到 的分词结果对原始标题进行更新, 目的是自动生 成大量的负样本标题, 从而得到负样本集, 进而 得到包含负样本集的样本集, 并根据样本集对模 型进行训练, 以得到标题判别模型。 本实施例样 本集的生 成过程中无需人工参与进行标注, 通过 语义理解技术自动生成样本集, 提高了样本的生 成效率。 另外, 通过自动生成的样本集对预设的 二分类神经网络模型进行训练得到标题判别模 型, 能够通过标题判别模型实现对 标题的生成是 否符合现实进行判别, 可以有效提升标题和内容 的事实符合 程度。 权利要求书3页 说明书14页 附图5页 CN 115034318 A 2022.09.09 CN 115034318 A 1.一种标题判别模型的生成方法, 其特 征在于, 所述方法包括: 获取待处 理数据, 所述待处 理数据包括原 始标题和所述原 始标题对应的原 始内容; 对所述原始标题进行语义理解, 得到多个原始标题分词以及每个所述原始标题分词的 词类型; 对所述原始内容进行语义理解, 得到多个原始内容分词以及每个所述原始内容分词的 词类型; 对于每个所述原始内容分词, 匹配出词类型与 所述原始内容分词的词类型相同的原始 标题分词, 并在所述原始标题中将所述原始标题分词替换为所述原始内容分词, 以得到多 个负样本标题; 将每个所述负样本标题和所述原始内容作为一对负样本, 以得到多对负样本, 根据多 对所述负 样本构建负 样本集; 创建样本集, 并将所述负 样本集添加至所述样本集; 根据所述样本集对预设的二分类神经网络模型进行训练, 以得到标题判别模型。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述原始内容进行语义理解, 得到 多个原始内容分词以及每 个所述原 始内容分词的词类型, 包括: 对所述原始内容进行语义理解, 得到多个初步原始内容分词以及每个所述初步原始内 容分词的词类型; 根据多个所述初步原始内容分词和每个所述初步原始内容分词的词类型构建初步内 容集; 对于每个所述初步原始内容, 若确定所述初步原始内容分词的词类型不属于预设的第 一类型集合, 则在所述初步内容集中删除所述初步原始内容分词和所述初步原始内容分词 的词类型, 得到目标内容集, 所述第一类型集合包括地区类、 动作类、 数量词类中的至少一 个; 根据所述目标内容集确定多个所述原始内容, 以及确定每个所述原始内容分词的词类 型。 3.根据权利要求1所述的方法, 其特征在于, 所述在所述原始标题中将所述原始标题分 词替换为所述原 始内容分词, 以得到多个负 样本标题, 包括: 在所述原始标题中将所述原始标题分词替换为所述原始内容分词, 以得到多个初步负 样本标题; 根据多个所述初步负 样本标题构建初步负 样本标题集; 计算每个初步负 样本标题和原 始标题的相似度值, 得到多个相似度值; 根据多个所述相似度值进行比较, 删除在所述初步负样本标题中的所述相似度值重复 的初步负 样本标题, 以得到目标负 样本标题集; 根据所述目标负 样本标题集确定多个所述负 样本标题。 4.根据权利要求1至3任意一项所述的方法, 其特征在于, 所述样本集还包含正样本集, 所述方法还 包括: 将所述原始标题和所述原始内容作为一对原始正样本, 根据所述原始正样本得到所述 正样本集, 将所述 正样本集添加至所述样本集。 5.根据权利要求1至3任意一项所述的方法, 其特征在于, 所述样本集还包含正样本集,权 利 要 求 书 1/3 页 2 CN 115034318 A 2所述方法还 包括: 通过预设的语义相似模型对多个所述原始标题分词进行近似词组 的挖掘, 以得到多个 近似词, 并将在所述原始标题中的原始标题分词替换为所述近似词, 以得到多个正样本标 题; 将每个所述正样本标题和所述原始内容作为一对近似正样本, 以得到多对所述近似正 样本, 并根据多对所述近似正样本得到所述 正样本集; 将所述正样本集添加至所述样本集。 6.根据权利要求5所述的方法, 其特征在于, 所述通过预设的语义相似模型对多个所述 原始标题分词进行近似词组的挖掘, 以得到多个近似词, 并将在所述原始标题中的原始标 题分词替换为所述近似词, 以得到多个正样本标题, 包括: 对于每个所述原始标题分词, 通过预设的语义相似模型对所述原始标题分词进行近义 词组的挖掘, 以得到与所述原始标题分词对应的多个近似词, 并确定每个所述近似词的词 类型, 所述近似词的词类型与所述原 始标题分词的词类型一 致; 对于每个所述近似词, 匹配出词类型与所述近似词的词类型相同的原始标题分词, 并 将在所述原 始标题中的所述原 始标题分词替换为所述近似词, 以得到多个正样本标题。 7.根据权利要求6所述的方法, 其特征在于, 所述对于每个所述原始标题分词, 通过预 设的语义相似模型对所述原始标题分词进 行近义词组的挖掘, 以得到与所述原始标题分词 对应的多个近似词, 并确定每 个所述近似词的词类型, 包括: 对于每个所述原始标题分词, 通过预设的语义相似模型对所述原始标题分词进行近义 词组的挖掘, 以得到所述原始标题分词对应的多个初步近似词, 并确定每个所述初步近似 词的词类型, 所述初步近似词的词类型与所述原 始标题分词的词类型一 致; 根据多个所述初步近似词和每 个所述初步近似词的词类型构建初步近似词集; 若确定所述初步近似词的词类型属于预设的第 二词类型集合, 则在所述初步近似词集 中删除所述初步近似词和所述初步近似词的词类型, 以得到目标近似词集, 其中, 所述第二 词类型集 合包括地区类、 动作类、 数量词类中的至少一个; 根据所述目标近似词集得到多个近似词以及每 个所述近似词的词类型。 8.一种标题判别模型的生成装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取待处理数据, 所述待处理数据包括原始标题和所述原始标题对应 的原始内容; 第一语义理解模块, 用于对所述原始标题进行语义理解, 得到多个原始标题分词以及 每个所述原 始标题分词的词类型; 第二语义理解模块, 用于对所述原始内容进行语义理解, 得到多个原始内容分词以及 每个所述原 始内容分词的词类型; 负样本标题生成模块, 用于对于每个所述原始内容分词, 匹配出词类型与所述原始内 容分词的词类型相同的原始标题分词, 并在所述原始标题中将所述原始标题分词替换为所 述原始内容分词, 以得到多个负 样本标题; 负样本集构建模块, 用于将每个所述负样本标题和所述原始内容作为一对负样本, 以 得到多对负 样本, 根据多对所述负 样本构建负 样本集; 样本集创建模块, 用于创建样本集, 并将所述负 样本集添加至所述样本集;权 利 要 求 书 2/3 页 3 CN 115034318 A 3

.PDF文档 专利 标题判别模型的生成方法和装置、设备、介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 标题判别模型的生成方法和装置、设备、介质 第 1 页 专利 标题判别模型的生成方法和装置、设备、介质 第 2 页 专利 标题判别模型的生成方法和装置、设备、介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。