专利标题判别模型的生成方法和装置、设备、介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210687369.9 (22)申请日 2022.06.17 (71)申请人中国平安人寿保险股份有限公司地址 518000 广东省深圳市福田区福田街道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人张智　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 专利代理师黄达荣 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/258(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06F 40/247(2020.01) G06N 3/02(2006.01) (54)发明名称标题判别模型的生成方法和装置、设备、介质 (57)摘要本申请实施例提供一种标题判别模型的生成方法和装置、设备、介质，属于自然语言语义理解技术领域。该方法包括：通过对原始标题和原始内容分别进行语义理解，并根据语义理解得到的分词结果对原始标题进行更新，目的是自动生成大量的负样本标题，从而得到负样本集，进而得到包含负样本集的样本集，并根据样本集对模型进行训练，以得到标题判别模型。本实施例样本集的生成过程中无需人工参与进行标注，通过语义理解技术自动生成样本集，提高了样本的生成效率。另外，通过自动生成的样本集对预设的二分类神经网络模型进行训练得到标题判别模型，能够通过标题判别模型实现对标题的生成是否符合现实进行判别，可以有效提升标题和内容的事实符合程度。权利要求书3页说明书14页附图5页 CN 115034318 A 2022.09.09 CN 115034318 A 1.一种标题判别模型的生成方法，其特征在于，所述方法包括：获取待处理数据，所述待处理数据包括原始标题和所述原始标题对应的原始内容；对所述原始标题进行语义理解，得到多个原始标题分词以及每个所述原始标题分词的词类型；对所述原始内容进行语义理解，得到多个原始内容分词以及每个所述原始内容分词的词类型；对于每个所述原始内容分词，匹配出词类型与所述原始内容分词的词类型相同的原始标题分词，并在所述原始标题中将所述原始标题分词替换为所述原始内容分词，以得到多个负样本标题；将每个所述负样本标题和所述原始内容作为一对负样本，以得到多对负样本，根据多对所述负样本构建负样本集；创建样本集，并将所述负样本集添加至所述样本集；根据所述样本集对预设的二分类神经网络模型进行训练，以得到标题判别模型。 2.根据权利要求1所述的方法，其特征在于，所述对所述原始内容进行语义理解，得到多个原始内容分词以及每个所述原始内容分词的词类型，包括：对所述原始内容进行语义理解，得到多个初步原始内容分词以及每个所述初步原始内容分词的词类型；根据多个所述初步原始内容分词和每个所述初步原始内容分词的词类型构建初步内容集；对于每个所述初步原始内容，若确定所述初步原始内容分词的词类型不属于预设的第一类型集合，则在所述初步内容集中删除所述初步原始内容分词和所述初步原始内容分词的词类型，得到目标内容集，所述第一类型集合包括地区类、动作类、数量词类中的至少一个；根据所述目标内容集确定多个所述原始内容，以及确定每个所述原始内容分词的词类型。 3.根据权利要求1所述的方法，其特征在于，所述在所述原始标题中将所述原始标题分词替换为所述原始内容分词，以得到多个负样本标题，包括：在所述原始标题中将所述原始标题分词替换为所述原始内容分词，以得到多个初步负样本标题；根据多个所述初步负样本标题构建初步负样本标题集；计算每个初步负样本标题和原始标题的相似度值，得到多个相似度值；根据多个所述相似度值进行比较，删除在所述初步负样本标题中的所述相似度值重复的初步负样本标题，以得到目标负样本标题集；根据所述目标负样本标题集确定多个所述负样本标题。 4.根据权利要求1至3任意一项所述的方法，其特征在于，所述样本集还包含正样本集，所述方法还包括：将所述原始标题和所述原始内容作为一对原始正样本，根据所述原始正样本得到所述正样本集，将所述正样本集添加至所述样本集。 5.根据权利要求1至3任意一项所述的方法，其特征在于，所述样本集还包含正样本集，权　利　要　求　书 1/3 页 2 CN 115034318 A 2所述方法还包括：通过预设的语义相似模型对多个所述原始标题分词进行近似词组的挖掘，以得到多个近似词，并将在所述原始标题中的原始标题分词替换为所述近似词，以得到多个正样本标题；将每个所述正样本标题和所述原始内容作为一对近似正样本，以得到多对所述近似正样本，并根据多对所述近似正样本得到所述正样本集；将所述正样本集添加至所述样本集。 6.根据权利要求5所述的方法，其特征在于，所述通过预设的语义相似模型对多个所述原始标题分词进行近似词组的挖掘，以得到多个近似词，并将在所述原始标题中的原始标题分词替换为所述近似词，以得到多个正样本标题，包括：对于每个所述原始标题分词，通过预设的语义相似模型对所述原始标题分词进行近义词组的挖掘，以得到与所述原始标题分词对应的多个近似词，并确定每个所述近似词的词类型，所述近似词的词类型与所述原始标题分词的词类型一致；对于每个所述近似词，匹配出词类型与所述近似词的词类型相同的原始标题分词，并将在所述原始标题中的所述原始标题分词替换为所述近似词，以得到多个正样本标题。 7.根据权利要求6所述的方法，其特征在于，所述对于每个所述原始标题分词，通过预设的语义相似模型对所述原始标题分词进行近义词组的挖掘，以得到与所述原始标题分词对应的多个近似词，并确定每个所述近似词的词类型，包括：对于每个所述原始标题分词，通过预设的语义相似模型对所述原始标题分词进行近义词组的挖掘，以得到所述原始标题分词对应的多个初步近似词，并确定每个所述初步近似词的词类型，所述初步近似词的词类型与所述原始标题分词的词类型一致；根据多个所述初步近似词和每个所述初步近似词的词类型构建初步近似词集；若确定所述初步近似词的词类型属于预设的第二词类型集合，则在所述初步近似词集中删除所述初步近似词和所述初步近似词的词类型，以得到目标近似词集，其中，所述第二词类型集合包括地区类、动作类、数量词类中的至少一个；根据所述目标近似词集得到多个近似词以及每个所述近似词的词类型。 8.一种标题判别模型的生成装置，其特征在于，所述装置包括：获取模块，用于获取待处理数据，所述待处理数据包括原始标题和所述原始标题对应的原始内容；第一语义理解模块，用于对所述原始标题进行语义理解，得到多个原始标题分词以及每个所述原始标题分词的词类型；第二语义理解模块，用于对所述原始内容进行语义理解，得到多个原始内容分词以及每个所述原始内容分词的词类型；负样本标题生成模块，用于对于每个所述原始内容分词，匹配出词类型与所述原始内容分词的词类型相同的原始标题分词，并在所述原始标题中将所述原始标题分词替换为所述原始内容分词，以得到多个负样本标题；负样本集构建模块，用于将每个所述负样本标题和所述原始内容作为一对负样本，以得到多对负样本，根据多对所述负样本构建负样本集；样本集创建模块，用于创建样本集，并将所述负样本集添加至所述样本集；权　利　要　求　书 2/3 页 3 CN 115034318 A 3

专利 标题判别模型的生成方法和装置、设备、介质

专利标题判别模型的生成方法和装置、设备、介质