说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210689174.8 (22)申请日 2022.06.17 (71)申请人 中国平安人寿保险股份有限公司 地址 518000 广东省深圳市福田区福田街 道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人 张智  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 黄达荣 (51)Int.Cl. G06F 40/186(2020.01) G06F 40/247(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06F 16/903(2019.01) (54)发明名称 文本模板的生成方法和装置、 计算机设备、 存储介质 (57)摘要 本申请实施例提供一种文本模板的生成方 法和装置、 计算机设备、 存储介质, 属于自然语言 语义理解技术领域。 该方法包括: 获取待处理的 输入文本, 对输入文本进行语义理解得到多个原 始分词以及每个原始分词对应的词类型, 并通过 预设的语义相似模型对原始分词进行近似词组 的挖掘, 以根据得到的近似词得到多个初步文 本, 再通过对每一个初步文本进行语义理解以确 定每一个初步文本中的槽位, 进而得到文本模 板。 本申请实施例通过语义理解技术和语义相似 模型对输入文本进行处理, 自动生成大量的初步 文本, 并确定每一个初步文本的槽位进而得到文 本模板, 文本模板的生成过程无需人工参与标 注, 提高了文本模板的生成效率。 权利要求书3页 说明书13页 附图4页 CN 114997133 A 2022.09.02 CN 114997133 A 1.一种文本模板的生成方法, 其特 征在于, 包括: 获取待处 理的输入文本; 对所述输入文本进行语义理解, 得到多个原始分词以及每个所述原始分词对应的词类 型; 对于每一个所述原始分词, 通过预设的语义相似模型对所述原始分词进行近义词组 的 挖掘, 以得到所述原始分词对应的多个近似词, 并确定每个所述近似词对应的词类型, 所述 近似词对应的词类型和所述原 始分词对应的词类型一 致; 根据多个所述近似词、 所述近似词对应的词类型以及所述输入文本得到多个初步文 本; 对多个所述初步文本进行语义理解, 得到多个目标分词以及每个所述目标分词对应的 目标词类型; 在多个所述初步文本中, 根据 所述目标分词和所述目标词类型确定每一个所述初步文 本的槽位; 对于每一个所述初步文本, 将所述槽位上对应的目标分词从所述初步文本中去 除, 以 得到多个初步文本模板; 根据多个所述初步文本模板得到目标文本模板 。 2.根据权利要求1所述的方法, 其特征在于, 所述通过预设的语义相似模型对所述原始 分词进行近义词组的挖掘, 以得到与所述原 始分词对应的多个近似词, 包括: 获取文本数据, 对所述文本数据进行语义理解, 得到多个词语片段; 对每一个所述词语片段进行向量表示, 以得到多个词语向量, 并对所述原始分词进行 向量表示, 以得到分词向量; 对于每一个所述词语向量, 计算每一个所述词语向量与所述分词向量的近似距离, 若 所述近似距离小于预设的距离阈值, 则将所述词语向量对应的词语片段作为一个所述近义 词, 以得到多个近似词。 3.根据权利要求1所述的方法, 其特征在于, 所述根据多个所述近似词、 所述近似词对 应的词类型、 以及所述输入文本得到多个初步文本, 包括: 对于每一个所述近似词, 根据 所述近似词对应的词类型在所述输入文本 中匹配出对应 的原始分词, 并在所述输入文本中将所述对应的原始分词替换为所述近似词, 得到所述初 步文本。 4.根据权利要求1所述的方法, 其特征在于, 所述根据所述目标分词和所述目标词类型 确定每一个所述初步文本的槽位, 包括: 若同一所述目标词类型至少存在于两个所述初步文本 中, 则将所述目标词类型对应的 目标分词作为槽位词; 根据已作为槽位词的所述目标分词确定每一个所述初步文本的槽位。 5.根据权利要求1所述的方法, 其特征在于, 所述根据多个所述初步文本模板得到目标 文本模板, 包括: 对每一个所述初步文本模板进行语义理解, 得到多个模板分词以及每个所述模板分词 对应的词类型; 对于每一个所述模板分词, 若所述模板分词对应的词类型为预设类型, 则在每一个所权 利 要 求 书 1/3 页 2 CN 114997133 A 2述初步文本模板中将所述模板 分词替换为通配字符, 以得到多个中间文本模板; 其中, 所述 预设类型包括介词、 拟声词、 和语气词中的至少一种; 对于多个所述中间文本模板, 计算多个所述中间文本模板的相似度, 并根据所述相似 度和所述 通配字符对多个所述中间文本模板进行合并, 以得到目标文本模板 。 6.根据权利要求1至5任一项所述的方法, 其特征在于, 所述根据多个所述初步文本模 板得到目标文本模板, 包括: 获取语料, 并获取 所述语料对应的原 始文本模板; 根据所述语料从多个初步文本模板中得到所述语料对应的匹配文本模板; 计算所述原始文本模板和所述匹配文本模板的匹配相似度, 若所述匹配相似度小于预 设匹配相似度阈值, 则 删除所述匹配文本模板, 以得到更新的目标文本模板 。 7.根据权利要求1至5任一项所述的方法, 其特征在于, 所述根据多个所述初步文本模 板得到目标文本模板, 包括: 获取日志, 并通过预设的标签模型对所述日志进行标记, 以确定所述日志对应的原始 文本模板; 根据所述日志从多个初步文本模板中得到所述日志对应的匹配文本模板; 计算所述原始文本模板和所述匹配文本模板的匹配相似度, 若所述匹配相似度小于预 设匹配相似度阈值, 则 删除所述匹配文本模板, 以得到更新的目标文本模板 。 8.一种文本模板的生成装置, 其特 征在于, 包括: 获取模块, 用于获取待处 理的输入文本; 第一语义理解模块, 用于对所述输入文本进行语义理解, 得到多个原始分词以及每个 所述原始分词对应的词类型; 语义相似处理模块, 用于对于每一个所述原始分词, 通过预设的语义相似模型对所述 原始分词进行近义词组的挖掘, 以得到所述原始分词对应的多个近似词, 并确定每个所述 近似词对应的词类型, 所述近似词对应的词类型和所述原 始分词对应的词类型一 致; 初步文本生成模块, 用于根据多个所述近似词、 所述近似词对应的词类型以及所述输 入文本得到多个初步文本; 第二语义理解模块, 用于对多个所述初步文本进行语义理解, 得到多个目标分词以及 每个所述目标分词对应的目标词类型; 槽位确定模块, 用于在多个所述初步文本中, 根据所述目标分词和所述目标词类型确 定每一个所述初步文本的槽位; 初步文本模板生成模块, 用于对于每一个所述初步文本, 将所述槽位上对应的目标分 词从所述初步文本中去除, 以得到多个初步文本模板; 目标文本模板生成模块, 用于根据多个所述初步文本模板得到目标文本模板 。 9.一种计算机设备, 其特征在于, 所述计算机设备包括存储器、 处理器、 存储在所述存 储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连 接通信的数据总线, 所述程序被所述处理器执行时实现如权利要求 1至7任一项 所述的方法 的步骤。 10.一种存储介质, 所述存储介质为计算机可读存储介质, 用于计算机可读存储, 其特 征在于, 所述存储介质存储有一个或者多个程序, 所述一个或者多个程序可被一个或者多权 利 要 求 书 2/3 页 3 CN 114997133 A 3

.PDF文档 专利 文本模板的生成方法和装置、计算机设备、存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本模板的生成方法和装置、计算机设备、存储介质 第 1 页 专利 文本模板的生成方法和装置、计算机设备、存储介质 第 2 页 专利 文本模板的生成方法和装置、计算机设备、存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。