说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210732483.9 (22)申请日 2022.06.27 (65)同一申请的已公布的文献号 申请公布号 CN 114818644 A (43)申请公布日 2022.07.29 (73)专利权人 北京云迹科技股份有限公司 地址 100089 北京市海淀区北四环西路67 号7层702室 (72)发明人 杨馥临 张献涛 曾祥永 支涛  (74)专利代理 机构 北京嘉科知识产权代理事务 所(特殊普通 合伙) 11687 专利代理师 杨波 (51)Int.Cl. G06F 40/186(2020.01) G06F 40/237(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (56)对比文件 CN 113239700 A,2021.08.10 CN 113139060 A,2021.07.20 审查员 林鹏飞 (54)发明名称 文本模板生成方法、 装置、 设备及存 储介质 (57)摘要 本公开提供一种文本模板生成方法、 装置、 设备及存储介质。 该方法包括: 将目标文本作为 预训练模型的输入, 利用预训练模 型中的词向量 层对目标文本进行处理, 得到文本向量; 基于槽 值词典对文本向量中的词向量进行筛选, 得到槽 值语义向量, 利用槽值编码器对槽值语义向量进 行特征提取, 得到槽值语义信息; 利用文本编码 器对文本向量进行特征提取, 得到目标文本的文 本语义信息, 利用双向解码器进行文本意图分 类, 得到目标文本对应的文本意图类别和文本意 图信息; 将槽值语义信息、 文本语义信息以及文 本意图信息, 作为文本模板解码器的输入, 利用 文本模板解码器输出目标文本的文本模板。 本公 开提升了生成文本模板的准确率, 省时省力, 具 有可解释性。 权利要求书2页 说明书10页 附图4页 CN 114818644 B 2022.10.04 CN 114818644 B 1.一种文本模板生成方法, 其特 征在于, 包括: 获取待生成文本模板的目标文本, 将所述目标文本作为预训练模型的输入, 利用所述 预训练模型中的词向量层对所述目标文本进行处 理, 得到所述目标文本对应的文本向量; 基于预设的槽值词典对所述文本向量中的词向量进行筛选, 得到所述文本向量对应的 槽值语义向量, 利用槽值编码器对所述槽值语义向量进行 特征提取, 得到 槽值语义信息; 利用预训练的文本编码器对所述文本向量进行特征提取, 得到所述目标文本的文本语 义信息, 并利用双向解码器基于所述文本语义信息进行文本意图分类, 得到所述 目标文本 对应的文本意图类别和文本意图信息; 将所述槽值语义信息、 所述文本语义信息以及所述文本意图信息, 作为文本模板解码 器的输入, 利用所述文本模板解码器输出 所述目标文本对应的文本模板; 其中, 对所述预训练模型进行训练包括: 获取文本数据以及所述文本数据对应的文本意图和文本模板, 基于所述文本数据、 所 述文本意图和所述文本模板生成基础语料数据集, 利用所述基础语料数据集对所述预训练 模型进行训练; 其中, 所述基础语料数据集中包含若干个样本数据, 每个所述样本数据中包含句子对 应的序号、 文本内容、 文本模板和文本意图; 其中, 基于所述基础语料数据集中所述样本数据对应的文本意图, 对所述文本模板中 的槽值进行整理得到槽值词典, 所述槽值词典中包含多个槽类型, 以及每个所述槽类型对 应的词语。 2.根据权利要求1所述的方法, 其特征在于, 所述利用所述预训练模型中的词向量层对 所述目标文本进行处 理, 得到所述目标文本对应的文本向量, 包括: 将所述槽值词典添加到分词词典中, 并利用添加所述槽值词典后的分词词典对所述目 标文本进行处理, 得到所述 目标文本对应的分词后的文本, 将所述分词后的文本映射为连 续的低维向量, 以便将所述低维向量作为所述目标文本的文本向量。 3.根据权利要求1所述的方法, 其特征在于, 所述基于预设的槽值词典对所述文本向量 中的词向量进行筛 选, 得到所述文本向量对应的槽值语义向量, 包括: 获取所述槽值词典中每个词语对应的词向量, 分别计算所述目标文本的文本向量中的 每个词向量与所述槽值词典中的各个槽类型下的每个词语对应词向量之间的余弦距离, 将 所述文本向量中所述余弦距离大于或等于距离阈值的词向量, 替换为对应所述槽类型下的 所有词语的词向量的平均向量, 并将所述文本向量中所述余弦距离小于距离阈值的词向 量, 替换为固定值。 4.根据权利要求1所述的方法, 其特征在于, 所述预训练的文本编码器采用预训练的 BERT模型, 采用以下 方式对所述BERT模型进行 预训练, 包括: 在基于文本关键信息掩码语言模型任务作为预训练任务对所述BERT模型进行预训练 时, 从每个所述样本数据中定 向选取一定比例的关键单词和非关键单词, 并对所述关键单 词和所述非关键单词进行掩码; 在基于文本模板匹配模型任务作为预训练任务对所述BERT模型进行预训练时, 从所述 基础语料数据集中抽取至少一个句 子, 并按照预定概率抽取所述句 子对应的第一模板, 以 及根据所述第一模板对应的意图类别, 按照相同的概率从所述意图类别对应的模板集合中权 利 要 求 书 1/2 页 2 CN 114818644 B 2随机选取一个第二模板; 将所述句子和所述第一模板, 以及所述句子和所述第二模板, 均作为文本模板匹配模 型的输入, 以通过文本模板匹配模型任务对输入进行预测, 判断所述句 子与所述第一模板 或所述第二模板是否匹配。 5.根据权利要求1所述的方法, 其特征在于, 所述利用双向解码器基于所述文本语义信 息进行文本意图分类, 包括: 将所述文本语义信 息作为所述双向解码器的输入, 利用所述双向解码器对所述文本语 义信息执行解码操作, 得到所述目标文本对应的初始 意图分类结果, 利用Softmax分类器对 所述初始意图分类结果进行映射, 得到所述目标文本对应的文本意图类别。 6.一种文本模板生成装置, 其特 征在于, 包括: 获取模块, 被配置为获取待生成文本模板的目标文本, 将所述目标文本作为预训练模 型的输入, 利用所述预训练模型中的词向量层对所述 目标文本进行处理, 得到所述 目标文 本对应的文本向量; 筛选模块, 被配置为基于预设的槽值词典对所述文本向量中的词向量进行筛选, 得到 所述文本 向量对应的槽值语义向量, 利用槽值编码器对所述槽值语义向量进行特征提取, 得到槽值语义信息; 分类模块, 被配置为利用预训练的文本编码器对所述文本向量进行特征提取, 得到所 述目标文本的文本语义信息, 并利用双向解码器基于所述文本语义信息进行文本意图分 类, 得到所述目标文本对应的文本意图类别和文本意图信息; 生成模块, 被配置为将所述槽值语义信 息、 所述文本语义信 息以及所述文本意图信 息, 作为文本模板解码器的输入, 利用所述文本模板解码器输出所述目标文本对应的文本模 板; 其中, 还包括训练模块, 所述训练模块用于获取文本数据以及文本数据对应的文本意 图和文本模板, 基于文本数据、 文本意图和文本模板生成基础语料数据集, 利用基础语料数 据集对预训练模型进 行训练; 其中, 基础语料数据集中包含若干个样 本数据, 每个样本数据 中包含句子对应的序号、 文本内容、 文本模板和文本意图; 其中, 所述训练模块还用于基于基础语料数据集中样本数据对应的文本意图, 对文本 模板中的槽值进行整理得到槽值词典, 槽值词典中包含多个槽类型, 以及每个槽类型对应 的词语。 7.一种电子设备, 包括存储器, 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 所述处 理器执行所述程序时实现如权利要求1至 5中任一项所述的方法。 8.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1至 5中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114818644 B 3

.PDF文档 专利 文本模板生成方法、装置、设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本模板生成方法、装置、设备及存储介质 第 1 页 专利 文本模板生成方法、装置、设备及存储介质 第 2 页 专利 文本模板生成方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:30上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。