专利文本模板生成方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210732483.9 (22)申请日 2022.06.27 (65)同一申请的已公布的文献号申请公布号 CN 114818644 A (43)申请公布日 2022.07.29 (73)专利权人北京云迹科技股份有限公司地址 100089 北京市海淀区北四环西路67 号7层702室 (72)发明人杨馥临　张献涛　曾祥永　支涛　 (74)专利代理机构北京嘉科知识产权代理事务所(特殊普通合伙) 11687 专利代理师杨波 (51)Int.Cl. G06F 40/186(2020.01) G06F 40/237(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (56)对比文件 CN 113239700 A,2021.08.10 CN 113139060 A,2021.07.20 审查员林鹏飞 (54)发明名称文本模板生成方法、装置、设备及存储介质 (57)摘要本公开提供一种文本模板生成方法、装置、设备及存储介质。该方法包括：将目标文本作为预训练模型的输入，利用预训练模型中的词向量层对目标文本进行处理，得到文本向量；基于槽值词典对文本向量中的词向量进行筛选，得到槽值语义向量，利用槽值编码器对槽值语义向量进行特征提取，得到槽值语义信息；利用文本编码器对文本向量进行特征提取，得到目标文本的文本语义信息，利用双向解码器进行文本意图分类，得到目标文本对应的文本意图类别和文本意图信息；将槽值语义信息、文本语义信息以及文本意图信息，作为文本模板解码器的输入，利用文本模板解码器输出目标文本的文本模板。本公开提升了生成文本模板的准确率，省时省力，具有可解释性。权利要求书2页说明书10页附图4页 CN 114818644 B 2022.10.04 CN 114818644 B 1.一种文本模板生成方法，其特征在于，包括：获取待生成文本模板的目标文本，将所述目标文本作为预训练模型的输入，利用所述预训练模型中的词向量层对所述目标文本进行处理，得到所述目标文本对应的文本向量；基于预设的槽值词典对所述文本向量中的词向量进行筛选，得到所述文本向量对应的槽值语义向量，利用槽值编码器对所述槽值语义向量进行特征提取，得到槽值语义信息；利用预训练的文本编码器对所述文本向量进行特征提取，得到所述目标文本的文本语义信息，并利用双向解码器基于所述文本语义信息进行文本意图分类，得到所述目标文本对应的文本意图类别和文本意图信息；将所述槽值语义信息、所述文本语义信息以及所述文本意图信息，作为文本模板解码器的输入，利用所述文本模板解码器输出所述目标文本对应的文本模板；其中，对所述预训练模型进行训练包括：获取文本数据以及所述文本数据对应的文本意图和文本模板，基于所述文本数据、所述文本意图和所述文本模板生成基础语料数据集，利用所述基础语料数据集对所述预训练模型进行训练；其中，所述基础语料数据集中包含若干个样本数据，每个所述样本数据中包含句子对应的序号、文本内容、文本模板和文本意图；其中，基于所述基础语料数据集中所述样本数据对应的文本意图，对所述文本模板中的槽值进行整理得到槽值词典，所述槽值词典中包含多个槽类型，以及每个所述槽类型对应的词语。 2.根据权利要求1所述的方法，其特征在于，所述利用所述预训练模型中的词向量层对所述目标文本进行处理，得到所述目标文本对应的文本向量，包括：将所述槽值词典添加到分词词典中，并利用添加所述槽值词典后的分词词典对所述目标文本进行处理，得到所述目标文本对应的分词后的文本，将所述分词后的文本映射为连续的低维向量，以便将所述低维向量作为所述目标文本的文本向量。 3.根据权利要求1所述的方法，其特征在于，所述基于预设的槽值词典对所述文本向量中的词向量进行筛选，得到所述文本向量对应的槽值语义向量，包括：获取所述槽值词典中每个词语对应的词向量，分别计算所述目标文本的文本向量中的每个词向量与所述槽值词典中的各个槽类型下的每个词语对应词向量之间的余弦距离，将所述文本向量中所述余弦距离大于或等于距离阈值的词向量，替换为对应所述槽类型下的所有词语的词向量的平均向量，并将所述文本向量中所述余弦距离小于距离阈值的词向量，替换为固定值。 4.根据权利要求1所述的方法，其特征在于，所述预训练的文本编码器采用预训练的 BERT模型，采用以下方式对所述BERT模型进行预训练，包括：在基于文本关键信息掩码语言模型任务作为预训练任务对所述BERT模型进行预训练时，从每个所述样本数据中定向选取一定比例的关键单词和非关键单词，并对所述关键单词和所述非关键单词进行掩码；在基于文本模板匹配模型任务作为预训练任务对所述BERT模型进行预训练时，从所述基础语料数据集中抽取至少一个句子，并按照预定概率抽取所述句子对应的第一模板，以及根据所述第一模板对应的意图类别，按照相同的概率从所述意图类别对应的模板集合中权　利　要　求　书 1/2 页 2 CN 114818644 B 2随机选取一个第二模板；将所述句子和所述第一模板，以及所述句子和所述第二模板，均作为文本模板匹配模型的输入，以通过文本模板匹配模型任务对输入进行预测，判断所述句子与所述第一模板或所述第二模板是否匹配。 5.根据权利要求1所述的方法，其特征在于，所述利用双向解码器基于所述文本语义信息进行文本意图分类，包括：将所述文本语义信息作为所述双向解码器的输入，利用所述双向解码器对所述文本语义信息执行解码操作，得到所述目标文本对应的初始意图分类结果，利用Softmax分类器对所述初始意图分类结果进行映射，得到所述目标文本对应的文本意图类别。 6.一种文本模板生成装置，其特征在于，包括：获取模块，被配置为获取待生成文本模板的目标文本，将所述目标文本作为预训练模型的输入，利用所述预训练模型中的词向量层对所述目标文本进行处理，得到所述目标文本对应的文本向量；筛选模块，被配置为基于预设的槽值词典对所述文本向量中的词向量进行筛选，得到所述文本向量对应的槽值语义向量，利用槽值编码器对所述槽值语义向量进行特征提取，得到槽值语义信息；分类模块，被配置为利用预训练的文本编码器对所述文本向量进行特征提取，得到所述目标文本的文本语义信息，并利用双向解码器基于所述文本语义信息进行文本意图分类，得到所述目标文本对应的文本意图类别和文本意图信息；生成模块，被配置为将所述槽值语义信息、所述文本语义信息以及所述文本意图信息，作为文本模板解码器的输入，利用所述文本模板解码器输出所述目标文本对应的文本模板；其中，还包括训练模块，所述训练模块用于获取文本数据以及文本数据对应的文本意图和文本模板，基于文本数据、文本意图和文本模板生成基础语料数据集，利用基础语料数据集对预训练模型进行训练；其中，基础语料数据集中包含若干个样本数据，每个样本数据中包含句子对应的序号、文本内容、文本模板和文本意图；其中，所述训练模块还用于基于基础语料数据集中样本数据对应的文本意图，对文本模板中的槽值进行整理得到槽值词典，槽值词典中包含多个槽类型，以及每个槽类型对应的词语。 7.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至 5中任一项所述的方法。 8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至 5中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114818644 B 3

专利 文本模板生成方法、装置、设备及存储介质

专利文本模板生成方法、装置、设备及存储介质