专利文本处理模型训练方法及装置、文本处理方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210565333.3 (22)申请日 2022.05.23 (71)申请人马上消费金融股份有限公司地址 401120 重庆市渝北区黄山大道中段 52号渝兴广场B2栋4至8楼 (72)发明人吕乐宾　蒋宁　王洪斌　肖冰　李宽　 (74)专利代理机构北京国昊天诚知识产权代理有限公司 1 1315 专利代理师付先智 (51)Int.Cl. G06F 40/126(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称文本处理模型训练方法及装置、文本处理方法及装置 (57)摘要本说明书实施例提供了文本处理模型训练方法及装置、文本处理方法及装置，其中，一种文本处理模型训练方法包括：获取第一文本和第二文本；将第一文本和第二文本输入待训练模型进行模型迭代训练，得到文本处理模型；模型训练时：第一编码器对第一文本与第二文本进行编码处理，得到文本语义向量；解码器基于文本语义向量对第一文本进行词组预测，得到预测词组；衰减模块基于文本语义向量进行向量衰减，得到衰减向量；第二编码器基于衰减向量对第一文本和第二文本进行类别异同检测，得到类别检测结果；根据预测词组、类别检测结果计算损失值并进行参数更新。采用本申请实施例可提升文本处理模型的处理准确率。权利要求书2页说明书16页附图6页 CN 114925660 A 2022.08.19 CN 114925660 A 1.一种文本处理模型训练方法，其特征在于，所述方法包括：获取第一文本和第二文本，所述第二文本为所述第一文本的正例样本或者负例样本；将所述第一文本和所述第二文本输入待训练模型进行模型迭代训练，得到文本处理模型；其中，所述待训练模型包括第一编码器、第二编码器、解码器和衰减模块；每次模型训练的具体实现方式有：所述第一编码器对所述第一文本与所述第二文本进行编码处理，得到文本语义向量；所述解码器基于所述文本语义向量对所述第一文本进行词组预测，得到预测词组；所述衰减模块基于所述文本语义向量进行向量衰减，得到衰减向量；所述第二编码器基于所述衰减向量对所述第一文本和所述第二文本进行类别异同检测，得到类别检测结果；根据所述预测词组、所述类别检测结果、实际词组以及实际类别异同结果，计算所述待训练模型的损失值；基于所述损失值对所述第二编码器、所述解码器、所述衰减模块和所述第一编码器进行参数更新。 2.根据权利要求1所述的方法，其特征在于，若所述第二文本为所述第一文本的正例样本，所述获取第一文本和第二文本，包括：确定预设文本中需要进行词组处理的待处理词组，对所述待处理词组进行词组掩盖处理，获得所述第一文本；对所述预设文本进行数据增强，获得所述第二文本。 3.根据权利要求1所述的方法，其特征在于，若所述第二文本为所述第一文本的负例样本，所述获取第一文本和第二文本，包括：确定样本集中的目标文本中需要进行词组处理的待处理词组，对所述待处理词组进行词组掩盖处理，获得所述第一文本；在所述样本集中确定所述目标文本外的任一文本作为所述第二文本；其中，所述目标文本为所述样本集中任意一个文本样本。 4.根据权利要求1所述的方法，其特征在于，所述根据所述预测词组、所述类别检测结果、实际词组以及实际类别异同结果，计算所述待训练模型的损失值，包括：根据所述预测词组和所述实际词组计算第一损失系数，以及，根据所述类别检测结果和所述实际类别异同结果计算第二损失系数；基于所述第一损失系数和对应的权重，以及所述第二损失系数和对应的权重，计算所述第一损失系数和所述第二损失系数的加权和，作为所述损失值。 5.根据权利要求1所述的方法，其特征在于，所述基于所述损失值对所述第二编码器、所述解码器、所述衰减模块和所述第一编码器进行参数更新，包括：基于所述损失值，对所述第二编码器、所述解码器和所述衰减模块进行参数更新；根据所述损失值，以及对所述第二编码器、所述解码器和所述衰减模块的更新结果，对所述第一编码器进行参数更新，得到所述文本处理模型。 6.根据权利要求1所述的方法，其特征在于，所述进行向量衰减，包括：对所述文本语义向量进行数据减半；或者，对所述文本语义向量进行随机数据丢弃。 7.一种文本处理方法，其特征在于，所述方法包括：权　利　要　求　书 1/2 页 2 CN 114925660 A 2将第一待处理文本和第二待处理文本输入文本处理模型进行文本处理，得到目标词组和类别检测结果；其中，所述文本处理模型包括第一编码器、第二编码器、解码器和衰减模块；所述第一编码器用于对所述第一待处理文本和所述第二待处理文本进行编码处理得到文本语义向量，所述解码器用于基于所述文本语义向量对所述第一待处理文本进行词组预测，得到所述目标词组；所述衰减模块用于基于所述文本语义向量进行向量衰减得到衰减向量；所述第二编码器用于基于所述衰减向量对所述第一待处理文本与所述第二待处理文本进行类别异同检测，得到所述类别检测结果。 8.一种文本处理模型训练装置，其特征在于，所述装置包括：文本获取模块，用于获取第一文本和第二文本，所述第二文本为所述第一文本的正例样本或者负例样本；模型训练模块，用于将所述第一文本和所述第二文本输入待训练模型进行模型迭代训练，得到文本处理模型；其中，所述待训练模型包括第一编码器、第二编码器、解码器和衰减模块；每次模型训练的具体实现方式有：所述第一编码器对所述第一文本与所述第二文本进行编码处理，得到文本语义向量；所述解码器基于所述文本语义向量对所述第一文本进行词组预测，得到预测词组；所述衰减模块基于所述文本语义向量进行向量衰减，得到衰减向量；所述第二编码器基于所述衰减向量对所述第一文本和所述第二文本进行类别异同检测，得到类别检测结果；根据所述预测词组、所述类别检测结果、实际词组以及实际类别异同结果，计算所述待训练模型的损失值；基于所述损失值对所述第二编码器、所述解码器、所述衰减模块和所述第一编码器进行参数更新。 9.一种文本处理模型训练设备，其特征在于，所述设备包括：处理器；以及，被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行如权利要求 1‑6任一项所述的文本处理模型训练方法或者如权利要求7所述的文本处理方法。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现如权利要求1 ‑6任一项所述的文本处理模型训练方法或者如权利要求7 所述的文本处理方法。权　利　要　求　书 2/2 页 3 CN 114925660 A 3

专利 文本处理模型训练方法及装置、文本处理方法及装置

专利文本处理模型训练方法及装置、文本处理方法及装置