说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210565333.3 (22)申请日 2022.05.23 (71)申请人 马上消费金融股份有限公司 地址 401120 重庆市渝北区黄山大道中段 52号渝兴广场B2栋4至8楼 (72)发明人 吕乐宾 蒋宁 王洪斌 肖冰  李宽  (74)专利代理 机构 北京国昊天诚知识产权代理 有限公司 1 1315 专利代理师 付先智 (51)Int.Cl. G06F 40/126(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 文本处理模 型训练方法及装置、 文本处理方 法及装置 (57)摘要 本说明书实施例提供了文本处理模型训练 方法及装置、 文本处理方法及装置, 其中, 一种文 本处理模型训练方法包括: 获取第一文本和第二 文本; 将第一文本和第二文本输入待训练模型进 行模型迭代训练, 得到文本处理模型; 模型训练 时: 第一编码器对第一文本与第二文本进行编码 处理, 得到文本语义向量; 解码器基于文本语义 向量对第一文本进行词组预测, 得到预测词组; 衰减模块基于文本语义向量进行向量衰减, 得到 衰减向量; 第二编码器基于衰减向量对第一文本 和第二文本进行类别异同检测, 得到类别检测结 果; 根据预测词组、 类别检测结果计算损失值并 进行参数更新。 采用本申请实施例可提升文本处 理模型的处 理准确率。 权利要求书2页 说明书16页 附图6页 CN 114925660 A 2022.08.19 CN 114925660 A 1.一种文本处 理模型训练方法, 其特 征在于, 所述方法包括: 获取第一文本和第二文本, 所述第二文本为所述第一文本的正例样本或者负例样本; 将所述第一文本和所述第 二文本输入待训练模型进行模型迭代训练, 得到文本处理模 型; 其中, 所述待训练模型包括第一编码器、 第二编码器、 解码器和衰减模块; 每次模型训 练的具体实现方式有: 所述第一编码器对所述第一文本与所述第二文本进行编码处理, 得到文本语义向量; 所述解码器基于所述文本语义向量对所述第一文本进行词组预测, 得到预测词组; 所述衰 减模块基于所述文本语义向量进行向量衰减, 得到衰减向量; 所述第二编码器基于所述衰 减向量对所述第一文本和所述第二文本进行类别异同检测, 得到类别检测结果; 根据所述预测词组、 所述类别检测结果、 实际词组以及实际类别异同结果, 计算所述待 训练模型的损失值; 基于所述损 失值对所述第二编码器、 所述解码器、 所述衰减模块和所述第一编码器进 行参数更新。 2.根据权利要求1所述的方法, 其特征在于, 若所述第 二文本为所述第 一文本的正例样 本, 所述获取第一文本和第二文本, 包括: 确定预设文本 中需要进行词组处理 的待处理词组, 对所述待处理词组进行词组掩盖处 理, 获得所述第一文本; 对所述预设文本进行 数据增强, 获得 所述第二文本 。 3.根据权利要求1所述的方法, 其特征在于, 若所述第 二文本为所述第 一文本的负例样 本, 所述获取第一文本和第二文本, 包括: 确定样本集中的目标文本 中需要进行词组处理的待处理词组, 对所述待处理词组进行 词组掩盖处 理, 获得所述第一文本; 在所述样本集中确定所述目标文本 外的任一文本作为所述第二文本; 其中, 所述目标文本为所述样本集中任意 一个文本样本 。 4.根据权利要求1所述的方法, 其特征在于, 所述根据所述预测词组、 所述类别检测结 果、 实际词组以及实际类别异同结果, 计算所述待训练模型的损失值, 包括: 根据所述预测词组和所述实 际词组计算第一损 失系数, 以及, 根据所述类别检测结果 和所述实际类别异同结果计算第二损失系数; 基于所述第一损 失系数和对应的权重, 以及所述第二损 失系数和对应的权重, 计算所 述第一损失系数和所述第二损失系数的加权和, 作为所述损失值。 5.根据权利要求1所述的方法, 其特征在于, 所述基于所述损 失值对所述第二编码器、 所述解码器、 所述衰减 模块和所述第一编码器进行参数 更新, 包括: 基于所述损失值, 对所述第二编码器、 所述 解码器和所述衰减 模块进行参数 更新; 根据所述损失值, 以及对所述第 二编码器、 所述解码器和所述衰减模块的更新结果, 对 所述第一编码器进行参数 更新, 得到所述文本处 理模型。 6.根据权利要求1所述的方法, 其特 征在于, 所述进行向量衰减, 包括: 对所述文本语义向量进行 数据减半; 或者, 对所述文本语义向量进行随机数据丢弃。 7.一种文本处 理方法, 其特 征在于, 所述方法包括:权 利 要 求 书 1/2 页 2 CN 114925660 A 2将第一待处理文本和第 二待处理文本输入文本处理模型进行文本处理, 得到目标词组 和类别检测结果; 其中, 所述文本处理模型包括第一编码器、 第二编码器、 解码器和衰减模块; 所述第一 编码器用于对所述第一待处理文本和所述第二待处理文本进行编码处理得到文本语义向 量, 所述解码器用于基于所述文本语义向量对所述第一待处理文本进行词组预测, 得到所 述目标词组; 所述衰减模块用于基于所述文本语义向量进行向量衰减得到衰减向量; 所述 第二编码器用于基于所述衰减向量对所述第一待处理文本与所述第二待处理文本进行类 别异同检测, 得到所述类别检测结果。 8.一种文本处 理模型训练装置, 其特 征在于, 所述装置包括: 文本获取模块, 用于获取第一文本和第二文本, 所述第二文本为所述第一文本的正例 样本或者负例样本; 模型训练模块, 用于将所述第 一文本和所述第 二文本输入待训练模型进行模型迭代训 练, 得到文本处 理模型; 其中, 所述待训练模型包括第一编码器、 第二编码器、 解码器和衰减模块; 每次模型训 练的具体实现方式有: 所述第一编码器对所述第一文本与所述第二文本进行编码处理, 得到文本语义向量; 所述解码器基于所述文本语义向量对所述第一文本进行词组预测, 得到预测词组; 所述衰 减模块基于所述文本语义向量进行向量衰减, 得到衰减向量; 所述第二编码器基于所述衰 减向量对所述第一文本和所述第二文本进行类别异同检测, 得到类别检测结果; 根据所述预测词组、 所述类别检测结果、 实际词组以及实际类别异同结果, 计算所述待 训练模型的损失值; 基于所述损 失值对所述第二编码器、 所述解码器、 所述衰减模块和所述第一编码器进 行参数更新。 9.一种文本处 理模型训练设备, 其特 征在于, 所述设备包括: 处理器; 以及, 被配置为存储计算机可执行指令的存储器, 所述计算机可执行指令在被 执行时使 所述处理器执行如权利要求 1‑6任一项所述的文本处理模 型训练方法或者如权利 要求7所述的文本处 理方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质用于存储计算机 可执行指令, 所述计算机可执行指令在被处理器执行时实现如权利要求1 ‑6任一项所述的 文本处理模型训练方法或者如权利要求7 所述的文本处 理方法。权 利 要 求 书 2/2 页 3 CN 114925660 A 3

.PDF文档 专利 文本处理模型训练方法及装置、文本处理方法及装置

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本处理模型训练方法及装置、文本处理方法及装置 第 1 页 专利 文本处理模型训练方法及装置、文本处理方法及装置 第 2 页 专利 文本处理模型训练方法及装置、文本处理方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。