说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210721689.1 (22)申请日 2022.06.17 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 念天磊 刘丽 阳锋  (74)专利代理 机构 北京英赛 嘉华知识产权代理 有限责任公司 1 1204 专利代理师 王达佐 马晓亚 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 文本生成模型训练方法和装置、 文本生 成方 法和装置 (57)摘要 本公开提供了一种文本生成模型训练方法 和装置, 涉及人工智能技术领域, 具体涉及深度 学习、 自然语言 处理等技术领域, 可应用于OCR等 场景。 具体实现方案为: 从预先构建的文本样本 集中选取文本样本; 将文本样 本输入预先构建的 文本生成网络, 得到文本生 成网络输出的预测结 果; 基于预测结果, 分别计算字粒度的语义相关 损失和句粒度的匹配程度损失, 语义相关损失用 于表征预测结果与文本样本的真值在字级别的 相似程度, 匹配程度损失用于表征预设结果与文 本样本的真值在句级别的匹配程度; 计算文本生 成网络的损失; 基于文本生成网络的损失, 训练 得到对应文本生成 网络的文本生成模 型。 该实施 方式提高了模型的精度和多样性。 权利要求书3页 说明书13页 附图4页 CN 115099240 A 2022.09.23 CN 115099240 A 1.一种文本生成模型训练方法, 所述方法包括: 从预先构建的文本样本集中选取文本样本; 将所述文本样本输入预先构建的文本生成网络, 得到所述文本生成网络输出的预测结 果; 基于所述预测结果, 分别计算字粒度的语义相关损 失和句粒度的匹配程度损 失, 所述 语义相关损失用于表征所述预测结果与所述文本样本的真值在字级别的相似程度, 所述匹 配程度损失用于表征 所述预设结果与所述文本样本的真值在句级别的匹配程度; 基于所述语义相关损失和所述匹配程度损失, 计算所述文本生成网络的损失; 基于所述文本生成网络的损失, 训练得到对应所述文本生成网络的文本生成模型。 2.根据权利要求1所述的方法, 其中, 所述基于所述语义相关损失和所述匹配程度损 失, 计算所述文本生成网络的损失, 包括: 基于所述预测结果, 计算字粒度的交叉熵损失; 将所述交叉熵损 失、 所述语义相关损 失以及所述匹配程度损 失进行加权求和, 得到所 述文本生成网络的损失。 3.根据权利要求1所述的方法, 其中, 所述文本生成网络包括: 依次连接的编码器和尾 部解码器; 所述文本样本包括: 文字序列和文字序列的真值, 所述将所述文本样本输入预先 构建的文本生成网络, 得到所述文本生成网络 输出的预测结果, 包括: 将所述文字序列输入所述编码器, 得到所述编码器输出的编码输出值; 将所述真值和所述编码输出值输入所述 解码器, 得到所述编码器输出的预测结果。 4.根据权利要求3所述的方法, 其中, 所述文本生成网络还包括: 中间解码器, 所述中间 解码器连接在所述编码器和所述尾部编 码器之间; 所述将所述文本样本输入预先构建的文 本生成网络, 得到所述文本生成网络 输出的预测结果, 还 包括: 将所述编码输出值和所述真值输入所述中间编码器, 得到所述中间解码器输出的中间 输出值; 基于所述文本生成网络的当前训练迭代次数, 选取所述中间输出值或所述真值, 得到 选取值; 将所述选取值和所述编码输出值输入所述尾部解码器, 得到所述尾部编码器输出的预 测结果。 5.根据权利要求4所述的方法, 其中, 所述基于所述文本生成网络的当前训练迭代次 数, 选取所述中间输出值或所述真值, 得到 选取值, 包括: 确定所述文本生成网络的当前训练迭代次数; 将当前训练迭代次数输入 采样概率公式, 得到概 率值; 基于所述 概率值, 选取所述中间输出值或所述真值, 得到 选取值。 6.根据权利要求5所述的方法, 其中, 所述概率值为选取所述真值的采样概率, 所述采 样概率公式是与所述文本生成网络的训练迭代次数相关的概率值生成公式, 在所述采样概 率公式中, 所述概率值与所述训练迭代次数 呈反比。 7.一种文本生成方法, 所述方法包括: 获取待处 理素材; 对所述待处 理素材进行处 理, 得到待处 理文本数据;权 利 要 求 书 1/3 页 2 CN 115099240 A 2将所述待处理文本数据输入采用权利要求1 ‑6任一项所述的方法生成的文本生成模型 中, 得到所述文本生成模型输出的所述待处 理文本数据的文本生成结果。 8.根据权利要求7所述的方法, 其中, 所述文本生成结果包括所述待处理文本数据的标 题、 摘要以及标签中的至少一项。 9.一种文本生成模型训练装置, 所述装置包括: 选取单元, 被配置成从预先构建的文本样本集中选取文本样本; 输入单元, 被配置成将所述文本样本输入预先构建的文本生成网络, 得到所述文本生 成网络输出的预测结果; 第一计算单元, 被配置成基于所述预测结果, 分别计算字粒度的语义相关损 失和句粒 度的匹配程度损失, 所述语义相关损失用于表征所述预测结果与所述文本样本的真值在字 级别的相似程度, 所述匹配程度损失用于表征所述预设结果与所述文本样本的真值在句级 别的匹配程度; 第二计算单元, 被配置成基于所述语义相关损 失和所述匹配程度损 失, 计算所述文本 生成网络的损失; 训练单元, 被配置成基于所述文本生成网络的损 失, 训练得到对应所述文本生成网络 的文本生成模型。 10.根据权利要求9所述的装置, 其中, 所述第 二计算单元进一步被配置成: 基于所述预 测结果, 计算字粒度的交叉熵损失; 将所述交叉熵损失、 所述语义相关损失以及所述匹配程 度损失进行加权求和, 得到所述文本生成网络的损失。 11.根据权利要求9所述的装置, 其中, 所述文本生成网络包括: 依次连接的编码器和尾 部解码器; 所述文本样本包括: 文字序列和文字序列的真值, 所述输入单元进一步被配置 成: 将所述文字序列输入所述编 码器, 得到所述编 码器输出的编码输出值; 将所述真值和所 述编码输出值输入所述 解码器, 得到所述编码器输出的预测结果。 12.根据权利要求11所述的装置, 其中, 所述文本生成网络还包括: 中间解码器, 所述中 间解码器连接在所述编码器和所述尾部编码器之间; 所述输入单元进一步被配置成: 将所 述编码输出值和所述真值输入所述中间编码器, 得到所述中间解码器输出 的中间输出值; 基于所述文本生成网络的当前训练迭代 次数, 选取所述中间输出值或所述真值, 得到选取 值; 将所述选取值和所述编码输出值输入所述尾部解码器, 得到所述尾部编码器输出 的预 测结果。 13.根据权利要求12所述的装置, 其中, 所述输入单元进一步被配置成: 确定所述文本 生成网络的当前训练迭代次数; 将当前训练迭代次数输入采样概率 公式, 得到概率值; 基于 所述概率值, 选取所述中间输出值或所述真值, 得到 选取值。 14.根据权利要求13所述的装置, 其中, 所述概率值为选取所述真值的采样概率, 所述 采样概率 公式是与所述文本生成网络的训练迭代次数相关的概率值生成公式, 在所述采样 概率公式中, 所述概率值与所述训练迭代次数 呈反比。 15.一种文本生成装置, 所述装置包括: 获取单元, 被配置成获取待处 理素材; 处理单元, 被配置成对所述待处 理素材进行处 理, 得到待处 理文本数据; 得到单元, 被配置成将所述待处理文本数据输入采用权利要求9 ‑14任一项所述的装置权 利 要 求 书 2/3 页 3 CN 115099240 A 3

.PDF文档 专利 文本生成模型训练方法和装置、文本生成方法和装置

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本生成模型训练方法和装置、文本生成方法和装置 第 1 页 专利 文本生成模型训练方法和装置、文本生成方法和装置 第 2 页 专利 文本生成模型训练方法和装置、文本生成方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。