说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210513371.4 (22)申请日 2022.05.12 (71)申请人 吉林科讯信息科技有限公司 地址 130000 吉林省长 春市朝阳区前进大 街996号力旺广场B座16楼16 32室 (72)发明人 张泰宇 孙庆华 张志庆 张轶鑫  陈志刚  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 王雨 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/279(2020.01) G06F 40/56(2020.01) G06F 40/253(2020.01) (54)发明名称 文本语义理解方法、 装置、 设备及存 储介质 (57)摘要 本申请公开了一种文本语义理解方法、 装 置、 设备及存储介质, 本申请可 以将源语种的目 标文本翻译为目标语种的翻译后文本, 其中源语 种可以是小语种, 目标语种可以是多资源样本语 种, 进而可以利用目标语种下较好的语义理解模 型完成对源语种的目标文本的语义理解任务, 解 决了小语种文本语义理解结果准确性不高的问 题。 可知的, 目标文本中的实体词对于语义理解 过程是很重要的信息, 本申请在将源语种的目标 文本翻译为目标语种之前, 首先识别出目标文本 中的实体词并确定其在目标语种下的映射实体 词, 避免在翻译过程中出现实体丢失的问题, 在 此情况下, 可以基于映射实体词及翻译后文本确 定语义理解结果, 能够进一步提升语义理解结果 的准确性。 权利要求书2页 说明书12页 附图4页 CN 114970541 A 2022.08.30 CN 114970541 A 1.一种文本语义理解方法, 其特 征在于, 包括: 获取源语种的目标文本; 识别所述目标文本中的实体词, 获取所述实体词在目标语种下的映射实体词, 并利用 所述实体词的实体 类型替换掉所述目标文本中的实体词, 得到替换后文本; 将所述替换后文本翻译为所述目标语种下的翻译后文本; 基于所述翻译后文本及所述映射实体词, 确定所述目标文本在所述目标语种下的语义 理解结果。 2.根据权利要求1所述的方法, 其特 征在于, 在得到所述翻译后文本之后, 还 包括: 采用预配置的校对 模块对所述翻译后文本进行语法纠正, 得到纠正后翻译 文本; 所述基于所述翻译后文本及所述映射实体词, 确定所述目标文本在所述目标语种下的 语义理解结果, 包括: 基于所述纠正后翻译文本及所述映射实体词, 确定所述目标文本在所述目标语种下的 语义理解结果。 3.根据权利要求1所述的方法, 其特 征在于, 所述识别所述目标文本中的实体词, 包括: 基于预配置的所述源语种的实体词库, 在所述目标文本中检索匹配的实体词, 所述实 体词库中包 含源语种下 各实体类型的实体词。 4.根据权利要求1所述的方法, 其特征在于, 所述获取所述实体词在目标语种下的映射 实体词, 包括: 通过预配置的所述源语种与 所述目标语种间的实体词映射关系, 确定源语种的所述实 体词在所述目标语种下的映射实体词; 其中, 所述实体词映射关系包括同一实体在所述源语种及所述目标语种下的文本表 达。 5.根据权利要求2所述的方法, 其特征在于, 所述校对模块为校对模型, 所述采用预配 置的校对 模块对所述翻译后文本进行语法纠正, 得到纠正后翻译 文本, 包括: 将所述翻译后文本 输入所述校对 模型, 得到校对 模型输出的纠正后翻译 文本; 所述校对模型被配置为, 对输入的翻译后文本进行语法纠 正, 以输出纠 正后翻译文本 的内部状态 表示。 6.根据权利要求5所述的方法, 其特 征在于, 所述校对 模型的训练过程, 包括: 获取翻译为所述目标语种的训练文本, 及所述训练文本对应的纠正文本; 将所述训练文本 输入至所述校对 模型, 得到 输出的生成文本; 以所述生成文本趋近于所述纠 正文本为训练目标, 更新所述校对模型的网络参数, 直 至达到设定训练结束条件。 7.根据权利要求6所述的方法, 其特征在于, 所述训练文本还标注有是否存在语法错误 的正误标签, 其中正误标签表明不存在语法错误的训练文本, 对应的纠正文本为训练文本 自身; 所述校对模型还用于预测输入的所述训练文本是否存在语法错误, 得到语法错误预测 结果; 所述以所述生成文本趋近于所述纠正文本为训练目标, 更新所述校对模型的网络参 数, 直至达到设定训练结束条件, 包括:权 利 要 求 书 1/2 页 2 CN 114970541 A 2以所述生成文本 趋近于所述纠正文本为第一训练目标, 以所述语法错误预测结果趋近于所述训练文本标注的正误标签为第 二训练目标, 结合 所述第一训练目标及所述第二训练目标, 更新所述校对模型 的网络参数, 直至达到设定训 练结束条件。 8.根据权利要求6所述的方法, 其特征在于, 所述获取翻译为所述目标语种的训练文 本, 包括: 获取由所述源语种的训练文本翻译为所述目标语种下的翻译后训练文本; 和/或, 获取由除去所述目标语种外的其余各语种的训练文本翻译为所述目标语种下的翻译 后训练文本; 和/或, 对所述目标语种的训练文本进行随机乱序, 得到乱序后的训练文本 。 9.根据权利要求1 ‑8任一项所述的方法, 其特征在于, 所述基于所述翻译后文本及所述 映射实体词, 确定所述目标文本在所述目标语种下的语义理解结果, 包括: 将所述翻译后文本及所述映射实体词输入预配置的所述目标语种的语义理解模型, 得 到模型输出的语义理解结果; 所述目标语种的语义理解模型, 采用标注有语义理解结果标签的, 所述目标语种下的 训练文本训练得到 。 10.根据权利要求1 ‑8任一项所述的方法, 其特征在于, 所述获取源语种的目标文本, 包 括: 获取待理解语义的源语种文本, 作为目标文本; 或, 获取待理解语义的源语种语音, 并对所述源语种语音进行文本识别, 得到的识别文本 作为目标文本 。 11.一种文本语义理解装置, 其特 征在于, 包括: 文本获取 单元, 用于获取源语种的目标文本; 实体词识别及映射单元, 用于识别所述目标文本中的实体词, 获取所述实体词在目标 语种下的映射实体词; 实体词替换单元, 用于利用所述实体词的实体类型替换掉所述目标文本中的实体词, 得到替换后文本; 文本翻译单 元, 用于将所述 替换后文本翻译为所述目标语种下的翻译后文本; 语义理解结果确定单元, 用于基于所述翻译后文本及所述映射实体词, 确定所述目标 文本在所述目标语种下的语义理解结果。 12.一种文本语义理解设备, 其特 征在于, 包括: 存 储器和处 理器; 所述存储器, 用于存 储程序; 所述处理器, 用于执行所述程序, 实现如权利要求1~10中任一项所述的文本语义理解 方法的各个步骤。 13.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理器执 行时, 实现如权利要求1~10中任一项所述的文本语义理解方法的各个步骤。权 利 要 求 书 2/2 页 3 CN 114970541 A 3

.PDF文档 专利 文本语义理解方法、装置、设备及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本语义理解方法、装置、设备及存储介质 第 1 页 专利 文本语义理解方法、装置、设备及存储介质 第 2 页 专利 文本语义理解方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。