说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210688808.8 (22)申请日 2022.06.17 (71)申请人 北京金山数字 娱乐科技有限公司 地址 100085 北京市海淀区西二 旗中路33 号院5号楼1 1层002号 (72)发明人 贾承勋 李长亮  (74)专利代理 机构 北京智信禾专利代理有限公 司 11637 专利代理师 李琪 (51)Int.Cl. G06F 16/9032(2019.01) G06F 16/906(2019.01) G06F 40/211(2020.01) G06F 40/242(2020.01) G06F 40/279(2020.01)G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 训练语料集构建方法、 文本处 理方法及装置 (57)摘要 本申请提供训练语料集构建方法、 文本处理 方法及装置, 其中训练语料集构建方法包括: 根 据获取到的至少一个原始样本语料, 构建短语词 典, 其中, 短语词典包括短语和短语对应的短语 特征信息; 将第一原始样本语料中的目标短语替 换为相似短语, 获得扩展样 本语料, 其中, 第一原 始样本语料为至少一个原始样本语料中包括目 标短语的任一原始样本语料; 根据原始样本语料 和扩展样本语料, 构建训练语料集。 丰富了训练 语料集, 增加了训练语料集中包括的语义信息, 且训练语料集的质量较高。 权利要求书3页 说明书21页 附图8页 CN 115033753 A 2022.09.09 CN 115033753 A 1.一种训练语料集构建方法, 其特 征在于, 包括: 根据获取到的至少一个原始样本语料, 构建短语词典, 其中, 所述短语词典包括短语和 所述短语对应的短语特 征信息; 将第一原始样本语料中的目标短语替换为相似短语, 获得扩展样本语料, 其中, 所述第 一原始样本语料为所述至少一个原 始样本语料中包括所述目标短语的任一原 始样本语料; 根据所述原 始样本语料和所述扩展样本语料, 构建训练语料集。 2.根据权利要求1所述的训练语料集构建方法, 其特征在于, 所述根据获取到的至少一 个原始样本语料, 构建 短语词典, 包括: 对所述至少一个原 始样本语料进行分词, 获得至少两个分词 词语; 根据预设语法规则, 从所述至少两个分词词语中抽取短语, 并确定所述短语的短语特 征信息; 根据所述短语和所述短语对应的短语特 征信息, 构建所述短语词典。 3.根据权利要求1所述的训练语料集构建方法, 其特征在于, 所述将第 一原始样本语料 中的目标短语替换为相似短语, 获得扩展样本语料之前, 还 包括: 确定所述短语词典中短语特 征信息满足预设替换 条件的目标短语; 根据所述目标短语的第 一词向量以及预设短语库中参考短语的第 二词向量, 确定所述 目标短语对应的相似短语。 4.根据权利要求3所述的训练语料集构建方法, 其特征在于, 所述根据 所述目标短语的 第一词向量以及预设短语库中参考短语的第二词向量, 确定所述目标短语对应的相似短 语, 包括: 分别确定所述第一词向量和所述 参考短语的第二词向量之间的相似度; 对获得的各个相似度进行排序, 根据排序结果选取目标 数值个相似短语。 5.根据权利要求4所述的训练语料集构建方法, 其特征在于, 所述短语特征信息为词 频, 所述预设替换 条件为词频小于词频阈值; 所述对获得的各个相似度进行排序, 根据排序结果选取目标数值个相似短语之前, 还 包括: 根据所述目标短语对应的词频与所述词频阈值的差值, 确定所述目标 数值。 6.根据权利要求1 ‑5任一项所述的训练语料集构建方法, 其特征在于, 所述根据 所述原 始样本语料和所述扩展样本语料, 构建训练语料集, 包括: 通过评估 模型对所述扩展样本语料进行打 分; 根据所述扩展样本语料的得分, 选取融合样本语料; 将所述原 始样本语料和所述融合样本语料合并, 获得 所述训练语料集。 7.根据权利要求1 ‑5任一项所述的训练语料集构建方法, 其特征在于, 所述原始样本语 料为双语 语料, 所述双语 语料包括第一语种样本和对应的第二语种样本; 所述根据获取到的至少一个原 始样本语料, 构建 短语词典, 包括: 对所述第一语种样本进行分词, 获得至少两个第一语种分词词语, 并对所述第二语种 样本进行分词, 获得至少两个第二语种分词 词语; 对所述第一语种分词词语和所述第二语种分词词语进行词对齐处理, 获得词对齐信 息;权 利 要 求 书 1/3 页 2 CN 115033753 A 2根据预设语法规则, 从所述至少两个第一语种分词词语中抽取第一语种短语, 并确定 所述第一语种短语的短语特 征信息; 根据所述词对齐信 息, 从所述至少两个第 二语种分词词语中确定所述第 一语种短语对 应的第二语种短语; 根据所述第一语种短语、 对应的第二语种短语以及对应的短语特征信息, 构建所述短 语词典。 8.根据权利要求3所述的训练语料集构建方法, 其特征在于, 所述原始样本语料为双语 语料, 所述双语语料包括第一语种样本和对应的第二语种样本, 所述短语词典基于所述第 一语种样本和第二语种样本的词对齐信息构建; 所述根据 所述目标短语的第 一词向量以及预设短语库中参考短语的第 二词向量, 确定 所述目标短语对应的相似短语, 包括: 根据目标第一语种短语的第一词向量以及预设第一语种短语库中参考第一语种短语 的第二词向量, 确定所述目标第一语种短语对应的相似第一语种短语, 其中, 所述目标第一 语种短语为所述短语词典中短语特 征信息满足预设替换 条件的任一第一语种短语; 根据所述词对齐信息, 确定所述目标第一语种短语对应的目标第二语种短语; 根据所述目标第二语种短语的第一词向量以及预设第二语种短语库中参考第二语种 短语的第二词向量, 确定所述目标第二语种短语对应的相似第二语种短语。 9.根据权利要求8所述的训练语料集构建方法, 其特征在于, 所述将第 一原始样本语料 中的所述目标短语替换为所述相似短语, 获得扩展样本语料, 包括: 将所述第一原始样本语料的第一语种样本中的目标第一语种短语替换为所述相似第 一语种短语, 获得扩展第一语种样本; 基于词对齐信 息, 将所述第 一原始样本语料的第 二语种样本 中的目标第 二语种短语替 换为所述相似第二语种短语, 获得扩展第二语种样本; 将所述扩展第一语种样本与对应的扩展第二语种样本, 作为所述扩展样本语料。 10.一种文本处 理方法, 其特 征在于, 包括: 获取待处 理文本; 将所述待处理文本输入文本处理模型, 获得所述待处理文本对应的目标处理结果, 其 中, 所述文本处理模型通过上述权利要求1 ‑9任一项所述的训练语料集构建方法构建获得 的训练语料集训练得到 。 11.一种训练语料集构建装置, 其特 征在于, 包括: 第一构建模块, 被配置为根据获取到的至少一个原始样本语料, 构建短语词典, 其中, 所述短语词典包括短语和所述短语对应的短语特 征信息; 替换模块, 被配置为将第一原始样本语料中的目标短语替换为相似短语, 获得扩展样 本语料, 其中, 所述第一原始样本语料为所述至少一个原始样本语料中包括所述 目标短语 的任一原 始样本语料; 第二构建模块, 被配置为根据所述原始样本语料和所述扩展样本语料, 构建训练语料 集。 12.一种文本处 理装置, 其特 征在于, 包括: 第一获取模块, 被 配置为获取待处 理文本;权 利 要 求 书 2/3 页 3 CN 115033753 A 3

.PDF文档 专利 训练语料集构建方法、文本处理方法及装置

文档预览
中文文档 33 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共33页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 训练语料集构建方法、文本处理方法及装置 第 1 页 专利 训练语料集构建方法、文本处理方法及装置 第 2 页 专利 训练语料集构建方法、文本处理方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。