说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111656289.9 (22)申请日 2021.12.3 0 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 柴业坤 王硕寰 孙宇  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 杜月 (51)Int.Cl. G06F 40/289(2020.01) G06K 9/62(2022.01) G10L 13/08(2013.01) G10L 15/06(2013.01) G10L 15/08(2006.01)G10L 15/14(2006.01) G10L 15/183(2013.01) (54)发明名称 子词切分方法、 模型训练方法、 装置和电子 设备 (57)摘要 本公开提供了一种子词切分方法、 模 型训练 方法、 装置和电子设备, 涉及人工智能技术领域, 尤其涉及自然语言处理、 深度学习技术领域。 具 体实现方案为: 获取待切分的文本序列, 其中, 文 本序列包括多个元素; 获取初始状态概率、 观测 概率和状态转移概率, 其中, 候选状态用于表征 元素是否为切分边界; 根据初始状态概率、 观测 概率和状态 转移概率, 从候选状态中确定元素的 目标状态; 根据元素的目标状态, 对文本序列进 行切分, 得到多个子词。 由此, 可考虑到元素的上 下文和相邻元素之间的转移关系实现子词切分, 可消除相关子词切分技术中相邻元素之间的独 立性假设, 适用于任意语言或领域的文本序列的 子词切分, 泛化 性较好。 权利要求书4页 说明书13页 附图7页 CN 114492426 A 2022.05.13 CN 114492426 A 1.一种子词切分方法, 包括: 获取待切分的文本序列, 其中, 所述文本序列包括多个元 素; 获取每个候选状态下的初始状态概率、 每个所述候选状态下的每个所述元素的观测概 率、 任意相 邻两个所述元素的所述候选状态之 间的状态转移 概率, 其中, 所述候选状态用于 表征所述元素是否为切分边界; 根据所述初始状态概率、 所述观测概率和所述状态转移概率, 从所述候选状态中确定 所述元素的目标状态; 根据所述元素的所述目标状态, 对所述文本序列进行切分, 得到多个子词, 其中, 所述 子词包括至少一个所述元 素。 2.根据权利要求1所述的方法, 其中, 所述获取每个候选状态下的初始状态概率、 每个 所述候选状态下的每个所述元素的观测概率、 任意相 邻两个所述元素的所述候选状态之间 的状态转移概 率, 包括: 将所述文本序列输入至训练好的概率图模型, 由所述概率图模型对所述文本序列进行 状态预测, 以输出 所述初始状态概 率、 所述观测概 率和所述状态转移概 率。 3.根据权利要求1所述的方法, 其中, 所述候选状态包括用于表征所述元素为切分边界 的第一候选状态, 以及用于表征 所述元素为非切分边界的第二 候选状态。 4.根据权利要求3所述的方法, 其中, 所述根据所述元素的所述目标状态, 对所述文本 序列进行切分, 得到多个子词, 包括: 将所述目标状态为所述第一 候选状态的所述元 素确定为切分边界; 按照所述切分边界对所述文本序列进行切分, 得到多个所述子词。 5.根据权利要求3所述的方法, 其中, 所述根据所述初始状态概率、 所述观测概率和所 述状态转移概 率, 从所述 候选状态中确定所述元 素的目标状态, 包括: 将所述文本序列中的第一个元 素的所述目标状态确定为所述第一 候选状态; 从所述文本序列中的第二个元素开始, 将所述第二个元素确定为待检测元素, 并根据 所述初始状态概率、 所述文本序列中位于所述待检测元素之前的所述元素以及所述待检测 元素对应的所述观测概率和所述状态转移概率, 从所述候选状态中确定所述待检测元素的 所述目标状态; 将所述待检测元素的下一个元素更新为所述待检测元素, 直至遍历到所述文本序列中 的最后一个元 素。 6.根据权利要求5所述的方法, 其中, 所述根据所述初始状态概率、 所述文本序列中位 于所述待检测元素之前的所述元素以及所述待检测元素对应的所述观测 概率和所述状态 转移概率, 从所述 候选状态中确定所述待检测元 素的所述目标状态, 包括: 获取包括位置连续的多个目标元素的文本序列单元, 其中, 所述文本序列单元的第一 个所述目标元素的所述目标状态为所述第一候选状态, 第二个所述目标元素至倒数第二个 所述目标元素的所述目标状态为所述第二候选状态, 最后一个所述目标元素为所述待检测 元素; 根据所述文本序列单元中的第一个所述目标元素至倒数第二个所述目标元素的所述 目标状态, 以及所述待检测元 素的每个所述候选状态, 生成状态路径; 根据所述初始状态概率、 所述目标元素对应的所述观测概率和所述状态转移概率, 确权 利 要 求 书 1/4 页 2 CN 114492426 A 2定所述状态路径的路径概 率; 获取所述路径概率最大的目标状态路径, 并将所述目标状态路径中的所述待检测元素 的所述候选状态确定为所述待检测元 素的所述目标状态。 7.根据权利要求6所述的方法, 其中, 所述方法还 包括: 在所述目标状态路径的所述路径概率小于设定 阈值的情况下, 将所述待检测元素的所 述目标状态确定为所述第一 候选状态。 8.根据权利要求1 ‑7任一项所述的方法, 其中, 所述获取待切分的文本序列, 包括: 获取文本; 按照通用编码策略对所述文本进行编码, 得到编码文本; 根据所述元 素的数据量对所述编码文本进行切分, 得到多个所述元 素; 根据多个所述元 素, 生成所述文本序列。 9.根据权利要求8所述的方法, 其中, 所述数据量 为一个字节。 10.根据权利要求1 ‑7任一项所述的方法, 其中, 所述得到多个子词之后, 还 包括: 将得到的多个所述子词添加到词表中; 对添加后的所述词表进行剪枝, 得到目标词表。 11.一种模型训练方法, 包括: 获取样本文本序列, 其中, 所述样本文本序列包括多个样本元 素; 根据所述样本文本序列训练概率图模型, 对所述概率图模型的模型参数进行更新, 其 中, 所述概率图模型用于输出每个候选状态下 的训练初始状态概率、 每个所述候选状态下 的每个所述样本元素的训练观测概率、 任意相 邻两个所述样本元素的所述候选状态之 间的 训练状态转移概 率, 其中, 所述 候选状态用于表征 所述样本元 素是否为切分边界; 在未满足模型训练结束条件的情况下, 返回采用下一个样本文本序列继续对更新后的 所述概率图模型进行训练, 直至满足所述模型训练结束条件, 生成训练好的所述概率图模 型。 12.一种子词切分装置, 包括: 第一获取模块, 用于获取待切分的文本序列, 其中, 所述文本序列包括多个元 素; 第二获取模块, 用于获取每个候选状态下的初始状态概率、 每个所述候选状态下的每 个所述元素 的观测概率、 任意相邻两个所述元素 的所述候选状态之间的状态转移概率, 其 中, 所述候选状态用于表征 所述元素是否为切分边界; 确定模块, 用于根据 所述初始状态概率、 所述观测概率和所述状态转移概率, 从所述候 选状态中确定所述元 素的目标状态; 切分模块, 用于根据 所述元素的所述目标状态, 对所述文本序列进行切分, 得到多个子 词, 其中, 所述子词包括至少一个所述元 素。 13.根据权利要求12所述的装置, 其中, 所述第二获取模块, 还用于: 将所述文本序列输入至训练好的概率图模型, 由所述概率图模型对所述文本序列进行 状态预测, 以输出 所述初始状态概 率、 所述观测概 率和所述状态转移概 率。 14.根据权利要求12所述的装置, 其中, 所述候选状态包括用于表征所述元素为切分边 界的第一 候选状态, 以及用于表征 所述元素为非切分边界的第二 候选状态。 15.根据权利要求14所述的装置, 其中, 所述切分模块, 还用于:权 利 要 求 书 2/4 页 3 CN 114492426 A 3

.PDF文档 专利 子词切分方法、模型训练方法、装置和电子设备

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 子词切分方法、模型训练方法、装置和电子设备 第 1 页 专利 子词切分方法、模型训练方法、装置和电子设备 第 2 页 专利 子词切分方法、模型训练方法、装置和电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:43:42上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。