说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111654465.5 (22)申请日 2021.12.3 0 (71)申请人 企查查科技有限公司 地址 215000 江苏省苏州市苏州工业园区 东长路88号C1幢5层5 03室 (72)发明人 刘天赏 陈汝龙 陶予祺  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 代理人 赖远龙 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 序列标注方法、 装置、 计算机设备、 存 储介质 (57)摘要 本申请涉及一种序列标注方法、 装置、 计算 机设备、 存储介质。 所述方法包括: 获取文本序 列, 对所述文本序列进行转换, 得到与所述文本 序列对应的标识序列; 将所述标识序列输入序列 标注模型, 得到所述文本序列中字段对应的第一 标签; 当所述第一标签中包括组合标签时, 对所 述组合标签进行解析得到与所述组合标签对应 的多个第二标签; 根据多个所述第二标签对所述 字段进行标注。 相较于传统的序列标注方法中只 能采用一个标签对字段进行标注而言, 采用本方 法能够对文本序列中的字段生 成组合标签, 并采 用组合标签解析得到的多个第二标签对文本序 列中的字段进行标注, 从而使得序列标注模型的 标签检测方式更多样。 权利要求书2页 说明书10页 附图3页 CN 114328837 A 2022.04.12 CN 114328837 A 1.一种序列标注方法, 其特 征在于, 所述方法包括: 获取文本序列, 对所述文本序列进行分词处理, 得到多个分词字符, 对每个所述分词字 符进行转换, 得到与所述文本序列对应的标识序列; 将所述标识序列输入序列标注模型, 得到所述文本序列中字段对应的第一标签; 当所述第一标签中包括组合标签时, 对所述组合标签进行解析得到与 所述组合标签对 应的多个第二标签, 根据多个所述第二标签对所述字段进行标注, 所述组合标签对应的多 个所述第二标签之间符合预设的标签逻辑关系。 2.根据权利要求1所述的方法, 其特征在于, 当存在目标字段在所述文本序列中出现的 次数为多次 时, 所述方法还 包括: 判断所述目标字段对应的多个第一标签之间的关系是否符合所述标签逻辑关系; 当多个所述第 一标签之间的关系符合所述标签逻辑关系时, 接受所述文本序列中所述 目标字段对应的多个所述第一标签。 3.根据权利要求2所述的方法, 其特 征在于, 所述方法还 包括: 当多个所述第 一标签之间的关系不符合所述标签逻辑关系时, 删除与 所述目标字段对 应的多个所述第一标签。 4.根据权利要求1所述的方法, 其特征在于, 所述将所述标识序列输入序列标注模型, 得到所述文本序列中字段对应的第一标签, 包括: 将所述标识序列输入所述序列标注模型, 生成与所述标识序列对应的标签序列, 所述 标签序列中的标签携带 标签标识; 根据所述标签标识对所述标签序列进行解码, 得到所述文本序列中字段对应的所述第 一标签。 5.根据权利要求4所述的方法, 其特征在于, 所述标签标识包括起始标识和非起始标 识; 所述根据所述标签标识对所述标签序列进行解码, 得到所述文本序列中字段对应的所 述第一标签, 包括: 从所述标签序列的第一个起始标识开始, 依次查找相邻的一组起始标识和非起始标 识, 得到多个标识组; 根据与所述标识组对应的部分标识序列生成所述文本序列中的字段; 根据与所述标识组对应的标签, 生成与所述字段对应的所述第一标签。 6.根据权利要求1至 5任一项所述的方法, 其特 征在于, 所述获取文本序列, 包括: 获取原始文本序列; 当所述原始文本序列的文本长度大于阈值时, 对所述原始文本序列进行分句, 得到多 个文本句; 根据每个所述文本句的文本句长度, 对多个所述文本句进行划分, 得到多个文本序列, 其中, 每个所述文本序列的文本长度小于所述阈值, 且, 相 邻的两个所述文本序列之 间存在 重合的文本句。 7.一种序列标注装置, 其特 征在于, 所述装置包括: 标识序列生成模块, 用于获取文本序列, 对所述文本序列进行分词处理, 得到多个分词 字符, 对每 个所述分词字符进行转换, 得到与所述文本序列对应的标识序列; 第一标签获取模块, 用于将所述标识序列输入序列标注模型, 得到所述文本序列中字权 利 要 求 书 1/2 页 2 CN 114328837 A 2段对应的第一标签; 字段标注模块, 用于当所述第一标签中包括组合标签时, 对所述组合标签进行解析得 到与所述组合标签对应的多个第二标签; 根据多个所述第二标签对所述字段进行标注, 所 述组合标签对应的多个所述第二标签之间符合预设的标签逻辑关系。 8.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至 6中任一项所述的方法的步骤。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被 处理器执行时实现权利要求1至 6中任一项所述的方法的步骤。 10.一种计算机程序产品, 包括计算机程序, 其特征在于, 该计算机程序被处理器执行 时实现权利要求1至 6中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 114328837 A 3

.PDF文档 专利 序列标注方法、装置、计算机设备、存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 序列标注方法、装置、计算机设备、存储介质 第 1 页 专利 序列标注方法、装置、计算机设备、存储介质 第 2 页 专利 序列标注方法、装置、计算机设备、存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:56:30上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。