说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210814970.X (22)申请日 2022.07.11 (71)申请人 广州华多网络科技有限公司 地址 511442 广东省广州市番禺区南村镇 万达广场B1栋24层 (72)发明人 杨鹏  (74)专利代理 机构 广州利能知识产权代理事务 所(普通合伙) 44673 专利代理师 王增鑫 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 实体词注释方法及其装置、 设备、 介质、 产品 (57)摘要 本申请涉及实体词注释方法及其装置、 设 备、 介质、 产品, 所述方法包 括: 获取目标文本, 所 述目标文本包含多个实体词; 根据所述目标文本 中各个实体词的标注类型确定相对应的标签对, 所述标签对包括开始标签和结束标签; 基于目标 文本中的每个单字设置前缀标识和后缀标识为 所述目标文本注释各个所述的实体词, 获得注释 文本, 使每个标签对中的开始标签和结束标签分 别成为相应的实体词的首字的前缀标识和尾字 的后缀标识。 本申请细化了对目标文本插入 标识 进行注释的操作粒度, 使 得标识的插入过程具有 更高的灵活度, 从而降低算法复杂度, 提升文本 注释效率, 有望取得广泛的技 术收益。 权利要求书2页 说明书14页 附图4页 CN 115204174 A 2022.10.18 CN 115204174 A 1.一种实体词注释方法, 其特 征在于, 包括: 获取目标文本, 所述目标文本包 含多个实体词; 根据所述目标文本 中各个实体词的标注类型确定相对应的标签对, 所述标签对包括开 始标签和结束标签; 基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述 的实体词, 获得注释文本, 使每个标签对中的开始标签和结束标签分别成为相 应的实体词 的首字的前缀标识和尾字的后缀标识。 2.根据权利要求1所述的实体词注释方法, 其特征在于, 根据所述目标文本 中各个实体 词的标注类型确定相对应的标签对, 包括: 对所述目标文本进行词嵌入, 构造出 所述目标文本的编码向量; 采用序列标注模型对所述编码向量进行序列标注, 获得序列标注信息, 所述序列标注 信息包含与目标文本中各个实体词相对应映射的各个标注类型; 获取所述序列标注信 息中各个标注类型相对应的标签对, 建立标签对与实体词之间的 映射关系数据。 3.根据权利要求1所述的实体词注释方法, 其特征在于, 基于目标文本中的每个单字设 置前缀标识和后缀标识为所述目标文本注释各个所述的实体词, 获得注释文本, 包括: 构造所述目标文本 中各个单字相对应的结构体, 将该单字及其在目标文本 中的排列序 号存储于结构体中, 在结构体中建立前缀标识 链表和后缀标识 链表; 根据各个实体词与其标签对的映射关系数据, 确定每个实体词的首字所在的结构体, 将该实体词的标签对中的开始标签追加到所述首字的前缀标识链表中, 所述前缀标识链表 实现为堆栈; 根据各个实体词与其标签对的映射关系数据, 确定每个实体词的尾字所在的结构体, 将该实体词的标签对中的结束标签追加到所述尾字的后缀标识链表中, 所述后缀标识链表 实现为队列; 根据所述各个单字的排列序号对各个单字进行重组, 使每个标签对中的开始标签和结 束标签分别成为相应的实体词的首字的前缀标识和尾字的后缀标识, 获得注释文本 。 4.根据权利要求3所述的实体词注释方法, 其特征在于, 根据所述各个单字的排列序号 对各个单字进行重组, 包括: 将各个单字的结构体的前缀标识链表中的各个开始标签逐一出栈自先到后排列构造 为前缀标识串, 拼接 于相应的单字的前缀 位置; 将各个单字的结构体的前缀标识链表中的各个开始标签逐一出列自先到后排列构造 为后缀标识串, 拼接 于相应的单字的后缀 位置; 将每个单字的前缀标识、 该单字、 该单字的后缀标识组合构造为该单字对应的扩展字 符串; 按照各个单字在结构体中的排列序号有序拼接各个单字的扩展字符串, 获得注释文 本。 5.根据权利要求1所述的实体词注释方法, 其特征在于, 获取目标文本, 所述目标文本 包含多个实体词, 包括: 响应用户发言事 件, 获取用户在直 播间中对应该事 件提交的发言信息;权 利 要 求 书 1/2 页 2 CN 115204174 A 2将所述发言信息输入预设的文本分类模型进行类型识别, 判断其是否为目标类型, 将 属于目标类型 的发言信息识别为 目标文本, 其中, 属于目标类型 的发言信息中包含有商品 名称、 商品型号、 送货地址、 联系电话中任意 一项或任意多 项实体词。 6.根据权利要求1所述的实体词注释方法, 其特征在于, 基于目标文本中的每个单字设 置前缀标识和后缀标识为所述目标文本注释各个所述的实体词, 获得注释文本之后, 包括: 解析所述注释文本, 获得各个标签对相对应的实体词, 根据所述实体词的标签对确定 相应的实体词的数据类型; 将各个所述的实体词对应其数据类型赋值给商品订单的消息体中相应数据类型的变 量; 根据所述消息体生成相应的商品订单页面, 其中包 含根据所述变量输出的实体词。 7.根据权利要求1所述的实体词注释方法, 其特征在于, 基于目标文本中的每个单字设 置前缀标识和后缀标识为所述目标文本注释各个所述的实体词, 获得注释文本之后, 包括: 解析所述注释文本, 获得各个标签对相对应的实体词, 根据所述实体词的标签对确定 相应的实体词的数据类型; 根据各个实体词相对应的数据类型, 对相应的实体词进行文本格式化处理, 使注释文 本中的各个标签对转 义为其相应实体词的显示样式, 使注释文本成为格式化文本; 将所述格式化文本作为对话内容输出至终端设备的图形用户界面中显示。 8.一种实体词注释装置, 其特 征在于, 包括: 文本获取模块, 用于获取目标文本, 所述目标文本包 含多个实体词; 标签对确定模块, 用于根据 所述目标文本中各个实体词的标注类型确定相对应的标签 对, 所述标签对 包括开始标签和结束标签; 实体词注释模块, 用于基于目标文本 中的每个单字设置前缀标识和后缀标识为所述目 标文本注释各个所述的实体词, 获得注释文本, 使每个标签对中的开始标签和结束标签分 别成为相应的实体词的首字的前缀标识和尾字的后缀标识。 9.一种计算机设备, 包括中央处理器和存储器, 其特征在于, 所述中央处理器用于调用 运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的 步骤。 10.一种计算机可读存储介质, 其特征在于, 其以计算机可读指令的形式存储有依据权 利要求1至7中任意一项 所述的方法所实现的计算机程序, 该计算机程序被计算机调用运行 时, 执行相应的方法所包括的步骤。权 利 要 求 书 2/2 页 3 CN 115204174 A 3

.PDF文档 专利 实体词注释方法及其装置、设备、介质、产品

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 实体词注释方法及其装置、设备、介质、产品 第 1 页 专利 实体词注释方法及其装置、设备、介质、产品 第 2 页 专利 实体词注释方法及其装置、设备、介质、产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。