说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210532674.0 (22)申请日 2022.05.13 (71)申请人 北京字节跳动网络技 术有限公司 地址 100041 北京市石景山区实兴大街3 0 号院3号楼 2层B-0035房间 (72)发明人 刘琳 张小雅 马乐丹 未晨翔  吴锦波 岳桐森 卢保安  (74)专利代理 机构 北京中知法苑知识产权代理 有限公司 1 1226 专利代理师 李明 (51)Int.Cl. G06F 16/38(2019.01) G06F 3/0481(2022.01) G06F 3/0487(2013.01) G06F 9/451(2018.01)G06F 8/38(2018.01) G06F 8/34(2018.01) G06F 16/36(2019.01) (54)发明名称 数据标注方法、 装置、 计算机设备以及存储 介质 (57)摘要 本公开提供了一种数据标注方法、 装置、 计 算机设备以及存储介质, 其中, 该方法包括: 获取 待处理文字和预设注音列表; 其中, 所述预设注 音列表用于指示各预设文字的拼音标注信息; 在 所述待处理文字中确定与所述预设注音列表相 匹配的至少一个第一待注音文字; 确定所述预设 注音列表中与所述第一待注音文字相 匹配的目 标预设文字的拼音标注信息; 基于所述目标预设 文字的拼音标注信息确定所述第一待注音文字 的注音数据。 权利要求书3页 说明书16页 附图4页 CN 114860963 A 2022.08.05 CN 114860963 A 1.一种数据标注方法, 其特 征在于, 包括: 获取待处理文字和预设注音列表; 其中, 所述预设注音列表用于指示各预设文字的拼 音标注信息; 在所述待处 理文字中确定与所述预设注音列表相匹配的至少一个第一待注音 文字; 确定所述预设注音列表中与所述第一待注音文字相匹配的目标预设文字的拼音标注 信息; 基于所述目标 预设文字的拼音标注信息确定所述第一待注音 文字的注音数据。 2.根据权利要求1所述的方法, 其特征在于, 所述基于所述目标预设文字的拼音标注信 息确定所述第一待注音 文字的注音数据, 包括: 基于所述目标预设文字的拼音标注信 息确定所述第 一待注音文字的文字类型; 所述文 字类型用于指示该第一待注音 文字所包 含的文字拼音的数量; 基于所述文字类型确定所述第一待注音 文字的注音数据。 3.根据权利要求2所述的方法, 其特征在于, 所述目标预设文字的拼音标注信 息包含多 个预设文字拼音; 所述基于所述文字类型确定所述第一待注音 文字的注音数据, 包括: 在确定所述文字类型为第 一文字类型的情况下, 在所述预设注音列表中确定与所述目 标预设文字相对应的多个词组; 其中, 所述第一文字类型用于指示所述第一待注音文字对 应多个文字拼音, 每 个所述词组对应该目标 预设文字的一个预设文字拼音; 在所述多个词组中确定与所述第一待注音文字在待处理文字中的语境信息相关联的 目标词组, 并基于所述目标词组所对应的预设文字拼音确定所述第一待注音文字的注音 数 据。 4.根据权利要求2所述的方法, 其特征在于, 所述基于所述文字类型确定所述第 一待注 音文字的注音数据, 包括: 在确定所述文字类型为第 一文字类型的情况下, 在所述预设注音列表中确定所述目标 预设文字相对应的多个预设文字拼音; 其中, 所述第一文字类型用于指示所述第一待注音 文字对应多个文字拼音; 向标注方发送目标确认信息; 其中, 所述目标确认信息中携带所述多个预设文字拼音 和所述第一待注音 文字; 获取所述标注方基于所述目标确 认信息反馈的预设文字拼音, 并基于所述反馈的预设 文字拼音确定所述第一待注音 文字的注音数据。 5.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 在获取所述待处理文字和所述预设注音列表之后, 检测用户对所述待处理文字的编辑 操作; 响应于所述编辑操作, 展示文字编辑窗口, 并在所述文字编辑窗口中展示所述待处理 文字; 所述文字编辑窗口为对所述待处 理文字进行编辑的窗口; 响应于用户对所述待处理文字的选择操作, 确定与所述选择操作相对应的第 二待注音 文字, 并展示所述第二待注音 文字相对应的注音标识; 响应于对所述注音标识 的触发操作, 展示注音编辑窗口, 并基于用户对所述注音编辑 窗口的注音操作确定所述第二待注音 文字的注音数据。 6.根据权利要求5所述的方法, 其特征在于, 所述注音编辑 窗口中包括第 一注音区域和权 利 要 求 书 1/3 页 2 CN 114860963 A 2第二注音区域, 所述基于用户对所述注音编辑窗口的注音操作确定所述第二待注音文字的 注音数据, 包括: 检测用户在所述第 一注音区域输入的拼音数据, 并检测用户在所述第 二注音区域中输 入的声调数据; 基于所述声调数据对所述拼音数据进行标注, 得到所述拼音数据的声调标注结果, 并 基于所述 拼音数据的声调标注结果确定所述第二待注音 文字的注音数据。 7.根据权利要求5所述的方法, 其特征在于, 所述展示注音编辑窗口, 并基于用户对所 述注音编辑窗口 的注音操作确定所述第二待注音 文字的注音数据, 包括: 在确定所述第 二待注音文字为所述预设注音列表中预设文字的情况下, 获取所述预设 注音列表中与所述第二待注音 文字相匹配的预设文字的拼音标注信息; 在所述注音编辑窗口中展示所述第二待注音文字和所述相匹配的预设文字的拼音标 注信息; 在检测到用户对所述注音编辑 窗口中所展示拼音标注信 息的确认操作的情况下, 将所 述注音编辑窗口中所展示的拼音标注信息确定为所述第二待注音 文字的注音数据。 8.根据权利要求5所述的方法, 其特征在于, 所述展示注音编辑窗口, 并基于用户对所 述注音编辑窗口 的注音操作确定所述第二待注音 文字的注音数据, 包括: 在确定所述第 二待注音文字不是所述预设注音列表中预设文字的情况下, 在所述注音 编辑窗口中展示输入提 示信息; 检测用户对所述注音编 辑窗口的输入操作, 并基于所述输入操作所对应的输入数据确 定所述第二待注音 文字的注音数据。 9.根据权利要求7所述的方法, 其特征在于, 所述在所述注音编辑 窗口中展示所述第 二 待注音文字和所述相匹配的预设文字的拼音标注信息, 包括: 在所述相匹配的预设文字的拼音标注信 息包含多个预设文字拼音的情况下, 在所述注 音编辑窗口中展示所述多个预设文字拼音中的第一预设文字拼音, 并在所述注音编辑窗口 中展示目标展开标识; 检测用户对所述目标展开标识 的触发操作, 在所述注音编辑窗口中展示目标列表, 并 在所述目标列表中展示所述多个预设文字拼音中除所述第一预设文字拼音之外的其他预 设文字拼音。 10.一种数据标注装置, 其特 征在于, 包括: 获取单元, 用于获取待处理文字和预设注音列表; 其中, 所述预设注音列表用于指示各 预设文字的拼音标注信息; 第一确定单元, 用于在所述待处理文字 中确定与 所述预设注音列表相匹配的至少一个 第一待注音 文字; 第二确定单元, 用于确定所述预设注音列表中与 所述第一待注音文字相匹配的目标预 设文字的拼音标注信息; 第三确定单元, 用于基于所述目标预设文字的拼音标注信 息确定所述第 一待注音文字 的注音数据。 11.一种计算机设备, 其特征在于, 包括: 处理器和存储器, 所述存储器存储有所述处理 器可执行的机器可读指令, 当计算机 设备运行时, 所述处理器与所述存储器之间通信连接,权 利 要 求 书 2/3 页 3 CN 114860963 A 3

.PDF文档 专利 数据标注方法、装置、计算机设备以及存储介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据标注方法、装置、计算机设备以及存储介质 第 1 页 专利 数据标注方法、装置、计算机设备以及存储介质 第 2 页 专利 数据标注方法、装置、计算机设备以及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:50:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。