说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211240132.2 (22)申请日 2022.10.11 (71)申请人 北京合力亿 捷科技股份有限公司 地址 100089 北京市海淀区中关村南大街 甲12号寰太大厦18层 (72)发明人 曲道俊 陈瑶  (74)专利代理 机构 北京维正专利代理有限公司 11508 专利代理师 周晶晶 (51)Int.Cl. G06K 9/62(2022.01) G06F 16/25(2019.01) (54)发明名称 一种数据标注方法、 装置、 电子设备及存储 介质 (57)摘要 本发明提供了一种数据标注、 装置、 电子设 备及存储介质, 应用于人工智 能技术领域, 所述 数据标注方法先获取数据, 所述数据包括: 已标 注数据和未标注数据; 再根据表达式分析所述已 标注数据和所述未标注数据, 所述表达式包括正 则表达式和/或逻辑表达式; 最后根据分析结果 对所述已标注数据进行评估及对所述未标注数 据进行标注。 本发明通过对数据采用渐进式的标 注方式, 在对新数据分析标注的时候也对已经标 注的数据进行分析评估, 可以提高数据标注的准 确性, 提高用户对于标注数据的满意度, 不需要 人工进行重复的标注, 节省人力资源。 权利要求书2页 说明书6页 附图2页 CN 115510992 A 2022.12.23 CN 115510992 A 1.一种数据标注方法, 其特 征在于, 包括: 获取数据, 所述数据包括: 已标注数据和未 标注数据; 根据表达式分析所述已标注数据和所述未标注数据, 所述表达式包括正则表达式和/ 或逻辑表达式; 根据分析 结果对所述已标注数据进行评估; 根据分析 结果对所述未 标注数据进行 标注。 2.根据权利要求1所述的数据标注方法, 其特 征在于, 所述获取 数据, 包括: 根据用户需求获取对应的初始数据, 所述用户需求包括如下一项或多项: 数据格式、 数 据量、 数据类型、 或数据来源; 根据智能标注模型和/或规则模型对所述初始数据进行 标注, 得到所述已标注数据。 3.根据权利要求1所述的数据标注方法, 其特征在于, 所述根据表达 式分析所述已标注 数据和所述未 标注数据, 包括: 获取关键 字符, 所述关键 字符用于确定所述表达式; 根据所述表达 式确定第 一匹配率和第 二匹配率; 所述第 一匹配率为所述表达式与 所述 已标注数据的匹配率, 所述第二匹配率 为所述表达式与所述未 标注数据的匹配率。 4.根据权利要求3所述的数据标注方法, 其特征在于, 所述根据分析结果对所述未标注 数据进行 标注, 包括: 若所述第一匹配率大于等于第 一数值阈值且所述第 二匹配率大于等于第 二数值阈值, 则使用所述表达式对应的标签对所述未 标注数据进行 标注; 若所述第一匹配率小于所述第 一数值阈值和/或所述第 二匹配率小于所述第 二数值阈 值, 则重新获取 所述关键 字符。 5.根据权利要求2所述的数据标注方法, 其特 征在于, 还 包括: 获取标注方案, 所述标注方案包括: 标注方式和标注的时间, 所述标注方式包括如下一 项或多项: 智能模型标注、 规则模型标注、 或人工标注, 所述标注的时间通过cron表达式设 定; 根据所述标注方式和所述标注的时间, 对所述初始数据进行 标注。 6.根据权利要求1 ‑5任一项所述的数据标注方法, 其特征在于, 所述根据分析结果对所 述已标注数据进行评估, 包括: 根据评估规则对所述已标注数据进行评估, 所述评估规则包括敏感词评估规则和标签 匹配率评估规则; 根据评估结果确定对所述已标注数据的处理方式, 所述处理方式包括: 删除标签、 增加 标签或修改标签。 7.一种数据标注装置, 其特 征在于, 包括: 获取模块, 用于获取 数据, 所述数据包括: 已标注数据和未 标注数据; 分析模块, 用于根据表达式分析所述已标注数据和所述未标注数据, 所述表达式包括 正则表达式和/或逻辑表达式; 评估模块, 用于根据分析 结果对所述已标注数据进行评估; 标注模块, 用于根据分析 结果对所述未 标注数据进行 标注。 8.根据权利要求7 所述的数据标注装置, 其特 征在于, 所述评估 模块还用于:权 利 要 求 书 1/2 页 2 CN 115510992 A 2根据评估规则对所述已标注数据进行评估, 再根据评估结果确定对所述已标注数据的 处理方式; 所述评估规则包括敏感词评估规则和标签匹配率评估规则, 所述处理方式包括: 删除标签、 增 加标签或修改标签。 9.一种电子设备, 其特征在于, 包括存储器和处理器, 所述存储器上存储有计算机程 序, 所述处 理器执行所述计算机程序时实现如权利要求1至 6任一项所述的方法。 10.一种计算机可读存储介质, 其特征在于, 存储有计算机程序, 所述计算机程序被处 理器执行时实现如权利要求1至 6任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115510992 A 3

.PDF文档 专利 一种数据标注方法、装置、电子设备及存储介质

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据标注方法、装置、电子设备及存储介质 第 1 页 专利 一种数据标注方法、装置、电子设备及存储介质 第 2 页 专利 一种数据标注方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:00:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。