说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111424884.X (22)申请日 2021.11.26 (71)申请人 上海合合信息科技股份有限公司 地址 200436 上海市 静安区万 荣路1256、 1258号1105-1123室 申请人 上海生腾数据科技有限公司   上海临冠 数据科技有限公司   上海盈五蓄数据科技有限公司 (72)发明人 丁凯 滕兴 张彬 郭丰俊 龙腾  镇立新  (74)专利代理 机构 上海双霆 知识产权代理事务 所(普通合伙) 31415 代理人 殷晓雪 (51)Int.Cl. G06F 40/117(2020.01)G06V 20/62(2022.01) G06V 30/148(2022.01) G06V 10/70(2022.01) G06V 10/774(2022.01) G06K 9/62(2022.01) G06N 20/00(2019.01) G06V 30/10(2022.01) (54)发明名称 一种对样本进行碎片化标注的方法及装置 (57)摘要 本申请公开了一种对样本进行碎片化标注 的方法, 包括如下步骤。 步骤S10: 对监督式机器 学习算法的训练数据中的单个样本的输入进行 切片。 步骤S20: 将单个样本的输入的所有切片分 发给多个人员并行独立地对每个切片进行标注。 步骤S30: 将单个样本的输入的所有切片的标注 合并, 形成单个样本的整体标注, 即单个样本的 预期输出。 上述方法能够实现标注去隐私以及提 升标注效率。 权利要求书2页 说明书5页 附图2页 CN 114091407 A 2022.02.25 CN 114091407 A 1.一种对样本进行碎片化标注的方法, 其特 征是, 包括如下步骤; 步骤S10: 对监 督式机器学习算法的训练数据中的单个样本的输入进行切片; 步骤S20: 将单个样本的输入的所有切片分发给多个人员并行独立地对每个切片进行 标注; 步骤S30: 将单个样本的输入的所有切片的标注合并, 形成单个样本的整体标注, 即单 个样本的预期输出。 2.根据权利要求1所述的对样本进行碎片化标注的方法, 其特征是, 所述步骤S10 中, 所 述监督式机器学习算法用来从图片中识别出文本内容, 所述单个样本的输入是包含文本内 容的图片; 所述 步骤S30中, 单个样本的整体标注是 该图片对应的文本及其 位置。 3.根据权利要求2所述的对样本进行碎片化标注 的方法, 其特征是, 所述步骤S10进一 步包括如下步骤; 步骤S11: 对每一样本的输入图片进行光学字符识别以得到该图片中的所有字符及坐 标; 步骤S12: 对于横排文本的图片, 利用光学字符识别的结果按照文本行进行分割, 得到 该图片的所有文本行; 对于竖排文本的图片, 利用光学字符识别的结果按照文本列进行分 割, 得到该图片的所有 文本列; 步骤S13: 对于横排文本的图片, 将每一文本行按照第一数量的字符进行切片, 左右相 邻的文本切片之间有第二数量的字符是重叠的; 对于竖排文本的图片, 将每一文本列按照 第一数量的字符进行切片, 上下相邻的文本切片之间有第二数量的字符是重叠的; 第二数 量小于第一数量; 每个文本切片保存所属文本行的坐标、 该文本切片的首字符的坐标、 该文 本切片的角度、 该切片的类型为文本类型; 步骤S14: 对该图片根据光学字符识别的结果清除所有识别出的字符, 该图片的剩余部 分如有通过光学字符识别无法识别的内容, 将无法识别的内容单独地或整体生成一个印章 切片; 每个印章切片保存该印章切片的首字符的坐标、 角度、 该切片的类型为印章类型; 该 图片的剩余部 分如有光学字符识别遗漏的字符, 将遗漏的字符单独地或整体生成一个遗漏 切片; 每个遗漏切片保存该遗漏切片的首字符的坐标、 角度、 该切片的类型为遗漏类型; 或者, 所述 步骤S14放在步骤S1 1之后的任意 位置执行。 4.根据权利要求3所述的对样本进行碎片化标注的方法, 其特征是, 所述第 二数量不为 零且尽可能小。 5.根据权利要求2所述的对样本进行碎片化标注 的方法, 其特征是, 所述步骤S30进一 步包括如下步骤; 步骤S31: 对每个切片的标注进行预处理, 包括全半角字符标注统一、 空字符过滤、 三种 切片类型解析、 由每个切片的首字符的坐标与切片内坐标相结合得到全文坐标的任一种或 多种; 步骤S32: 对于横排文本的图片, 利用左右相邻的文本切片的重叠字符及坐标进行拼接 以得到每一文本行 的标注; 对于竖排文本的图片, 利用上下相邻的文本切片的重叠字符及 坐标进行拼接以得到每一文本列的标注; 步骤S33: 对于横排文本的图片, 利用每一文本行的标注的坐标将全部文本行的标注进 行拼接以得到全部文本切片的标注; 对于竖排文本的图片, 利用每一文本列的标注的坐标权 利 要 求 书 1/2 页 2 CN 114091407 A 2将全部文本列的标注进行拼接以得到全部文本切片的标注; 步骤S34: 在全部文本切片的标注中, 根据每一个印章切片的首字符的坐标加入每一个 印章切片的标注; 对于横排文本的图片, 根据每一个遗漏切片的首字符的坐标在相应的文 本行的标注中加入遗漏切片的标注; 对于竖排文本的图片, 根据每一个遗漏切片的首字符 的坐标在相应的文本列的标注中加入遗漏切片的标注。 6.根据权利要求5所述的对样本进行碎片化标注的方法, 其特征是, 对于横排文本的图 片, 所述步骤S 32具体包括: (1)对 所有文本切片按所属文本行的坐标分组, 每组文本切片按 照文本切片的首字符的坐标沿水平方向排序, 得到所有文本行的有序文本切片组; (2)对同 一文本行 的一组有序文本切片, 利用左右相邻的文本切片的重叠字符及坐标进行拼接; 拼 接时去除重 叠字符, 得到一个文本行的标注, 并调整拼接后的整行 标注的坐标; 对于竖排文本的图片, 所述步骤S32具体包括: (1)对所有文本切片按所属文本列的坐 标分组, 每组文本切片按照文本切片的首字符的坐标沿竖直方向排序, 得到所有文本列的 有序文本切片组; (2)对同一文本列的一组有序文本切片, 利用上下相 邻的文本切片的重叠 字符及坐标进 行拼接; 拼接时去除重叠字符, 得到一个文本列的标注, 并调整拼接后的整列 标注的坐标。 7.根据权利要求6所述的对样本进行碎片化标注的方法, 其特征是, 所述步骤S32中, 拼 接时使用字符位移的方式对重 叠字符区域的错 误标注进行容 错。 8.根据权利要求5所述的对样本进行碎片化标注的方法, 其特征是, 对于横排文本的图 片, 所述步骤S 33具体包括: (1)对 所有文本行的标注按照整 行标注的坐标沿竖直方向排序, 得到有序文本行标注列表; (2)对有序文本行标注列 表进行相邻文本行标注之间的拼接, 拼 接过程中标记重复标注文本; (3)删除重复标记文本, 得到全部文本切片的标注; 对于竖排文本的图片, 所述步骤S33具体包括: (1)对所有文本列的标注按照整列标注 的坐标沿水平方向排序, 得到有序文本列标注列表; (2)对有序文本列标注列表进 行相邻文 本列标注之间的拼接, 拼接过程中标记重复标注文本; (3)删除重复标记文本, 得到全部文 本切片的标注。 9.根据权利要求5所述的对样本进行碎片化标注的方法, 其特征是, 所述步骤S34中, 对 于横排文本的图片, 如果遗漏切片的首字符的坐标不在任何文本行 的标注中, 则将该遗漏 切片的标注作为单独行标注; 对于竖排文本的图片, 如果遗漏切片的首字符的坐标不在任 何文本列的标注中, 则将该遗漏切片的标注作为单独列标注。 10.一种对样本进行碎片化标注的装置, 其特征是, 包括切片单元、 分发标注单元和标 注拼接单 元; 所述切片单 元用来对监 督式机器学习算法的训练数据中的单个样本的输入进行切片; 所述分发标注单元用来将单个样本的输入的所有切片分发给多个人员并行独立地对 每个切片进行 标注; 所述标注拼接单元用来将单个样本的输入的所有切片的标注合并, 形成单个样本的整 体标注, 即单个样本的预期输出。权 利 要 求 书 2/2 页 3 CN 114091407 A 3

.PDF文档 专利 一种对样本进行碎片化标注的方法及装置

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种对样本进行碎片化标注的方法及装置 第 1 页 专利 一种对样本进行碎片化标注的方法及装置 第 2 页 专利 一种对样本进行碎片化标注的方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:20:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。