说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210062042.2 (22)申请日 2022.01.19 (71)申请人 浙江网商银行股份有限公司 地址 310063 浙江省杭州市西湖区学院路 28-38号德力西大厦1幢15 -17层 (72)发明人 欧阳潘义  陈煜东 胡亮 朱禹轲  杨雷  (74)专利代理 机构 北京博思佳知识产权代理有 限公司 1 1415 专利代理师 李威 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/10(2022.01) G06V 10/24(2022.01) G06V 30/148(2022.01)G06V 10/28(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06K 9/62(2022.01) G06N 7/00(2006.01) (54)发明名称 一种文本区域检测方法及装置 (57)摘要 本说明书实施例提供一种文本区域检测方 法及装置, 所述方法包括: 将包含文本区域的待 检测图像输入已训练完成的文本检测模型进行 计算; 其中, 所述文本检测模型包括至少将与所 述待检测图像对应的方向偏移图作为学习目标 进行有监督训练得到的机器学习模 型; 所述方向 偏移图用于指示所述待检测图像包含的文本区 域中的各像素点对应的文本语序方向信息; 检测 所述待检测图像包含的文本区域; 获取所述文本 检测模型输出的与所述待检测图像对应的方向 偏移图, 并根据所述方向偏移图为检测到的所述 文本区域标记文本语序方向, 以得到标记了文本 语序方向的所述文本区域。 权利要求书3页 说明书18页 附图5页 CN 114445807 A 2022.05.06 CN 114445807 A 1.一种文本区域检测方法, 所述方法包括: 将包含文本区域的待检测图像输入已训练完成的文本检测模型进行计算; 其中, 所述 文本检测模型包括至少将与所述待检测图像对应的方向偏移图作为学习目标进行有监督 训练得到的机器学习模型; 所述方向偏移图用于指示所述待检测图像包含的文本区域中的 各像素点对应的文本语序方向信息; 检测所述待检测图像包 含的文本区域; 获取所述文本检测模型输出的与 所述待检测图像对应的方向偏移图, 并根据 所述方向 偏移图为检测到的所述文本区域标记文本语序方向, 以得到标记了文本语序方向的所述文 本区域。 2.根据权利要求1所述的方法, 所述文本检测模型的学习目标还包括与所述待检测图 像对应的概率图; 所述概率图用于指示所述待检测图像中的各像素点位于所述文本区域的 概率分布; 所述检测所述待检测图像包 含的文本区域, 包括: 获取所述文本检测模型输出的与 所述待检测图像对应的概率图, 并对所述概率图的概 率分布中的各个概率值进 行二值化处理, 得到与所述待检测图像对应的二值化处理之后的 概率图; 根据所述 二值化处理之后的概 率图, 检测所述待检测图像包 含的文本区域。 3.根据权利要求2所述的方法, 所述对所述概率图的概率分布中的各个概率值进行二 值化处理, 得到与所述待检测图像对应的二 值化处理之后的概 率图, 包括: 根据用于针对所述概率分布中的各个概率值进行标准二值化处理 的预设的固定阈值, 对所述概率图的概率分布中对应于各像素点的各个概率值进 行标准二值化处理, 得到与所 述待检测图像对应的标准 二值化处理之后的概 率图; 其中, 所述标准 二值化处理, 包括: 分别将所述概率图的概率分布中对应于各像素点的各个概率值与所述固定阈值进行 比较; 如果对应于任一像素点的概率值大于所述固定阈值, 则确定该像素点位于所述文本 区域。 4.根据权利要求2所述的方法, 所述文本检测模型的学习目标还包括与所述待检测图 像对应的阈值图; 所述阈值图用于指示针对所述概率分布中的各个概率值进 行可微分二值 化处理的阈值分布; 所述对所述概率图的概率分布中的各个概率值进行二值化处理, 得到与所述待检测图 像对应的二 值化处理之后的概 率图, 包括: 获取所述文本检测模型输出的与 所述待检测图像对应的阈值图, 并根据 所述阈值图的 阈值分布中的各个自适应阈值, 分别针对所述概率图的概率分布中的各个概率值进行可微 分二值化处理, 得到与所述待检测图像对应的可微分二 值化处理之后的概 率图; 其中, 所述可微分二 值化处理, 包括: 分别将所述概率图的概率分布中对应于各像素点的各个概率值与所述阈值图的阈值 分布中对应于该像素点的自适应阈值进行比较; 如果对应于任一像素点的概率值大于对应 于该像素点的自适应阈值, 则确定该像素点 位于所述文本区域。 5.根据权利要求3或4所述的方法, 所述根据所述二值化处理之后的概率图, 检测所述权 利 要 求 书 1/3 页 2 CN 114445807 A 2待检测图像包 含的文本区域, 包括: 根据所述二值化处理之后的概率图, 将位于所述文本区域的像素点构成的区域, 确定 为检测到的所述待检测图像包 含的文本区域。 6.根据权利要求3或4所述的方法, 所述文本检测模型的学习目标还包括与 所述待检测 图像对应的边界偏移图; 所述边界偏移图用于指示所述待检测图像包含的文本区域的中心 区域中的各像素点相对于所述文本区域的各边界的偏移向量; 所述根据所述 二值化处理之后的概 率图, 检测所述待检测图像包 含的文本区域, 包括: 根据所述二值化处理之后的概率图, 提取所述待检测图像包含的文本区域的中心区 域; 从所述文本区域的中心区域进行采样, 得到若干采样点; 获取所述文本检测模型输出的与 所述待检测图像对应的边界偏移图, 并根据 所述边界 偏移图中对应于所述若干采样点的偏移向量, 针对所述若干采样点分别进行扩展, 得到对 应的若干文本区域 边界点; 将所述若干文本区域边界点连接起来而围成的闭合 区域, 确定为检测到的所述待检测 图像包含的文本区域。 7.根据权利要求1所述的方法, 所述根据所述方向偏移图为检测到的所述文本区域标 记文本语序方向, 包括: 根据所述方向偏移图, 在检测到的所述文本区域的边界上, 标记文本解析起点和文本 解析方向; 其中, 所述文本解析起 点和文本解析 方向用于指示所述文本语序方向。 8.根据权利要求1所述的方法, 所述标记了文本语序方向的所述文本区域为不规则的 文本区域; 所述方法还 包括: 基于为不规则的所述文本区域标记的文本语序方向, 生成符合所述文本语序方向的、 且规则的文本区域; 所述规则的文本区域用于作为文本识别模型 的输入, 以得到所述文本 识别模型输出的所述文本区域中的文本内容。 9.根据权利要求6所述的方法, 所述文本检测模型的学习目标的损失函数Loss为所述 概率图的损失Lp、 所述可微分二值化处理之后的概率图的损失Lb、 所述阈值图的损失Lt、 所 述方向偏移图的损失Ldo、 与所述边界偏移图的损失Lbo的加权之和; 所述损失函数Loss表示 为: Loss=Lp+α×Lb+β×Lt+γ×Ldo+δ×Lbo; 其中, 所述α 、 β 、 γ、 δ 分别为与所述 Lb、 Lt、 Ldo、 Lbo对应的加权 权重。 10.根据权利 要求9所述的方法, 所述Lp与所述Lb为二元交叉熵损失函数; 所述Lt为L1损 失函数; 所述 Ldo与所述Lbo为Smooth L1损失函数。 11.根据权利要求9所述的方法, α =5, β =10, γ=1, δ =1。 12.根据权利要求1所述的方法, 所述待检测图像包括电子合同或 电子票据对应的图 像。 13.根据权利要求12所述的方法, 所述待检测图像包括电子合同或电子票据中的印章 区域对应的图像; 所述待检测图像包含的文本区域, 包括所述印章区域对应的图像中包含 的文本区域。权 利 要 求 书 2/3 页 3 CN 114445807 A 3

.PDF文档 专利 一种文本区域检测方法及装置

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本区域检测方法及装置 第 1 页 专利 一种文本区域检测方法及装置 第 2 页 专利 一种文本区域检测方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:13:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。