说明:收录全网最新的团体标准 提供单次或批量下载
ICS 03.060 CCS NBFS A 11 团体 标准 T/NBFS 4—2022 智能文字识别技术在金融领域 的应用系统设计指南 2022 - 08 - 01发布 2022 - 08 - 01实施 宁波市金融学会 发布 全国团体标准信息平台 全国团体标准信息平台 T/NBFS 4 —2022 I 目次 前言 ................................ ................................ ................. II 1 范围 ................................ ................................ ............... 1 2 规范性引用文件 ................................ ................................ ..... 1 3 术语和定义 ................................ ................................ ......... 1 4 缩略语 ................................ ................................ ............. 2 5 功能要求 ................................ ................................ ........... 2 6 性能要求 ................................ ................................ ........... 4 7 安全要求 ................................ ................................ ........... 5 参考文献 ................................ ................................ .............. 6 全国团体标准信息平台 T/NBFS 4—2022 II 前言 本文件按照 GB/T 1.1-2020 《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起 草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由宁波市金融学会 提出并归口。 本文件起草单位:中国人民银行宁波市中心支行、宁波银行股份有限公司、中国工商银行股份有限 公司宁波市分行、宁波东海银行股份有限公司、东海航运保险股份有限公司、中国银行股份有限公司宁 波市分行、招商银行股份有限公司宁波市分行、宁波通商银行股份有限公司、宁波鄞州农村商业银行股 份有限公司、甬兴证券有限公司。 本文件主要起草人:王去非、张文元、袁冬勤、黄宪、关义生、张热弯、王巧燕、熊强、周泉、程 东、崔霄翔、方诗伟、董逸飘、张芝悦、吕亚男、毛伏韬、陈建群、陈少亮。 全国团体标准信息平台 T/NBFS 4 —2022 1 智能文字识别技术在金融领域 的应用系统设计指南 1 范围 本文件规定了在金融行业中采用智能文字识别技术进行业务单据识别的系统应具有的功能、性能和安 全要求。 本文件适用于金融领域智能文字识别系统的设计与实现,对智能文字识别系统的测试、管理也可参照 使用。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文 件。 GB/T 17961 -2010 《印刷体汉字识别系统要求与测试方法》 GB/T 34080.3 -2021 基于云计算的电子政务公共平台安全规范 第3部分:服务安全 GB/T 34084-2017 中文语音识别互联网服务接口规范 GB/T 37973 -2019 《信息安全技术 大数据安全管理指南》 GB/T 40343 -2021 智能实验室 信息管理系统 功能要求 JR/T 0185 -2020 《商业银行应用程序借口安全管理规范》 3 术语和定义 3.1 自然语言处理 是人工智能和语言学的分支学科,研究如何让计算机处理及运用人类自然语言,包括对语言的认知、 理解、生成等,并按人所定义和预期的目标进行正确返回。 3.2 结构化 指在OCR的文字识别结果上,结合自然语言处理、先验规则等信息提取用户所需要的字段信息的方法。 3.3 训练 指在机器学习类方法中,通过设定目标适应函数和基于此目标的一套反馈系统来从样本数据中学习得 到达成目标的最佳模型的过程。 3.4 模板识别 指从待识别图像中提取若干特征向量与模板对应的特征向量进行比较,计算图像与模板特征向量之间 的距离,用最小距离法判定所属类别。 全国团体标准信息平台 T/NBFS 4—2022 2 3.5 错误样例 一般指异常场景。在 OCR文字识别中,指经过文字识别与结构化后字段的准确率或召回率较低的样本。 3.6 识别准确率 通过图像识别后提取出的正确信息条数占提取出的信息条数的比重,定义如下: 准确率=提取出的正确信息条数 /提取出的信息条数 。 在OCR领域,字符识别准确率是指以单字符为统计单位的准确率;单词识别准确率是指以英文单词为统 计单位的准确率;字段识别准确率是指以结构化后的字段为统计单位的准确率。 3.7 识别召回率 通过图像识别后提取出的正确信息条数占样本中存在的信息条数的比重,定义如下: 召回率=提取出的正确信息条数 /样本中存在的信息条数 。 在OCR领域,字符识别召回率是指以单字符为统计单位的召回率;单词识别召回率是指以英文单词为统 计单位的召回率;字段识别召回率是指以结构化后的字段为统计单位的召回率。 3.8 模板识别准确率 通过模板识别分类正确的样本数占所有样本数的比重,定义如下: 召回率=分类正确的样本数 /所有样本数 。 3.9 恢复时间目标 Recovery Time Objective ;RTO 指灾难发生后,信息系统或业务功能从停顿到必须恢复的时间要求。 3.10 恢复点目标 Recovery Point Objective ;RPO 指灾难发生后,系统和数据必须恢复到的时间点要求。 3.11 JSON数据交换格式 JavaScript Object Notation ;JSON 一种数据交换格式。 [GB/T 34083 -2017,定义3.10] 4 缩略语 下列缩略语适用于本文件 : DPI:每英寸点数( Dots Per Inch ) ICR:智能字符识别( Intelligent Character Recognition ) OCR:光学字符识别( Optical Character Recognition ) 5 功能要求 5.1 概述 智能文字识别系统应包含两部分:客户端和服务器端。其中客户端主要是指具有照片实时拍摄能力 、 且支持安装第三方研发软件的手机 、平板等可携带设备上的应用程序 ,个人电脑 、高拍仪、独立摄像头等 终端不适用,服务器端是指服务器端的应用系统。 全国团体标准信息平台 T/NBFS 4 —2022 3 智能文字识别系统功能模块流程图如图 1所示。 图1 智能文字识别系统功能模块流程图 注1:客户端应用程序应具有如下功能: —— 实时检测已知模板位置功能,以快速提示用户拍摄是否正确; —— 识别已知模板并结构化输出; —— 未知模板 传送到后台系统识别。 注2:服务器端应用系统应具备图像预处理、模板识别、图像识别、错误样例收集等功能。 5.2 图像预处理 5.2.1 输入图像要求 输入图像应保证在关键字段位置处文字成像无模糊、无光斑、无明显畸变、无明显噪声干扰,图像分 辨率在200DPI以上。 5.2.2 输出图像要求 输出图像应满足以下要求: a) 因模糊、块效应、噪声、畸变等因素导致的文字失真的图像应该被过滤; b) 非单据区域部分应该被自动裁剪,只保留单据在图像中所在的主体区域; c) 对于出现旋转的文本应被自动纠偏,输出的图像的文本应保持在水平位置; d) 若对印章无识别要求,输入图像中的红色印章痕迹应被去除,以减少对单据正文识别处理的干扰。 5.3 图像识别 5.3.1 图像识别内容 在GB/T 17961 -2010中5.1系统功能要求基础上 ,除了具备从表格 、文字中识别可编辑的编码文本 ,还 应具备从文本中提取出具有业务意义的字段信息的功能 。 5.3.2 固定模板识别 全国团体标准信息平台 T/NBFS 4—2022 4 针对识别图像的内容版面 、布局等都一致的场景 ,采用固定模板识别 ,输入的单张或者多张图片应为 已知模板,在输入为非已知模板情况下应在输出结果中明确告知该输入为非支持模板,在输入为已知

pdf文档 T-NBFS 4—2022 智能文字识别技术在金融领域的应用系统设计指南

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
T-NBFS 4—2022 智能文字识别技术在金融领域的应用系统设计指南 第 1 页 T-NBFS 4—2022 智能文字识别技术在金融领域的应用系统设计指南 第 2 页 T-NBFS 4—2022 智能文字识别技术在金融领域的应用系统设计指南 第 3 页
下载文档到电脑,方便使用
本文档由 思安 于 2022-12-18 17:31:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。