(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111665454.7
(22)申请日 2021.12.31
(71)申请人 飞天诚信科技股份有限公司
地址 100085 北京市海淀区学清路9号汇智
大厦B楼17层
(72)发明人 陆舟
(51)Int.Cl.
G06F 40/103(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种文本 格式审核方法、 模型及存 储介质
(57)摘要
本发明公开了一种文本格式审核方法、 模
型、 及存储介质。 其中, 所述方法包括: 通过训练
文本构建文本格式审核模型, 将待检测文本输入
至构建成功的文本格式审核模型, 基于所述文本
格式审核模型输出所述待检测文本审核结果张
量类型数据, 根据所述审核结果张量类型数据判
断待检测文本是否通过格式审核, 并对未通过格
式审核的待检测文本进行格式错误批注。 本发明
通过提取训练文本的格式特征要素, 训练文本格
式自动审核模型, 实现对文本格式的自动审核,
节约了人工成本, 有效提高了文本格式的审核效
率和准确率。
权利要求书3页 说明书9页 附图5页
CN 114282492 A
2022.04.05
CN 114282492 A
1.一种文本格式审核方法, 其特 征在于, 包括如下步骤:
步骤1、 设置文本格式审核模型的超参数, 根据设置的超参数初始化文本格式审核模
型, 向所述文本格式审核模型中导入训练文本;
步骤2、 判断所述训练文本的训练格式, 如为悬置段格式, 则执行步骤2 ‑1; 如为图例格
式, 则执行步骤2 ‑2; 如为正文字题格式, 则执行步骤2 ‑3; 如为数字列项格式, 则执行步骤2 ‑
4;
步骤2‑1: 设置所述训练文本的悬置段格 式特征列表, 根据 所述训练文本的悬置段格 式
特征列表构建所述训练文本段落的格式向量, 得到所述训练文本段落的张量类型数据, 将
所述训练文本段落的张量类型 数据作为所述文本格式审核模型的输入数据, 执 行步骤3;
步骤2‑2: 设置所述训练文本的图例格 式特征列表, 根据所述训练文本的图例格 式特征
列表构建所述训练文本段落的格式向量, 得到所述训练文本段落的张量类型数据, 将所述
训练文本段落的张量类型 数据作为所述文本格式审核模型的输入数据, 执 行步骤8;
步骤2‑3: 设置所述训练文本的正文字体格 式特征列表, 根据所述训练文本的正文字体
格式特征列表构建所述训练文本段落的格式向量, 得到所述训练文本段落的张量类型数
据, 将所述训练文本段落的张量类型数据作为所述文本格式审核模型 的输入数据, 执行步
骤8;
步骤2‑4: 设置所述训练文本的数字列项格 式特征列表, 根据所述训练文本的数字列项
格式特征列表构建所述训练文本段落的格式向量, 得到所述训练文本段落的张量类型数
据, 将所述训练文本段落的张量类型数据作为所述文本格式审核模型 的输入数据, 执行步
骤3;
步骤3、 调取所述超参数中的数据参数, 对所述训练文本段落的张量类型数据进行卷积
计算, 得到训练文本段落的卷积数据;
步骤4、 调取所述超参数中的函数, 对所述训练文本段落的卷积数据进行激励计算, 得
到所述训练文本段落激励数据;
步骤5、 对所述训练文本段落激励数据进行池化操作, 得到池化操作结果;
步骤6、 判断是否存在待操作的卷积层, 若存在, 则将所述池化操作结果作为所述训练
文本的张量类型 数据, 返回步骤3; 若不存在, 则执 行步骤7;
步骤7、 根据所述池化操作结果更新所述训练文本段落的张量类型 数据;
步骤8、 利用所述训练文本段落的张量类型数据对所述审核模型中全连接层各层节点
的权重和偏置进 行逐层计算, 根据对最后一层各节点的权重和偏置进 行计算的结果构建所
述训练文本段落的终层张量类型 数据;
步骤9、 计算所述训练文本段落的终层张量类型 数据和标签的交叉熵;
步骤10、 利用所述交叉熵计算损失率, 将所述损失率与所述超参数进行比对, 判断所述
审核模型 是否构建成功, 若成功, 则执 行步骤12, 否则执 行步骤11;
步骤11、 通过反向传播算法计算所述全连接层的各层节点的调整向量, 根据所述调整
向量对所述全连接层的各层节点的权 重和偏置进行调整, 返回步骤3;
步骤12、 将待检测文本输入至构建成功的文本格式审核模型, 基于所述文本格式审核
模型输出所述待检测文本审核 结果张量类型数据, 根据所述审核 结果张量类型数据判断所
述待检测文本是否通过格式审核并对未通过格式审核的待检测文本进行格式错 误批注。权 利 要 求 书 1/3 页
2
CN 114282492 A
22.如权利要求1所述的方法, 其特征在所, 所述超参数具体包括: 由决定所述审核模型
中损失函数变化速度的学习率, 卷积核的维度、 步长、 填充策略、 预设值、 数量, 由卷积核的
构造参数构建的卷积层的数量, 所述审核模型每层节点的数量, 节点的权重和偏置以及预
设值。
3.如权利要求2所述的方法, 其特征在于, 所述调取所述超参数中的数据参数, 对所述
训练文本段落的张量类型数据进 行卷积计算, 得到训练文本段落的卷积数据, 具体为: 调取
所述超参数中卷积核的构造参数, 根据所述卷积核的构造参数构造卷积核, 用所述卷积核
对所述训练文本段落的张量类型 数据进行 卷积计算, 得到训练文本段落的卷积数据。
4.如权利要求3所述的方法, 其特征在于, 调取所述超参数中的函数, 对所述训练文本
段落的卷积数据进 行激励计算, 得到所述训练文本激励数据, 具体为: 调取所述超参数中的
ReLU激励函数, 对所述训练文本段落的卷积数据进行激励计算, 得到所述训练文本段落的
激励数据。
5.如权利要求1所述的方法, 其特征在于, 所述训练文本的悬置段格式特征列表具体包
括: 所述训练文本的段落字体名称、 段落字体大小、 段落标题类型、 段落标题、 段落标题字体
名称、 段落前距离、 段落 排版位置、 段落缩进、 段落左缩进距离、 行间距。
6.如权利要求1所述的方法, 其特征在于, 所述训练文本的图例格式特征列表具体包
括: 所述训练文本的段落前全角的空格数目、 段落中全角的空格数目、 段落前的半角的空格
数目、 段落中的半角空格数目、 段落标题类型、 段落标题、 段落标题字体名称、 图标题标识。
7.如权利要求1所述的方法, 其特征在于, 所述训练文本的正文字体格式特征列表具体
包括: 表格内文字、 段落字体名称、 段落字体大小、 段落标题类型、 段落标题、 段落标题字体
名称、 段落前距离、 段落 排版位置、 段落缩进、 段落左缩进距离、 行间距、 有无 段落内容。
8.如权利要求1所述的方法, 其特征在于, 所述训练文本的数字列项格式特征列表具体
包括: 每一段的句尾符号、 段落字体名称、 段落字体大小、 段落标题类型、 段落标题、 段落标
题字体名称、 段落前距离、 段落排版位置、 段落缩进、 段落左缩进距离、 行间距、 一级列项标
识、 二级列项标识。
9.如权利要求1所述的方法, 其特征在于, 所述张量类型数据为所述训练文本段落的格
式向量构建的向量 集合。
10.如权利要求1所述的方法, 其特征在于, 所述标签具体为: 对所述训练文本进行格式
审核标注后得到的目标格式向量。
11.如权利要求1所述的方法, 其特征在于, 所述利用所述训练文本段落的张量类型数
据对所述审核模型中全连接层的各层节点的权重和偏置进行计算, 还包括: 计算所述各层
节点的值以及ReLU激励函数在所述各层节点的一阶偏导数。
12.如权利要求11所述的方法, 其特征在于, 所述通过反向传播算法计算所述全连接层
的各层节点的调整向量, 具体为: 选定全连接层任一结点为当前节点, 当前节 点所在层为当
前层, 利用所述ReLU激励函数在当前层节点的一阶偏导数、 损失率、 学习率、 当前层下一层
各节点的权 重和偏置, 通过反向传播 算法计算所述当前节点的调整向量。
13.如权利要求11所述的方法, 其特征在于, 所述训练文本的训练格式还包括: 标题中
的英文空格 格式、 表格中的字体 格式、 参考文献的行间距格式、 附录正文字体 格式。
14.一种文本格式审核模型, 其特 征在于, 包括:权 利 要 求 书 2/3 页
3
CN 114282492 A
3
专利 一种文本格式审核方法、模型及存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 00:18:46上传分享