专利 一种文本格式审核方法、模型及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111665454.7 (22)申请日 2021.12.31 (71)申请人飞天诚信科技股份有限公司地址 100085 北京市海淀区学清路9号汇智大厦B楼17层 (72)发明人陆舟　 (51)Int.Cl. G06F 40/103(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种文本格式审核方法、模型及存储介质 (57)摘要本发明公开了一种文本格式审核方法、模型、及存储介质。其中，所述方法包括：通过训练文本构建文本格式审核模型，将待检测文本输入至构建成功的文本格式审核模型，基于所述文本格式审核模型输出所述待检测文本审核结果张量类型数据，根据所述审核结果张量类型数据判断待检测文本是否通过格式审核，并对未通过格式审核的待检测文本进行格式错误批注。本发明通过提取训练文本的格式特征要素，训练文本格式自动审核模型，实现对文本格式的自动审核，节约了人工成本，有效提高了文本格式的审核效率和准确率。权利要求书3页说明书9页附图5页 CN 114282492 A 2022.04.05 CN 114282492 A 1.一种文本格式审核方法，其特征在于，包括如下步骤：步骤1、设置文本格式审核模型的超参数，根据设置的超参数初始化文本格式审核模型，向所述文本格式审核模型中导入训练文本；步骤2、判断所述训练文本的训练格式，如为悬置段格式，则执行步骤2 ‑1；如为图例格式，则执行步骤2 ‑2；如为正文字题格式，则执行步骤2 ‑3；如为数字列项格式，则执行步骤2 ‑ 4；步骤2‑1：设置所述训练文本的悬置段格式特征列表，根据所述训练文本的悬置段格式特征列表构建所述训练文本段落的格式向量，得到所述训练文本段落的张量类型数据，将所述训练文本段落的张量类型数据作为所述文本格式审核模型的输入数据，执行步骤3；步骤2‑2：设置所述训练文本的图例格式特征列表，根据所述训练文本的图例格式特征列表构建所述训练文本段落的格式向量，得到所述训练文本段落的张量类型数据，将所述训练文本段落的张量类型数据作为所述文本格式审核模型的输入数据，执行步骤8；步骤2‑3：设置所述训练文本的正文字体格式特征列表，根据所述训练文本的正文字体格式特征列表构建所述训练文本段落的格式向量，得到所述训练文本段落的张量类型数据，将所述训练文本段落的张量类型数据作为所述文本格式审核模型的输入数据，执行步骤8；步骤2‑4：设置所述训练文本的数字列项格式特征列表，根据所述训练文本的数字列项格式特征列表构建所述训练文本段落的格式向量，得到所述训练文本段落的张量类型数据，将所述训练文本段落的张量类型数据作为所述文本格式审核模型的输入数据，执行步骤3；步骤3、调取所述超参数中的数据参数，对所述训练文本段落的张量类型数据进行卷积计算，得到训练文本段落的卷积数据；步骤4、调取所述超参数中的函数，对所述训练文本段落的卷积数据进行激励计算，得到所述训练文本段落激励数据；步骤5、对所述训练文本段落激励数据进行池化操作，得到池化操作结果；步骤6、判断是否存在待操作的卷积层，若存在，则将所述池化操作结果作为所述训练文本的张量类型数据，返回步骤3；若不存在，则执行步骤7；步骤7、根据所述池化操作结果更新所述训练文本段落的张量类型数据；步骤8、利用所述训练文本段落的张量类型数据对所述审核模型中全连接层各层节点的权重和偏置进行逐层计算，根据对最后一层各节点的权重和偏置进行计算的结果构建所述训练文本段落的终层张量类型数据；步骤9、计算所述训练文本段落的终层张量类型数据和标签的交叉熵；步骤10、利用所述交叉熵计算损失率，将所述损失率与所述超参数进行比对，判断所述审核模型是否构建成功，若成功，则执行步骤12，否则执行步骤11；步骤11、通过反向传播算法计算所述全连接层的各层节点的调整向量，根据所述调整向量对所述全连接层的各层节点的权重和偏置进行调整，返回步骤3；步骤12、将待检测文本输入至构建成功的文本格式审核模型，基于所述文本格式审核模型输出所述待检测文本审核结果张量类型数据，根据所述审核结果张量类型数据判断所述待检测文本是否通过格式审核并对未通过格式审核的待检测文本进行格式错误批注。权　利　要　求　书 1/3 页 2 CN 114282492 A 22.如权利要求1所述的方法，其特征在所，所述超参数具体包括：由决定所述审核模型中损失函数变化速度的学习率，卷积核的维度、步长、填充策略、预设值、数量，由卷积核的构造参数构建的卷积层的数量，所述审核模型每层节点的数量，节点的权重和偏置以及预设值。 3.如权利要求2所述的方法，其特征在于，所述调取所述超参数中的数据参数，对所述训练文本段落的张量类型数据进行卷积计算，得到训练文本段落的卷积数据，具体为：调取所述超参数中卷积核的构造参数，根据所述卷积核的构造参数构造卷积核，用所述卷积核对所述训练文本段落的张量类型数据进行卷积计算，得到训练文本段落的卷积数据。 4.如权利要求3所述的方法，其特征在于，调取所述超参数中的函数，对所述训练文本段落的卷积数据进行激励计算，得到所述训练文本激励数据，具体为：调取所述超参数中的 ReLU激励函数，对所述训练文本段落的卷积数据进行激励计算，得到所述训练文本段落的激励数据。 5.如权利要求1所述的方法，其特征在于，所述训练文本的悬置段格式特征列表具体包括：所述训练文本的段落字体名称、段落字体大小、段落标题类型、段落标题、段落标题字体名称、段落前距离、段落排版位置、段落缩进、段落左缩进距离、行间距。 6.如权利要求1所述的方法，其特征在于，所述训练文本的图例格式特征列表具体包括：所述训练文本的段落前全角的空格数目、段落中全角的空格数目、段落前的半角的空格数目、段落中的半角空格数目、段落标题类型、段落标题、段落标题字体名称、图标题标识。 7.如权利要求1所述的方法，其特征在于，所述训练文本的正文字体格式特征列表具体包括：表格内文字、段落字体名称、段落字体大小、段落标题类型、段落标题、段落标题字体名称、段落前距离、段落排版位置、段落缩进、段落左缩进距离、行间距、有无段落内容。 8.如权利要求1所述的方法，其特征在于，所述训练文本的数字列项格式特征列表具体包括：每一段的句尾符号、段落字体名称、段落字体大小、段落标题类型、段落标题、段落标题字体名称、段落前距离、段落排版位置、段落缩进、段落左缩进距离、行间距、一级列项标识、二级列项标识。 9.如权利要求1所述的方法，其特征在于，所述张量类型数据为所述训练文本段落的格式向量构建的向量集合。 10.如权利要求1所述的方法，其特征在于，所述标签具体为：对所述训练文本进行格式审核标注后得到的目标格式向量。 11.如权利要求1所述的方法，其特征在于，所述利用所述训练文本段落的张量类型数据对所述审核模型中全连接层的各层节点的权重和偏置进行计算，还包括：计算所述各层节点的值以及ReLU激励函数在所述各层节点的一阶偏导数。 12.如权利要求11所述的方法，其特征在于，所述通过反向传播算法计算所述全连接层的各层节点的调整向量，具体为：选定全连接层任一结点为当前节点，当前节点所在层为当前层，利用所述ReLU激励函数在当前层节点的一阶偏导数、损失率、学习率、当前层下一层各节点的权重和偏置，通过反向传播算法计算所述当前节点的调整向量。 13.如权利要求11所述的方法，其特征在于，所述训练文本的训练格式还包括：标题中的英文空格格式、表格中的字体格式、参考文献的行间距格式、附录正文字体格式。 14.一种文本格式审核模型，其特征在于，包括：权　利　要　求　书 2/3 页 3 CN 114282492 A 3

专利 一种文本格式审核方法、模型及存储介质

专利一种文本格式审核方法、模型及存储介质