说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111630143.7 (22)申请日 2021.12.28 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新 开发区望 江西路666号 (72)发明人 吴浩  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 代理人 刘希 (51)Int.Cl. G06T 5/00(2006.01) G06V 30/40(2022.01) G06V 10/774(2022.01) G06F 40/126(2020.01) (54)发明名称 分子式识别方法及相关装置、 设备和存储介 质 (57)摘要 本申请公开了一种分子式识别方法及相关 装置、 设备和存储介质, 该方法包括: 利用分子式 识别模型对待识别图像进行识别, 得到符号序 列; 基于符号序列, 恢复得到待识别图像中的目 标分子式; 其中, 分子式识别模型利用含有样本 分子式的样 本图像训练得到, 样 本图像标注有样 本分子式的样本符号序列, 且样 本符号序列由样 本分子式的图形视觉形态构建得到。 上述方案, 能够提高识别分子式的准确性和分子式识别的 泛化能力。 权利要求书3页 说明书13页 附图6页 CN 114359086 A 2022.04.15 CN 114359086 A 1.一种分子式识别方法, 其特 征在于, 包括: 利用分子式识别模型对待识别图像进行识别, 得到符号序列; 基于所述符号序列, 恢复得到所述待识别图像中的目标分子式; 其中, 所述分子式识别模型利用含有样本分子式的样本 图像训练得到, 所述样本 图像 标注有所述样本分子式的样本符号序列, 且所述样本符号序列由所述样本 分子式的图形视 觉形态构建得到 。 2.根据权利要求1所述的方法, 其特征在于, 所述样本符号序列包括表示所述样本分子 式中原子团的字符串, 及表示所述样本分子式中化学键的字符串, 表示所述化学键的字符 串至少包 含所述化学键的角度。 3.根据权利要求2所述的方法, 其特征在于, 所述样本符号序列还包括代表所述样本分 子式中分支的分支符, 且所述分支符至少表征 所述分支的方向。 4.根据权利要求3所述的方法, 其特征在于, 所述样本符号序列由所述样本分子 式主干 的样本第一子序列和各所述分支的样本第二子序列组成, 所述样本第一子序列包含分别代 表各所述分支的分支符, 且所述分支符还表征所述分支的标识, 所述样本第二子序列包含 序位符, 所述序位符表征 所述分支的标识。 5.根据权利要求1所述的方法, 其特征在于, 所述样本分子 式预先以预设分子式标记语 言标注为原始标签序列, 且所述预设分子式标记语言的语法规则遵循分子式的图形视觉形 态, 所述样本符号序列的获取步骤 包括: 基于所述原始标签序列进行结构解析, 得到所述样本分子 式的图形数据; 其中, 所述图 形数据由若干数据元素组成, 所述若干数据元素包括节点和连接所述节点的边, 所述节点 表示原子团, 所述 边表示化学键, 且所述图形 数据中各 所述数据元 素标记有数据属性; 基于所述图形 数据进行遍历, 得到所述样本符号序列。 6.根据权利要求5所述的方法, 其特征在于, 所述节点的数据属性包括表示所述原子团 的字符; 和/或, 所述 边的数据属性至少包括所述 化学键的角度。 7.根据权利要求5所述的方法, 其特征在于, 所述基于所述图形数据进行遍历, 得到所 述样本符号序列, 包括: 在所述图形数据遍历所述样本分子式主干上的数据元素, 得到样本第一子序列, 并在 所述图形 数据遍历所述样本分子式分支上的数据元 素, 得到样本第二子序列; 组合所述样本第一子序列和所述样本第二子序列, 得到所述样本符号序列; 其中, 所述样本符号序列中表示所述数据元素的字符串包括所述数据元素的数据属 性, 所述分支在所述样本第一子序列由分支符代为表示, 且所述分支符表征所述分支的方 向和标识, 所述样本第二子序列包 含序位符, 所述序位符表征 所述分支的标识。 8.根据权利要求5所述的方法, 其特征在于, 在所述基于所述原始标签序列进行结构解 析, 得到所述样本分子式的图形 数据之前, 所述方法还 包括: 利用所述预设分子 式标记语言的渲染引擎对所述原始标签序列进行渲染, 得到渲染分 子式; 基于所述渲染分子 式与所述样本分子 式之间的差异检查结果, 确定所述原始标签序列 是否标注正确。权 利 要 求 书 1/3 页 2 CN 114359086 A 29.根据权利要求1所述的方法, 其特征在于, 所述样本分子式由主干和分支构成, 所述 样本符号序列包括所述主干的样本子序列和所述分支的样本子序列, 所述分支在所述主干 的样本子序列中以分支符代为表示; 所述分子式识别模型的训练步骤 包括: 随机选择一个未被选择过的参考状态; 其中, 所述参考状态为解码到所述分支符时的 解码状态; 将所述参考状态对应的分支符所代 表的分支, 作为待解码分支; 基于所述参考状态和由所述样本图像提取到的样本特征图进行解码, 得到所述待解码 分支的预测子序列; 基于属于相同所述分支的所述样本子序列与所述预测子序列之间的差异, 调整所述分 子式识别模型的网络参数。 10.根据权利要求9所述的方法, 其特征在于, 所述样本子序列以结束符结尾; 所述随机 选择一个未被选择 过的参考状态, 包括: 响应于解码到所述结束符且尚有未被选择过的参考状态, 执行所述随机选择一个未被 选择过的参考状态的步骤以及后续 步骤。 11.根据权利要求10所述的方法, 其特征在于, 在所述基于属于相同所述分支的所述样 本子序列与所述预测子序列之间的差异, 调整所述分子式识别模型 的网络参数之前, 所述 方法还包括: 检查是否解码到所述结束符且所有所述 参考状态均已被选择; 响应于解码到所述结束符且所有所述参考状态均已被选择, 执行所述基于属于相同所 述分支的所述样本子序列与所述预测子序列之 间的差异, 调整所述分子式识别模型的网络 参数的步骤。 12.根据权利要求9所述的方法, 其特征在于, 在所述随机选择一个未被选择过的参考 状态之前, 所述方法还 包括: 基于预设状态和所述样本特 征图进行解码, 得到所述主干的预测子序列; 所述基于属于相同所述分支的所述样本子序列与 所述预测子序列之间的差异, 调 整所 述分子式识别模型的网络参数, 包括: 基于所述主干的所述预测子序列与 所述样本子序列之间的差异, 以及属于相同所述分 支的所述样本子序列与所述预测子序列之间的差异, 调整所述分子式识别模型的网络参 数。 13.根据权利要求1所述的方法, 其特征在于, 所述分子式识别模型包括分子式编码网 络和分子式解码网络, 且所述分子式编码网络由图文识别模型的图文编码网络初始化得 到, 所述图文编码模型 是利用含有样本文本、 样本公式至少一 者的样本图像训练得到的。 14.一种分子式识别装置, 其特 征在于, 包括: 序列识别模块, 用于利用分子式识别模型对待识别图像进行识别, 得到符号序列; 式子恢复模块, 用于基于所述符号序列, 恢复得到所述待识别图像中的目标分子式; 其中, 所述分子式识别模型利用含有样本分子式的样本 图像训练得到, 所述样本 图像 标注有所述样本分子式的样本符号序列, 且所述样本符号序列由所述样本 分子式的图形视 觉形态构建得到 。 15.一种电子设备, 其特征在于, 包括相互耦接的存储器和 处理器, 所述存储器中存储权 利 要 求 书 2/3 页 3 CN 114359086 A 3

.PDF文档 专利 分子式识别方法及相关装置、设备和存储介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 分子式识别方法及相关装置、设备和存储介质 第 1 页 专利 分子式识别方法及相关装置、设备和存储介质 第 2 页 专利 分子式识别方法及相关装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:59:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。