说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210775551.X (22)申请日 2022.07.01 (71)申请人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 王儒 华益威 孙延劭 魏竹琴  李冠楠 王国新  (74)专利代理 机构 北京正阳理工知识产权代理 事务所(普通 合伙) 11639 专利代理师 张利萍 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/84(2019.01) G06F 40/151(2020.01) G06F 40/186(2020.01) (54)发明名称 一种面向半结构化工艺数据的映射模板知 识抽取方法 (57)摘要 本发明公开了一种面向半结构化工艺数据 的映射模板知识抽取方法, 该方法为: 对半结构 化工艺数据进行预处理, 形成工艺数据表格; 根 据半结构化工艺数据的结构特征和内容特征, 对 工艺数据表格进行抽取区域划分, 形成结构特征 区域和内容特征区域, 将各个抽取区域内的具体 数据与预设的工艺知识图谱模式层进行映射, 得 到映射模板; 根据映射模板, 按照映射模板的类 别对工艺数据表 格中的内容进行知识提取, 得到 基于预设的工艺知识 图谱模式层和映射模板的 工艺知识库。 本发明可以直接高效抽取半结构化 工艺数据中的知识, 在映射模板的知识约束和高 精度映射下, 工艺知识抽取可以保持较好的可靠 性和较高的效率实现工艺知识的自动提取。 权利要求书1页 说明书5页 附图3页 CN 115168606 A 2022.10.11 CN 115168606 A 1.一种面向半结构化工艺数据的映射模板知识抽取方法, 所述半结构化工艺数据为面 向工艺领域的半结构化铸造、 机加 和装配相关的工艺表; 其特征在于, 所述抽取 方法的具体步骤如下: 步骤S101, 对半结构化工艺数据进行预处理, 明确半结构化工艺数据的结构特征和内 容特征; 所述预处理为: 将不同格式的半结构化工艺数据转变为标准统一的excel表格格 式, 形成工艺数据表格; 步骤S102, 根据半结构化工艺数据的结构特征和内容特征, 对工艺数据表格进行抽取 区域划分, 形成两个以上抽取区域, 所述抽取区域包括结构特征区域和内容特征区域, 将各 个抽取区域内的具体数据与预设的工艺知识图谱 模式层进行映射, 得到映射模板; 步骤S103, 根据映射模板, 按照映射模板的类别对工艺数据表格中的内容进行知识提 取, 得到基于预设的工艺知识图谱 模式层和映射模板的工艺知识库。 2.如权利要求1所述的一种面向半结构化工艺数据的映射模板知识抽取方法, 其特征 在于, 步骤S101的具体过程如下: 首先对半结构化工艺数据的结构特征和内容特征进行分析, 结构特征包括: 标题栏、 明 细栏、 校验栏及资源栏; 内容特征包括: 装配明细表、 工艺装置明细表、 工序目录及工艺卡 片; 然后通过pdfplumber和docx功能包对非excel文件和含合并单元格的非标准excel文 件内的表格进行格式转换, 转变为标准统一的excel表格 格式, 形成工艺数据表格。 3.如权利要求1所述的一种面向半结构化工艺数据的映射模板知识抽取方法, 其特征 在于, 在步骤S102中, 所述工艺知识图谱 模式层包括: 概念实体、 概念关系和概念属性。 4.如权利要求3所述的一种面向半结构化工艺数据的映射模板知识抽取方法, 其特征 在于, 步骤S102的具体过程如下: 首先, 预先准备工艺知识图谱模式层, 从工艺需求、 产品对象和工艺信息三方面出发, 对每个方面的概念实体、 概念关系和概念属性进行定义, 从而构建工艺知识图谱 模式层; 然后, 先根据半结构化工艺数据的结构特征对工艺数据表格进行抽取区域划分, 形成 结构特征区域, 再根据结构特征区域和内容特征, 对工艺数据 表格进行抽取区域划分, 形成 内容特征区域; 然后, 结合预设的工艺知识图谱模式层, 将抽取区域与预设的工艺知识图谱模式层进 行映射, 即将各个抽取区域中的具体数据与预设的工艺知识图谱模式层中的概念实体、 概 念属性和概念关系一一对应, 得到概念与知识的对应关系, 即工艺知识图谱模式层的概念 实体、 概念关系和概念属 性与抽取区域内的具体数据的对应关系, 最终得到满足不同类型 工艺数据结构特 征和内容特 征的映射模板 。 5.如权利要求1 ‑4任一项所述的一种面向半结构化工艺数据的映射模板知识抽取方 法, 其特征在于, 步骤S10 3的具体过程如下: 在映射模板的基础 上, 通过py2neo功能包操作neo4j图数据库, 并结合CQL语言, 对工艺 数据表格中的内容进 行知识自动抽取, 并通过APOC插件对抽取出的知识进 行重复节点和关 系的融合, 形成实体关系表, 最终构建工艺知识库。权 利 要 求 书 1/1 页 2 CN 115168606 A 2一种面向半结构化工艺数据的映射模板知识抽取方 法 技术领域 [0001]本发明属于知识抽取技术领域, 具体涉及 一种面向半结构化工艺数据的映射模板 知识抽取 方法。 背景技术 [0002]知识图谱技术是人工智能技术的重要组成部分, 以结构化的方式描述客观世界中 的概念、 实体及其之 间的关系。 知识图谱技术提供了一种更好的组织、 管理和理解互联网海 量信息的能力, 将互联网的信息表达成更接近于人类认知世界的形式。 因此, 建立一个具有 语义处理 能力与开放互联能力的知识库, 可以在智能搜索、 智能问答、 个性化推荐等智能信 息服务重产生应用价 值。 [0003]而构建一个知识库或知识图谱的前提就是知识抽取技术, 知识抽取是指把蕴含于 信息源中的知识经过识别、 理解、 筛选、 归纳等过程抽取出来, 存储形成知识元库。 目前面向 结构化和非结构化数据的知识抽取技术较为丰富, 但面向半结构化数据的知识抽取技术则 较为缺少, 主要是因为半结构化数据类型和内容难以明确界定和划分, 这同样也是半结构 化工艺数据知识抽取 的难点, 即如何对半结构化工艺知识源中的数据进行预处理, 因为知 识并不是以某种现成的形式存在于知识源中的, 只有对知识源中的数据经过分析、 识别、 理 解、 关联等一系 列处理之后, 才能发现其中有用的知识。 而这种数据处理往往又 因为知识源 中数据形式的不同而呈现不同的难度。 [0004]由于知识图谱在垂直工艺领域的技术研究和应用案例较少, 且通用领域知识抽取 技术多数并不适用于工艺领域的业务需求, 尤其在面向半结构化工艺数据知识抽取过程 中, 难以抽取获得准确性高、 专业 性好以及满足工艺知识需求的高质量工艺知识库。 发明内容 [0005]有鉴于此, 本发明提供了一种面向半结构化工艺数据的映射模板知识抽 取方法, 通过对半结构化工艺数据进行数据预处理、 区域划分及映射模板设计, 可以直接高效抽取 半结构化工艺数据中的知识, 在映射模板的知识约束和高精度映射下, 工艺知识抽取可以 保持较好的可靠性和较高的效率实现工艺知识的自动提取。 [0006]本发明是通过 下述技术方案实现的: [0007]一种面向半结构化工艺数据的映射模板知识抽取方法, 所述半结构化工艺数据为 面向工艺领域的半结构化铸造、 机加 和装配相关的工艺表; [0008]所述抽取 方法的具体步骤如下: [0009]步骤S101, 对半结构化工艺数据进行预处理, 明确半结构化工艺数据的结构特征 和内容特征; 所述预 处理为: 将不同格式的半结构化工艺数据转变为标准统一的excel表格 格式, 形成工艺数据表格; [0010]步骤S102, 根据半结构化工艺数据的结构特征和内容特征, 对工艺数据表格进行 抽取区域划分, 形成两个以上抽取区域, 所述抽取区域包括结构特征区域和内容特征区域,说 明 书 1/5 页 3 CN 115168606 A 3

.PDF文档 专利 一种面向半结构化工艺数据的映射模板知识抽取方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向半结构化工艺数据的映射模板知识抽取方法 第 1 页 专利 一种面向半结构化工艺数据的映射模板知识抽取方法 第 2 页 专利 一种面向半结构化工艺数据的映射模板知识抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。