说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210829910.5 (22)申请日 2022.07.14 (71)申请人 中移 (苏州) 软件技 术有限公司 地址 215011 江苏省苏州市苏州高新区昆 仑山路58号1幢 申请人 苏州海赛人工智能有限公司 (72)发明人 胡静远 刘洪强 沈翀  (74)专利代理 机构 南通云创慧泉专利代理事务 所(普通合伙) 32585 专利代理师 邵永永 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) G06F 40/253(2020.01) (54)发明名称 一种面向开 放领域的细粒度知识抽取方法 (57)摘要 本发明公开了一种面向开放领域的细粒度 知识抽取方法,采集计算机初级领域库本体; 对 采集的初级领域库本体进行确定各个初级领域 类型; 将确定各个初级领域类型后的计算机初级 领域库本体进行语法识别, 得到语句倒叙; 将得 到的语句倒叙, 结合标注的不同词性的词语, 进 行逻辑倒叙抽取, 得到初始的计算机逻辑倒叙; 如果初始的计算机逻辑倒叙没有重复, 得到最终 的计算机逻辑倒叙; 将得到的最终计算机逻辑倒 叙转换为知识图谱并呈现。 本发 明解决了计算机 初级领域库本体知识抽取准确率低下、 覆盖范围 不足, 使得计算机初级领域库本体不能够得到充 分利用、 发挥其价值的问题, 提高计算机领域知 识抽取准确率及覆盖范围。 权利要求书1页 说明书5页 附图1页 CN 115309875 A 2022.11.08 CN 115309875 A 1.一种面向开 放领域的细粒度知识抽取 方法, 其特 征在于, 包括以下步骤: 步骤A1: 采集计算机初级领域库本体; 步骤A2: 对步骤A1采集的初级领域库本体进行确定各个初级领域类型; 步骤A3: 将步骤A2确定各个初级领域类型后的计算机初级领域库本体进行语法识别, 得到语句倒叙; 步骤A4: 将步骤A3得到的语句倒叙, 结合标注的不同词性的词语, 进行逻辑倒叙抽取, 得到初始的计算机 逻辑倒叙; 步骤A5: 如果初始的计算机 逻辑倒叙没有重复, 得到最终的计算机 逻辑倒叙; 步骤A6: 将步骤A5得到的最终计算机 逻辑倒叙转换为知识图谱并呈现。 2.根据权利要求1所述的计算机初级领域库本体知识抽取方法, 其特征在于, 步骤A1 中, 通过计算机业务知识, 构建计算机领域的知识数据库, 同时对不同词性的词语加以编号 以及量表的标注。 3.根据权利要求1所述的计算机初级领域库本体知识抽取方法, 其特征在于, 步骤A2 中, 采用C++自然语言处理工具对初级领域库本体进行分词以及词性标注确定各个初级领 域类型, 将确定各个初级领域类型的初级领域库本体转换成本体矩阵。 4.根据权利要求1所述的计算机初级领域库本体知识抽取方法, 其特征在于, 步骤A3 中, 将确定各个初级领域类型后的计算机初级领域库本体中的句 子表示成一栋建筑物, 依 据建筑物, 建筑物内的房间代 表词语。 5.根据权利要求1所述的计算机初级领域库本体知识抽取方法, 其特征在于, 步骤A4 中, 计算机逻辑倒叙为插叙、 倒叙和插叙的三种表示, 标注的不同词性的词语为主语、 谓语 或宾语, 标注的不同词性的词语对应有相应的命名插 叙。 6.根据权利要求5所述的计算机初级领域库本体知识抽取方法, 其特征在于, 步骤A5 中, 如果初始的计算机 逻辑倒叙有重复, 则过 滤, 直至没有重复的计算机 逻辑倒叙。 7.根据权利要求1所述的计算机初级领域库本体知识抽取方法, 其特征在于, 步骤A6 中, 知识图谱为关键点、 普通点以及关键点的方式, 关键点表示插叙, 关键点与关键点之间 的普通点表示插 叙间倒叙。权 利 要 求 书 1/1 页 2 CN 115309875 A 2一种面向开放 领域的细粒度知识抽取方 法 技术领域 [0001]本发明涉及计算机技 术领域, 具体为 一种面向开 放领域的细粒度知识  抽取方法。 背景技术 [0002]本体知识系统作为人工智能学科最重要的工业化和商业化产物, 辅助  计算机科 学领域向更加智能化方向发展, 为了构建本体知识, 人们探索了  很多方法来帮助从非结构 化的文本数据中提取知识, 由于互联网页面包含  的数据和知识丰富, 为本体知识构建提供 了宝贵资源, 而互联网页面中的  表格数据由于结构化的组织形式, 有利于实现知识与数据 之间的映射, 通  过抽取网页 表格数据用于本体知识构建, 将有效帮助完成本体知识构建过   程。 [0003]现有本体知识抽取技术, 主要集中在本体知识构建过程的整体实现  上, 较多注重 系统或设备本身, 只是提供了人机交互接口, 辅助完成本体  知识构建的各个流程, 较少涉 及知识自动化抽取技术的创新, 知识抽取大  多需要依赖专家进行抽取规则或训练数据的 整理, 现有技术 实质上是辅助  进行人工整理工作的半自动化抽取系统, 并非真正意义上的 自动化抽取,  且存在由于专家和数据的知识偏差导致后续错误的风险, 且容易出现语义   模糊。 发明内容 [0004](一)解决的技 术问题 [0005]针对现有技术的不足, 本发明提供了一种面向开放领域的细粒度知识  抽取方法, 解决了由于专 家和数据的知识偏差导 致后续错误的风险以及容  易出现语义模糊的问题。 [0006](二)技术方案 [0007]为实现以上目的, 本 发明通过以下技术方案予以实现: 一种面向开放  领域的细粒 度知识抽取 方法, 包括以下步骤: [0008]步骤A1: 采集计算机初级领域库本体; [0009]步骤A2: 对步骤A1采集的初级领域库本体进行确定各个初级领域类  型; [0010]步骤A3: 将步骤A2确定各个初级领域类型后的计算机初级领域库本  体进行语法 识别, 得到依存倒叙; [0011]步骤A4: 将步骤A3得到的语句倒叙, 结合标注的不同词性 的词语, 进行逻辑倒叙 抽取, 得到初始的计算机 逻辑倒叙; [0012]步骤A5: 如果初始的计算机 逻辑倒叙没有重复, 得到最终的计算机  逻辑倒叙; [0013]步骤A6: 将步骤A5得到的最终计算机 逻辑倒叙转换为知识图谱并呈  现。 [0014]具体的, 步骤A1中, 通过计算机业务知识, 构建计算机领域的知识  数据库, 同时对 不同词性的词语加以编号以及量表的标注。 [0015]具体的, 步骤A2中, 采用C++自然语言处理工具对初级领域库本体  进行分词以及 词性标注确定各个初级领域类型, 将确定各个初级领域类型  的初级领域库本体转换成本说 明 书 1/5 页 3 CN 115309875 A 3

.PDF文档 专利 一种面向开放领域的细粒度知识抽取方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向开放领域的细粒度知识抽取方法 第 1 页 专利 一种面向开放领域的细粒度知识抽取方法 第 2 页 专利 一种面向开放领域的细粒度知识抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。