说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210827252.6 (22)申请日 2022.07.13 (71)申请人 中国科学院软件研究所 地址 100190 北京市海淀区中关村南四街 4 号 (72)发明人 陈伟 黄涛 魏峻 王伟 叶宏杰  (74)专利代理 机构 北京君尚知识产权代理有限 公司 11200 专利代理师 司立彬 (51)Int.Cl. G06F 8/75(2018.01) G06F 16/36(2019.01) G06F 40/279(2020.01) (54)发明名称 一种Pytho n领域知识图谱构建方法 (57)摘要 本发明公开了一种Python领域知识图谱构 建方法, 其步骤包括: 1)选取构建Python领域知 识图谱所需的数据源; 2)从各个数据源中分别抽 取生成图谱所需的各种类型领域知识, 得到集合 K; Python领域知识图谱为PyKG={V,E}; 其中, V 表示实体集合, E表示实体间的关系集合; V=C∪ Lt∪Ls∪F∪Ms∪Mt, C表示解释器集合, Lt表示第 三方包集合, Ls表示系统库 集合, F表示语法特征 集合, Ms表示标准API集合, Mt表示第三方API集 合; E=DEP∪ASSO, DEP表示解释器、 第三方包和 系统库之间的相互关系, ASSO表示解释器和第三 方包的特征信息之间关系; 3)根据集合K中的知 识构建图谱。 权利要求书2页 说明书6页 附图2页 CN 115291944 A 2022.11.04 CN 115291944 A 1.一种Pytho n领域知识图谱构建方法, 其 步骤包括: 1)选取构建Pytho n领域知识图谱所需的数据源; 2)从选取的各个数据源中分别抽取生成Python领域知识图谱所需的各种类型领域知 识, 得到Python领域知识集合K; 所述Python领域知识图谱为PyKG={V,E}; 其中, V表示知识 图谱中的实体集合, E表示实体间的关系集合; V=C∪Lt∪Ls∪F∪Ms∪Mt, C表示Python解释 器集合, Lt表示Python第三方包集合, Ls表示系统库集合, F表示语法特征集合, Ms表示标准 API集合, Mt表示第三方API集合; E=DEP∪ASSO, DEP表示Python解释器、 Python第三方包和 系统库之间的相互关系, ASSO表示Python解释器和Python第三方包的特征信息之间的关 系; 3)根据所 得Python领域知识集 合K中的知识, 构建Pytho n领域知识图谱PyKG。 2.根据权利要求1所述的方法, 其特征在于, 选取的所述数据源包括Python官方文档、 Python库文件、 PyPI和Debian仓库; 从所述Python官方文档抽取每个Python版本的语法特 征知识, 从所述Python库文件抽取每个Python版本包含的标准API, 从所述PyPI抽取第三方 库信息, 从所述Debian仓库抽取系统库的信息 。 3.根据权利要求2所述的方法, 其特 征在于, 得到所述Pytho n领域知识集 合K的方法为: 3.1)从PyPI上爬取Pytho n第三方包; 3.2)从爬取到 的Python第三方包的元数据文件中抽 取Python第三方包之间的依赖关 系和Pytho n第三方包兼容的Pytho n解释器版本; 3.3)从爬取到 的Python第三方包的目录结构和程序源码中抽取Python第三方包包含 的第三方API; 3.4)从Pytho n官方文档中抽取不同Pytho n版本支持的语法特 征; 3.5)从Pytho n库文件目录结构和程序源码中抽取不同Pytho n版本所包 含的标准API; 3.6)从Debian仓库中爬取Pytho n第三方包和系统库; 3.7)根据 步骤3.1)得到的Python第三方包和步骤3.6)得到的系统库之间的关联, 挖掘 Python第三方包和系统库之间的依赖关系。 4.根据权利要求2所述的方法, 其特征在于, 步骤3.3)从爬取到的Python第三方包的目 录结构和程序源码中抽取Python第三方包包含的第三方API的方法为: 首先对爬取到的每 一个Python第三方包p, 分析该Python第三方包p的目录结构, 提取Python第三方包p包含的 模块集合Mp; 对于模块集合Mp中的每一个模块, 从该模块对应的Python文件中提取声明的 API和相互导入的API, 构建Pytho n第三方包p包 含的API集合Ap。 5.根据权利 要求2所述的方法, 其特征在于, 从P ython官方文档中抽取不同P ython版本 支持的语法特征的方法为: 首先从所述Python官方文档中提取静态的上下文无关语法特 性; 然后将得到的每一条静态的上 下文无关语法特性 转化为正则式, 作为所述语法特 征。 6.根据权利 要求2所述的方法, 其特征在于, 挖掘得到Python第三方包和系统库之间的 依赖关系的方法为: 查找PyPI上的每一个Python第三方包ppip在Debian仓库中的相似资源 papt, 记录相似资源对<ppip,papt>; 对于得到的每一所述相似资源对<ppip,papt>, 通过命令行 指令查询papt的依赖, 得到papt依赖的系统库集合L, 然后建立ppip与L中的每一个系统库的依 赖关系。 7.根据权利要求6所述的方法, 其特 征在于, 通过公式权 利 要 求 书 1/2 页 2 CN 115291944 A 2计算ppip、 papt的资源相似度, 如果资源相似度S (pp i p,pa p t) 大于设定阈值 , 则pp i p、 pa p t为相似资源对 ; 其中 , 名称相似度 模块相似度 LCStr表ppip和papt包名的最长公共子序列, M ax表示ppip和papt中包名较长者的长度, Module (ppip)表示ppip包含的顶层模块 集合, Module(papt)表示papt包含的顶层模块 集合。 8.根据权利要求1所述的方法, 其特征在于, 所述相互关系包括Python第三方包和 Python解释器间的兼容性关系、 Python第三方包之间的依赖关系、 系统库之间的依赖关系 以及Python第三方包对系统库的依赖关系; 所述Python解释器和Python第三方包的特征信 息之间的关系包括Python解释器与语 法特性之间的兼容关系、 与标准API之间的包含关系, 以及Pytho n第三方包与第三方API之间的包 含关系。 9.一种服务器, 其特征在于, 包括存储器和 处理器, 所述存储器存储计算机程序, 所述 计算机程序被配置为由所述处理器执行, 所述计算机程序包括用于执行权利要求1至8任一 所述方法中各步骤的指令 。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至8任一所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115291944 A 3

.PDF文档 专利 一种Python领域知识图谱构建方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种Python领域知识图谱构建方法 第 1 页 专利 一种Python领域知识图谱构建方法 第 2 页 专利 一种Python领域知识图谱构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。