说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210101560.0 (22)申请日 2022.01.27 (71)申请人 清华大学 地址 100084 北京市海淀区清华园 申请人 上海起承 文化发展 有限公司 (72)发明人 邓柯 潘长在 米成 陈静  李梦琦 李宜斐  (74)专利代理 机构 北京鸿元知识产权代理有限 公司 11327 专利代理师 董永辉 曹素云 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06N 5/02(2006.01) (54)发明名称 一种知识网络构建方法、 装置、 设备及存储 介质 (57)摘要 本申请提供了一种知识网络构建方法、 装 置、 设备及存储介质, 方法包括: 将文本按照第一 句长、 第二句长、 段落三个层次, 并结合专业词表 筛选词汇分别划分为三种文本语料; 对于任一文 本语料, 都将文本语料中共同出现的词汇对列出 并一一进行列联表假设检验, 再通过卡方检验计 算出假设检验的p_value值构成p_value集合; 对 于任一p_value集合, 利用p_value阈值q筛选符 合要求的p_value值, 组成相 关性显著词汇对集 合; 根据最小词频、 词汇对共现数量阈值和最小 相关性来进一步对相关性显著词汇对集合进行 筛选。 本发明从段落、 长句、 短句和分词、 不分词 的角度, 利用假设检验对相关性判断, 构建不同 维度下的知识网络, 并根据多种参数指标对其进 行评估。 权利要求书2页 说明书8页 附图2页 CN 114706991 A 2022.07.05 CN 114706991 A 1.一种知识网络构建方法, 其特 征在于, 包括: 将文本按照第 一句长、 第 二句长、 段落三个层次, 并结合专业词表筛选词汇分别划分为 三种文本语料, 其中, 所述第一句长是以句中标点符号来划分文本, 其中所述第二句长是以 句尾标点符号 来划分文本; 对于任一文本语料, 都将文本语料中共同出现的词汇对列出并一一进行列 联表假设检 验, 再通过卡方检验计算出假设检验的p_value值构成p_value集 合; 对于任一p_value集合, 将p_value值从小到大排序为p1, p2,…pN, 并利用p_value阈值 q, 筛选符合下式的p_value值, 并将 筛选出的p_value值所对应的词汇对组成相关性显著词 汇对集合, 其中, pi表示第i个p_value值; N表示任一文本语料中词汇对的数量, 即做了N次假设检验; 根据最小词频、 词汇对共现数量阈值和最小相关性来进一步对相关性显著词汇对集合 进行筛选。 2.根据权利要求1所述的知识网络构建方法, 其特 征在于, 所述最小词频不小于2; 词汇对共现数量阈值 不小于2; 所述最小相关性是指p_value值大于 0.01的词汇对。 3.根据权利要求1所述的知识网络构建方法, 其特 征在于, 所述文本包括分词的文本和不分词的文本两类, 对应每一类文本都按照第一句长、 第 二句长、 段落 三个层次划分为 三种文本语料。 4.根据权利要求1所述的知识网络构建方法, 其特 征在于, 所述将文本语料中共同出现的词汇对列 出并一一进行列联表假设检验, 再通过卡方检 验计算出假设检验的p_value值构成p_value集 合, 包括: 对于词汇对(w1, w2), 其中w1表示一个词汇, w2表示另一个词汇, 列联表假 设检验中, 原假 设是词汇对(w1, w2)的出现为随机碰撞, 备择假设是词汇对(w1, w2)的出现是非随机的, 形成 的列联表形式为: W1出现 W1不出现 W2出现 W1、 W2共同出现的次数为a W1不出现W2出现的次数为b W2不出现 W2不出现W1出现的次数为c W1、 W2都出现的次数为d 其中, 卡方检验的检验统计量为T=(a+b+c+d)*(ad ‑bc)2/(a+b)(c+d)(a+c)(b+d), 在 原 假设成立的条件下, T服从自由度为1的卡方分布, p_value=P(x>T), 其中, P(x>T)表示以 x为变量的自由度为1的卡方分布中比T还大的概 率, 从而获得p_value值。 5.根据权利要求1所述的知识网络构建方法, 其特 征在于, 所述p_value阈值q为0.0 5。 6.根据权利要求1所述的知识网络构建方法, 其特 征在于, 对于任一文本语料, 都将相关性显著词汇对集合的每一词汇作为一个节点, 并在相关 性显著的词汇之间设置连接边, 从而建立图形化的词汇网络 。权 利 要 求 书 1/2 页 2 CN 114706991 A 27.根据权利要求6所述的知识网络构建方法, 其特征在于, 还结合以下条件中一个或多 个对词汇网络进行筛 选: 词汇网络边数、 词汇网格的密度、 不同类别内的网络规模大小、 核心词汇周围的网络密 度。 8.一种知识网络构建装置, 其特 征在于, 所述装置包括: 文本语料获取模块, 用于将文本按照第一句长、 第二句长、 段落三个层次, 并结合专业 词表筛选词汇分别划分为 三种文本语料, 其中, 所述第一句长是以句中标点符号来划分文本, 所述第二句长是以句尾标点符号 来划分文本; 假设检验模块, 用于对于任一文本语料, 都将文本语料中共 同出现的词汇对列出并一 一进行列联表假设检验, 再通过卡方检验计算出假设检验的p_value值构成p_value集 合; 修正模块, 用于对于任一p_value集合, 将p_value值从小到大排序为p1, p2,…pN, 并利 用p_value阈值q, 筛选符合下式的p_v alue值, 并将筛选出的p_v alue值所对应的词汇对组 成相关性显著词汇对集 合, 其中, pi表示第i个p_value值; N表示任一文本语料中词汇对的数量, 即做了N次假设检验; 进一步筛选模块, 用于根据最小词频、 词汇对共现数量阈值和最小相关性来进一步对 相关性显著词汇对集 合进行筛 选。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及, 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处理器能够执行如权利要求 1至7中任一所述的知识网络构建 方法。 10.一种计算机可读存储介质, 存储有计算机程序, 其特征在于, 所述计算机程序被处 理器执行时实现如权利要求1至7中任一所述的知识网络构建方法。权 利 要 求 书 2/2 页 3 CN 114706991 A 3

.PDF文档 专利 一种知识网络构建方法、装置、设备及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种知识网络构建方法、装置、设备及存储介质 第 1 页 专利 一种知识网络构建方法、装置、设备及存储介质 第 2 页 专利 一种知识网络构建方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:54:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。