说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210824405.1 (22)申请日 2022.07.13 (71)申请人 北京科技大 学 地址 100083 北京市海淀区学院路3 0号 (72)发明人 彭云峰 崔洪振 张龙豪 邬雯  (74)专利代理 机构 西安硕大知识产权代理事务 所(普通合伙) 61283 专利代理师 杨哲 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 16/31(2019.01) G06F 40/247(2020.01) (54)发明名称 一种面向知识融合中同义词词林的知识存 储装置及方法 (57)摘要 一种面向知识融合中同义词词林的知识存 储装置及方法, 包括知 识融合中的词语拆分及编 码模块、 改进树形存储结构、 多元组存储形式的 链表结构; 所述知识融合中的词语拆 分及编码模 块对所述中文文本进行词语拆分、 汉字编码、 散 列表存储; 所述改进的树形存储 结构对所述场景 下的文本字、 词构建树形存储结构, 完成文本树 形层级索引; 所述多元组存储形式的链表结构 对 所述的知识融合中同义词词林进行磁盘存储, 基 于链表存储 形式, 创新构建同义词词林三元组存 储结构, 并设计前后指针索引。 本发明具有检索 效率高、 准确率高的特点。 权利要求书2页 说明书6页 附图3页 CN 115098643 A 2022.09.23 CN 115098643 A 1.一种面向知识融合中同义词词林的知识存储装置, 其特征在于, 包括知识融合中的 词语拆分及编码模块、 改进树形存 储结构、 多元组存 储形式的链 表结构; 所述知识融合中的词语拆分及编码模块对所述中文文本进行词语拆分、 汉字编码、 散 列表存储; 所述改进的树形存储结构对所述场景下的文本字、 词构建树形存储结构, 完成文本树 形层级索引; 所述多元组存储形式的链表结构对所述的知识融合中同义词词林进行磁盘存储, 基于 链表存储形式, 创新构建同义词 词林三元组存 储结构, 并设计前后指针索引。 2.根据权利要求1所述的一种面向知识融合中同义词词林的知识存储装置, 其特征在 于, 所述知识融合中的词语拆分及编码模块针对同义词词 林完成词语拆分功 能、 汉字编码 过程、 散列存 储功能; 词语拆分功能包括: 对中文文本词林中的词汇进行统一编号, 依次完成同义词词语拆 分和位置记录 。 汉字编码过程包括依据 《 字符集和信息编码 国家标准汇编》 (中国标准出版社, 1998年 编), 对汉字进行编码; 散列表存储功能利用哈希散列技术确定汉字编码的唯一映射地址, 并将汉字编码和映 射地址存储在一块连续的存储空间即散列表中, 为了避免散列表中出现的存储碰撞现象, 采用开链法加以处理: 通过在该处的单向链表中继续检索, 直到找到所需达到程序必要的 停止条件。 其 地址域Key存储汉字哈希地址, K ey对应的数据域Value存 储树的根节点 地址。 3.根据权利要求1所述的一种面向知识融合中同义词词林的知识存储装置, 其特征在 于, 所述改进树形存储结构包括基于普通树形的常规定义和B+树叶子节点的定义, 其中树 的根节点 地址存储在hash表的数据域Value中; 在树形非叶子节点设计中制定各层节点的数据内容存储格式, 即非叶子节点不使用统 一的存储格式。 4.根据权利要求1所述的一种面向知识融合中同义词词林的知识存储装置, 其特征在 于, 改进树形存储结构用于存储、 索引、 排序和保存大量的词汇数据; 其中, 根节点(第0层) 存储单个汉字, 第1层子节点存储词语的字数, 表示该词汇有几个汉字组成; 第2层是存储抽 象词语的节点, 表示根结点在词汇中的位置; 第3层叶子节点单独设计, 将其存储结构设计 为两个域, 一个是数据域, 用来存储该词语的具体词汇; 另一个是指针域, 用来存储该词语 的同义词 词汇集合在双向链表或双向循环 链表中的存 储位置。 5.根据权利要求1所述的一种面向知识融合中同义词词林的知识存储装置, 其特征在 于, 所述多 元组存储 形式的链表结构是一个双向链表结构, 链表的节点划分为三个域, 其中 包括: 指针域 1, 数据域, 指针域2, 其中双向链表结构中数据域用来保存某个具体的词汇, 该 词语在进行 数据存储时, 采用三元组的形式; 双向链表的两个指针域分别保存该词语的一个前向同义词节点和一个后向同义词节 点的存储地址, 其中链表的头节点的前驱地址存储为空, 链表的尾节点的后继地址存储为 空。 6.根据权利要求5所述的一种面向知识融合中同义词词林的知识存储装置, 其特征在 于, 双向链表 中数据域部分 的存储结构以三元组为存储形式, 其存储结构为(s,a,f), 以查权 利 要 求 书 1/2 页 2 CN 115098643 A 2找词v为输入, 其中s表示待查词v的同义词词语, a表 示待查词v的同义词s的存储编码(存储 地址), f表示带查词和同义词s之间查找或检索的次数。 7.基于权利要求1 ‑6任一项所述的一种面向知识融合中同义词词林的知识存储装置的 使用方法, 其特 征在于, 包括以下步骤; (1)词语拆分功能实现对原文文档的词语拆分; 根据汉字编码部分对所有汉字进行统 一编码, 其中编码依据 《字符集和信息编码国家标准汇编》 ; 假设表示 为: key=0 0100; 根据公式Address=H(key)实现散列存储功能散列地址计算, 并将汉字存储到对应的 存储空间, 汉字的散列地址Address存储到401所在的序列, 汉字编码key存储到402所在的 序列; (2)完成上述key序列的存储后, 进入到改进的树形存储结构中, key序列的每个汉字作 为一个树的根结点, 构建若干棵树, 节点的数据域 就是H(00100); 第一层节点表示词语是有几个汉字构成的; 第二层节点表示构成汉字词语的抽象结构; 第三层节点表示树的叶子节点, 有两种存储方式, 一种是有A 1和A2两个存储空间, A 1是 在双向链表中的地址, A2是内存地址, 另一种是节点信息只包含双向链表中的地址A1, 其内 存地址不在该节点5 07中存储, 而是存 储在509节点中; (3)上述中A1表示的是在 双向链表节点的地址 。权 利 要 求 书 2/2 页 3 CN 115098643 A 3

.PDF文档 专利 一种面向知识融合中同义词词林的知识存储装置及方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向知识融合中同义词词林的知识存储装置及方法 第 1 页 专利 一种面向知识融合中同义词词林的知识存储装置及方法 第 2 页 专利 一种面向知识融合中同义词词林的知识存储装置及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。