说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210649073.8 (22)申请日 2022.06.09 (71)申请人 威海职业学院 (威海市技 术学院) 地址 264200 山东省威海市初村镇 (72)发明人 王晓华  (74)专利代理 机构 深圳国联专利代理事务所 (特殊普通 合伙) 44465 专利代理师 杜晓莹 (51)Int.Cl. G06F 21/60(2013.01) G06F 16/33(2019.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称 一种分散文档管理的方法 (57)摘要 本发明公开一种分散文档管 理的方法, 包括 以下步骤: 收集分散文档, 添加搜索信息; 分散文 档存储于云端服务器内; 使用倒排索引方法进行 词频统计, 得到各个词语的词频统计值, 获得语 义特征; 根据语义特征进行分散文档的分类; 对 分散文档进行重复检测并删除重复文档; 对分散 文档进行数据的安全加密管 理; 根据所述搜索信 息向存储文档的云端服务器发送安全加密管理 信息; 文档进行重新编辑以生成新版本的文档, 新版本的文档提供给请求用户。 有益效果: 使得 分散文档能够被有序的管理, 能够便于用户搜索 使用; 有效降低云端服务器内存储文档的重复 率, 有效提高存储文档被检索使用时的效率; 有 效提高存储文档的安全性; 使得分散文档能够被 使用者高效管理。 权利要求书1页 说明书5页 CN 114896618 A 2022.08.12 CN 114896618 A 1.一种分散文档管理的方法, 其特 征在于, 包括以下步骤: 第一步、 收集分散文档, 并在分散文档中添加搜索信息; 第二步、 把添加搜索信息的分散文档存 储于云端服 务器内; 第三步、 识别所述搜索信 息的文本内容, 使用倒排索引方法进行词频统计, 得到各个词 语的词频统计值, 获得语义特 征; 第四步、 根据语义特 征进行分散文档的分类; 第五步、 对分类好的分散文档进行重复检测并删除重复文档; 第六步、 对检测完成的分散文档进行 数据的安全加密管理; 第七步、 用户通过云端服务器查询所述分散文档的搜索信息, 根据所述搜索信息向存 储文档的云端服 务器发送安全加密管理信息; 第八步、 存储文档的云端服务器接收到所述全加密管理信 息之后对所述文档进行重新 编辑以生成新版本的文档, 所述 新版本的文档提供 给请求用户。 2.根据权利要求1所述的一种分散文档管理 的方法, 其特征在于, 所述第 一步中搜索信 息包括类别、 关键 字信息、 名称、 编号和编码。 3.根据权利要求1所述的一种分散文档管理的方法, 其特 征在于, 所述第四步的具体步骤如下: 通过从第二 步中存储的数据采样多个文档, 抽取 该多个文档作为分类对象; 从存储部抽取第三 步的语义特 征; 基于语义特征与分类对象内的类别信息出现的频率的相似性, 对分类对象进行聚类, 由此, 按照每 个语义特征生成所述类目。 4.根据权利要求1所述的一种分散文档管理 的方法, 其特征在于, 所述第五步中的具体 步骤如下: 获取全部已入库文档和待检测文档; 从存储部抽取分词处 理全部已入库文档和所述待检测文档; 根据预设领域相关停用词集, 过 滤分词后的已入库文档和待检测文档; 训练预处 理后的已入库文档, 生成句向量模型; 根据所述句向量模型, 生成过滤分词后的已入库文档的文档向量和待检测文档的文档 向量; 计算已入库文档的文档向量和待检测文档的文档向量的余弦值; 根据所述 余弦值, 判断待检测文档与已入库文档是否相似; 相似删除, 不相似把待检测文档存 储于入库文档。 5.根据权利要求1所述的一种分散文档管理的方法, 其特征在于, 所述第六步中,第六 步的安全管理为向第五步中数据的文档进行加密; 具体步骤如下: 为第五步中数据的文档建立唯一标识, 并将文档的唯一标识设置在所述文档中; 将文档的唯一标识上传至云端服务器, 云端服务器以文档的唯一标识为索引存储每个 文档对应的加密信息 。 6.根据权利要求5所述的一种分散文档管理的方法, 其特征在于, 所述加密信息包括: 文档是否加密以及用哪种 系统加密。权 利 要 求 书 1/1 页 2 CN 114896618 A 2一种分散文档管理的方 法 技术领域 [0001]本发明涉及文档分布式管理技 术领域, 具体涉及一种分散文档管理的方法。 背景技术 [0002]文档是软件开发使用和维护中的必备资料。 软件文档或者源代码文档是指与软件 系统及其软件工程过程有关联的文本实体。 文档的类型包括软件需求文档, 设计文档, 测试 文档, 用户手册等。 其中的需求文档, 设计文档和测试文档一般是在软件开 发过程中由开 发 者写就的, 而用户手册等非过程类文档是 由专门的非技术类写作人员写就的。 文档能提高 软件开发的效率, 保证软件的质量, 而且在软件的使用过程中有指导、 帮助、 解惑的作用, 尤 其在维护工作中, 文档是不可或缺的资料。 在当今的电子化时代, 个人、 团体及企业都需要 使用可靠而有效的电子文档储存、 共享以及管理系统。 电子文档存储和管理方案主要体现 于个人本地存储, 共享网络硬盘, 个人或企业团体云盘存储, 以及 使用基于内网和外网专 业 文档管理系统几个方面。 这些分散文档在实际使用中, 重复率较高, 使用效率低, 同时, 难以 搜索, 安全性 不高, 难以高效管理。 发明内容 [0003]为全面解决上述问题, 尤其是针对现有技术所存在的不足, 本发明提供了一种分 散文档管理的方法能够全面 解决上述问题。 [0004]为实现上述目的, 本发明采用以下技 术手段: [0005]一种分散文档管理的方法, 包括以下步骤: [0006]第一步、 收集分散文档, 并在分散文档中添加搜索信息; [0007]第二步、 把添加搜索信息的分散文档存 储于云端服 务器内; [0008]第三步、 识别所述搜索信息的文本内容, 使用倒排索引方法进行词频统计, 得到各 个词语的词频统计值, 获得语义特 征; [0009]第四步、 根据语义特 征进行分散文档的分类; [0010]第五步、 对分类好的分散文档进行重复检测并删除重复文档; [0011]第六步、 对检测完成的分散文档进行 数据的安全加密管理; [0012]第七步、 用户通过云端服务器查询 所述分散文档的搜索信息, 根据所述搜索信息 向存储文档的云端服 务器发送安全加密管理信息; [0013]第八步、 存储文档的云端服务器接收到所述全加 密管理信息之后对所述文档进行 重新编辑以生成新版本的文档, 所述 新版本的文档提供 给请求用户。 [0014]本发明进一步的优选方案: 所述第一步中搜索信息包括类别、 关键字信息、 名称、 编号和编码。 [0015]本发明进一 步的优选方案: 所述第四步的具体步骤如下: [0016]通过从第二 步中存储的数据采样多个文档, 抽取 该多个文档作为分类对象; [0017]从存储部抽取第三 步的语义特 征;说 明 书 1/5 页 3 CN 114896618 A 3

.PDF文档 专利 一种分散文档管理的方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种分散文档管理的方法 第 1 页 专利 一种分散文档管理的方法 第 2 页 专利 一种分散文档管理的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。