说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211116425.X (22)申请日 2022.09.14 (71)申请人 上海市大 数据中心 地址 200072 上海市 静安区寿阳路9 9弄15 号 (72)发明人 朱俊伟 贝聿运 陈祺 徐智蕴  方海宾 贝文馨 王倩璐 张晓东  陈飞飞 毛亚青  (74)专利代理 机构 上海科律专利代理事务所 (特殊普通 合伙) 31290 专利代理师 赵颖 (51)Int.Cl. G06F 16/21(2019.01) G06F 16/215(2019.01) G06Q 50/26(2012.01) (54)发明名称 基于自然语言和用户行为分析的政务行业 知识库的构建方法 (57)摘要 本发明公开了一种基于自然语言和用户行 为分析的政务行业知识库的构建方法, 包括如下 步骤: S1)获取多种非结构化数据、 半结构化数据 与结构化数据, 获取方式来自第三方数据库、 手 动上传的文件、 网页上抓取的数据以及用户行为 数据; S2)将非结构化数据和半结构化数据统一 转化为结构化数据, 并进行信息抽取和数据融合 处理, 生成事项分类和材料分类; S3)对用户行为 数据进行分析, 建立事项关系; S4)审查所有结 果, 评估量化知识的可信度, 存储为可应用的知 识。 本发明采集的数据全面多样, 通过用户行为 分析建立事项关系形成有层次性逻辑性的知 识, 并评估量化知识的可信度, 确保知识库在建成后 能长期有效的运营与更广泛 全面的应用。 权利要求书1页 说明书3页 附图2页 CN 115510025 A 2022.12.23 CN 115510025 A 1.一种基于自然语言和用户行为分析的政务行业知识库的构建方法, 其特征在于, 包 括如下步骤: S1)获取多种非结构化数据、 半结构化数据与结构化数据, 获取方式来自第三方数据 库、 手动上传的文件、 网页上抓取的数据以及用户行为数据; S2)将非结构化数据和半结构化数据统一转化为结构化数据, 并进行信息抽取和数据 融合处理, 生成事项分类和材 料分类; S3)对用户行为数据进行分析, 建立事项关系; S4)审查所有结果, 评估量 化知识的可信度, 存 储为可应用的知识。 2.如权利要求1所述的基于自然语言和用户行为分析的政务行业知识库的构建方法, 其特征在于, 所述步骤S1获取的数据包括采集办事指南、 申报材料、 审 批操作指导手册以及 相关法律法规文件。 3.如权利要求1所述的基于自然语言和用户行为分析的政务行业知识库的构建方法, 其特征在于, 所述步骤S2使用基于BERT的深度学习模 型抽取实体、 实体属性、 实体与实体之 间的关系。 4.如权利要求3所述的基于自然语言和用户行为分析的政务行业知识库的构建方法, 其特征在于, 所述步骤S2抽取出<实体,关系,实体>构成的三元 组, 以实体为节 点, 实体与实 体之间的关系为 边进行融合消歧操作, 将业 务上常用关系进行名称标准 化。 5.如权利要求1所述的基于自然语言和用户行为分析的政务行业知识库的构建方法, 其特征在于, 所述步骤S2还包括为事项和材料打标签, 梳理数据层次性和逻辑性, 并采用图 谱化方式对材 料进行管理和查找。 6.如权利要求1所述的基于自然语言和用户行为分析的政务行业知识库的构建方法, 其特征在于, 所述步骤S 3包括: 应用行为事件分析、 页面点击 分析和用户行为路径分析建立 事项的跨岗位、 跨部门、 跨区属及并行关系。 7.如权利要求1所述的基于自然语言和用户行为分析的政务行业知识库的构建方法, 其特征在于, 所述步骤S3使用Apr iori算法对某段时间内的办事记录的办事序列进 行分析, 挖掘出频繁项集, 进行清洗后得到较大概率的关联办事序列, 从而得到业务逻辑上 的事项 关联。 8.如权利要求1所述的基于自然语言和用户行为分析的政务行业知识库的构建方法, 其特征在于, 所述步骤S4包括: 构建实体本体添加分类标签, 通过已有实体 关系经过计算机 推理建立 新的实体关系, 并配合定时任务, 确保知识库的时效性和可用性。权 利 要 求 书 1/1 页 2 CN 115510025 A 2基于自然语言和用户行为分析的政务行业知识库的构建 方法 技术领域 [0001]本发明涉及 一种知识库的构建方法, 尤其涉及一种基于自然语言和用户行为分析 的政务行业知识库的构建方法。 背景技术 [0002]政务行业知识库的建设以往都是通过人工的方式进行梳 理和更新, 获取的数据源 单一, 导致知识库内容的层次性和逻辑性有所欠缺, 人为干预的过多也造成了维护成本过 大, 数据更新往往不够及时, 无法保证知识的时效性, 往往建成一段时间后知识库整体的可 用性就变差, 因此需要引入了人工智能相关技术, 通过计算机的自学习 可及时快速的获取 全面多样的数据, 保证数据的完整性和有效性。 [0003]随着政务服务新变革, 本着为普通办事者提供更好的办事体验, 完善服务内容, 提 高办事效率, 综合服务窗口办理的要求被提出, 如何了解事项关系以便为综合窗口的设置 提供重要的信息又成了新的难题, 单纯的按事项办理的输入输出来建立事项组合或事件只 能建立串联关系, 人为经验的补充也只能完善岗位职责以内的数据, 跨岗位跨部门的数据 会被遗漏, 事项关系的认识 不全面, 进而导致设置的综合窗口服务内容和数量不合理; 因此 有必要加入用户行为, 引入更全面的事项并联关系, 以及跨岗位、 跨部门乃至跨区属信息, 提供全面的事项关系图, 可更全面、 合理的建立事项组合及事件、 设置综合服务窗口内容与 数量。 发明内容 [0004]本发明所要解决的技术问题是提供一种基于自然语言和用户行为分析的政务行 业知识库的构建方法, 能够快速、 有效地构建知识库, 并确保知识库在建成后能长期有效的 运营与更广泛 全面的应用。 [0005]本发明为解决上述技术问题而采用的技术方案是提供一种基于自然语言和用户 行为分析的政务行业知识库的构建方法, 包括如下步骤: S1)获取多种非结构化数据、 半结 构化数据与结构化数据, 获取方式来自第三方数据库、 手动上传的文件、 网页上抓取的数据 以及用户行为数据; S2)将非结构化数据和半结构化数据统一转化为结构化数据, 并进 行信 息抽取和数据融合处理, 生成事项分类和材料分类; S3)对用户行为数据进行分析, 建立事 项关系; S4)审查所有结果, 评估量 化知识的可信度, 存 储为可应用的知识。 [0006]进一步地, 所述步骤S1获取的数据包括采集办事指 南、 申报材料、 审批操作指 导手 册以及相关法律法规文件。 [0007]进一步地, 所述步骤S2使用基于B ERT的深度学习模型抽取实体、 实体属性、 实体与 实体之间的关系。 [0008]进一步地, 所述步骤S2抽取出< 实体,关系,实体>构成的三元组, 以实体为节点, 实 体与实体之间的关系为 边进行融合消歧操作, 将业 务上常用关系进行名称标准 化。 [0009]进一步地, 所述步骤S2还包括为事项和材料打标签, 梳理数据层次性和逻辑性, 并说 明 书 1/3 页 3 CN 115510025 A 3

.PDF文档 专利 基于自然语言和用户行为分析的政务行业知识库的构建方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于自然语言和用户行为分析的政务行业知识库的构建方法 第 1 页 专利 基于自然语言和用户行为分析的政务行业知识库的构建方法 第 2 页 专利 基于自然语言和用户行为分析的政务行业知识库的构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 04:00:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。