说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210018753.X (22)申请日 2022.01.09 (71)申请人 西北大学 地址 710069 陕西省西安市碑林区太白北 路229号 (72)发明人 贺小伟 冯强  (74)专利代理 机构 西安西达专利代理有限责任 公司 61202 专利代理师 刘华 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06N 5/02(2006.01) (54)发明名称 一种基于知识图谱的文物问答系统与问答 方法 (57)摘要 一种基于知识图谱的文物问答系统与问答 方法, 构建基于文物数据的知识图谱、 高频查询 问题展示、 构建常见问题模板; 对输入问题进行 词嵌入, 基于BERT的预训练模型、 BERT、 BILSTM、 CRF完成命名实体识别、 关系抽取的过程, 最终将 相关实体与关系对应到问题查询模板, 构建CQL 查询语句, 接着再去到NEO4J表示的知识图谱中 查询相关结果进行返回, 最终显示给用户。 该系 统能够让游客更加了解相关文物的背景等相关 延伸信息, 提升用户浏览的感受。 权利要求书2页 说明书4页 附图1页 CN 114490930 A 2022.05.13 CN 114490930 A 1.一种基于知识图谱的博物馆文物问答系统, 其特 征在于, 包括以下组成: 交互前端模块; 构建文本预处 理模块; 构建匹配问题模块; 构建知识图谱 模块; 所述的文本预处 理模块包括分词模板、 词性标注模板、 命名实体识别模板; 所述的匹配问题模块包括标注自然语言问句模板、 关键部分替换模板、 生成CQL语句模 板; 所述知识图谱 模块包括文物数据爬取模板、 数据整理模板、 NEO4J模板 。 2.一种基于知识图谱的文物问答方法, 其特 征在于, 包括以下步骤: 步骤一, 从原始网页中下载所有非结构化的文本信息, 利用爬虫、 正则表达 式等技术提 取所关注的信息, 构建成为JSON文件, 然后进行数据清理, 最后再人工检查一次, 确保数据 没有问题, 最终整理成为<实体一,  关系, 实体二>的形式数据存储到NEO4J表示的知识图 谱中; 步骤二, 对用户输入的查询语句进行处理, 基于BERT预训练模型的方式将文字表达为 文本向量, 最终再用基于BILSTM、 CRF的模型架构完成命名实体识别与关系抽取的任务, 至 此已经得到了实体一、 实体二、 关系; 步骤三, 由实体+关系的方式去构建构建常见问题模板; 根究对应的问题模板生成CQL 到NEO4J中查询内容, 并返回给 前端展示。 3.根据权利要求1所述的一种基于知识图谱的文物问答方法, 其特征在于, 所述的对文 物关系定义 为: 年代、 产地、 作者、 作品、 收藏 地、 好友、 师 徒、 地址、 家人、 研究、 藏品。 4.根据权利要求1所述的一种基于知识图谱的文物问答方法, 其特征在于, 所述的构建 相关问句训练集, 对其中实体、 关系做标记, 对问句使用BIO标记法进行 标记。 5.根据权利要求1所述的一种基于知识图谱的文物问答方法, 其特征在于, 所述的使用 BERT完成w ord embeddings, 讲文字转换成为数字向量。 6.根据权利要求1所述的一种基于知识图谱的文物问答方法, 其特征在于, 所述的对嵌 入之后的矩阵使用BiLSTM, 包括: 前向LSTM, 每个词通过遗忘门和输入门完成对 上文重要信 息的融合‘后向LSTM, 每个词 通过遗忘门和输入门完成对下文重要信息的融合; ’最终将前 向与后向隐藏层表示的向量进行拼接融合。 7.根据权利要求1所述的一种基于知识图谱的文物问答方法, 其特征在于, 所述的由于 BiLSTM的输出有一些规则 上本不允许的标注存在, 将其输出作为CRF的输入从而将命名实 体识别的规则加到序列标注过程中, 以达 到从所有输出 结果中选取 可能性最大的结果。 8.根据权利要求1所述的一种基于知识图谱的文物问答方法, 其特征在于, 所述的JSON 文件做以下处 理, 以备后序训练模型: 1) 将所有实体、 关系存 储下来; 2) 对所有实体与关系的组合构建 问题模板, 再把问句中的问答形式进行同义词替换等 扩充, 最终形成用于后序训练的问题数据集; 3) 对上述产生的问题数据集按一定比例划分成为训练集与测试集。 9.根据权利要求1所述的一种基于知识图谱的文物问答方法, 其特征在于, 所述的建立权 利 要 求 书 1/2 页 2 CN 114490930 A 2BERT+BiLSTM+CRF的命名实体识别模型, 具体训练步骤如下: 一、 BERT 1) 给字编号;  2) 从embedding向量字典中查询相应字符的向量;  3) 从句子中获取字的 位置向量;  4) 将2) 、 3) 两种的向量做加法;  5) 使用自注 意力机制获取每两个字 符之间的距 离结果; 6) 使用多头注 意力机制, 重复计算N次步骤五, 获得N个结果;  7) 对六中的N结果进 行拼接, 再通过一个全连接层计算出最 终结果; 8) 对七中结果进 行批归一化;  9) 做残差链 接, 将四步中的向量与八步中的向量进 行相加; 10) 做一个前向传播网络, 获得最 终每个字 符的字向量表示; 二、 BiLSTM 将句子表示的向量矩阵输入前向LSTM, 每个字符将得到融合上文信息的隐藏层向量表 示, 将句子表示的向量矩阵输入后向LSTM, 每个字符将得到融合下文信息的隐藏层向量表 示; 最后将上 下文的隐藏向量进行拼接, 得到每 个字符融合了上 下文信息的向量表示; 三、 CRF 将BiLSTM的输出向量经 过CRF处理, 得到概 率最高的序列标注结果。权 利 要 求 书 2/2 页 3 CN 114490930 A 3

.PDF文档 专利 一种基于知识图谱的文物问答系统与问答方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识图谱的文物问答系统与问答方法 第 1 页 专利 一种基于知识图谱的文物问答系统与问答方法 第 2 页 专利 一种基于知识图谱的文物问答系统与问答方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:52:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。