专利一种基于知识图谱的文物问答系统与问答方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210018753.X (22)申请日 2022.01.09 (71)申请人西北大学地址 710069 陕西省西安市碑林区太白北路229号 (72)发明人贺小伟　冯强　 (74)专利代理机构西安西达专利代理有限责任公司 61202 专利代理师刘华 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06N 5/02(2006.01) (54)发明名称一种基于知识图谱的文物问答系统与问答方法 (57)摘要一种基于知识图谱的文物问答系统与问答方法，构建基于文物数据的知识图谱、高频查询问题展示、构建常见问题模板；对输入问题进行词嵌入，基于BERT的预训练模型、 BERT、 BILSTM、 CRF完成命名实体识别、关系抽取的过程，最终将相关实体与关系对应到问题查询模板，构建CQL 查询语句，接着再去到NEO4J表示的知识图谱中查询相关结果进行返回，最终显示给用户。该系统能够让游客更加了解相关文物的背景等相关延伸信息，提升用户浏览的感受。权利要求书2页说明书4页附图1页 CN 114490930 A 2022.05.13 CN 114490930 A 1.一种基于知识图谱的博物馆文物问答系统，其特征在于，包括以下组成：交互前端模块；构建文本预处理模块；构建匹配问题模块；构建知识图谱模块；所述的文本预处理模块包括分词模板、词性标注模板、命名实体识别模板；所述的匹配问题模块包括标注自然语言问句模板、关键部分替换模板、生成CQL语句模板；所述知识图谱模块包括文物数据爬取模板、数据整理模板、 NEO4J模板。 2.一种基于知识图谱的文物问答方法，其特征在于，包括以下步骤：步骤一，从原始网页中下载所有非结构化的文本信息，利用爬虫、正则表达式等技术提取所关注的信息，构建成为JSON文件，然后进行数据清理，最后再人工检查一次，确保数据没有问题，最终整理成为<实体一, 关系, 实体二>的形式数据存储到NEO4J表示的知识图谱中；步骤二，对用户输入的查询语句进行处理，基于BERT预训练模型的方式将文字表达为文本向量，最终再用基于BILSTM、 CRF的模型架构完成命名实体识别与关系抽取的任务，至此已经得到了实体一、实体二、关系；步骤三，由实体+关系的方式去构建构建常见问题模板；根究对应的问题模板生成CQL 到NEO4J中查询内容，并返回给前端展示。 3.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的对文物关系定义为：年代、产地、作者、作品、收藏地、好友、师徒、地址、家人、研究、藏品。 4.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的构建相关问句训练集，对其中实体、关系做标记，对问句使用BIO标记法进行标记。 5.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的使用 BERT完成w ord embeddings，讲文字转换成为数字向量。 6.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的对嵌入之后的矩阵使用BiLSTM，包括：前向LSTM，每个词通过遗忘门和输入门完成对上文重要信息的融合‘后向LSTM，每个词通过遗忘门和输入门完成对下文重要信息的融合； ’最终将前向与后向隐藏层表示的向量进行拼接融合。 7.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的由于 BiLSTM的输出有一些规则上本不允许的标注存在，将其输出作为CRF的输入从而将命名实体识别的规则加到序列标注过程中，以达到从所有输出结果中选取可能性最大的结果。 8.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的JSON 文件做以下处理，以备后序训练模型： 1）将所有实体、关系存储下来； 2）对所有实体与关系的组合构建问题模板，再把问句中的问答形式进行同义词替换等扩充，最终形成用于后序训练的问题数据集； 3）对上述产生的问题数据集按一定比例划分成为训练集与测试集。 9.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的建立权　利　要　求　书 1/2 页 2 CN 114490930 A 2BERT+BiLSTM+CRF的命名实体识别模型，具体训练步骤如下：一、 BERT 1）给字编号； 2）从embedding向量字典中查询相应字符的向量； 3）从句子中获取字的位置向量； 4）将2）、 3）两种的向量做加法； 5）使用自注意力机制获取每两个字符之间的距离结果； 6）使用多头注意力机制，重复计算N次步骤五，获得N个结果； 7）对六中的N结果进行拼接，再通过一个全连接层计算出最终结果； 8）对七中结果进行批归一化； 9）做残差链接，将四步中的向量与八步中的向量进行相加； 10）做一个前向传播网络，获得最终每个字符的字向量表示；二、 BiLSTM 将句子表示的向量矩阵输入前向LSTM，每个字符将得到融合上文信息的隐藏层向量表示，将句子表示的向量矩阵输入后向LSTM，每个字符将得到融合下文信息的隐藏层向量表示；最后将上下文的隐藏向量进行拼接，得到每个字符融合了上下文信息的向量表示；三、 CRF 将BiLSTM的输出向量经过CRF处理，得到概率最高的序列标注结果。权　利　要　求　书 2/2 页 3 CN 114490930 A 3

专利 一种基于知识图谱的文物问答系统与问答方法

专利一种基于知识图谱的文物问答系统与问答方法