说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210547070.3 (22)申请日 2022.05.19 (71)申请人 西安建筑科技大 学 地址 710055 陕西省西安市碑林区雁塔路 13号 (72)发明人 王萌 叶娜 张翔  (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 专利代理师 陈翠兰 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 40/211(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称 一种中文问答信息抽取方法、 系统、 设备及 存储介质 (57)摘要 本发明公开了一种中文问答信息抽取方法、 系统、 设备及存储介质, 对中文问句进行划分, 根 据划分分类, 建立Bert模型, 将中文问句输入至 Bert模型中, 输出得到中文问句分类结果标签; 基于中文问句分类结果标签对问句进行命名实 体识别, 找出问句对应的实体; 对实体进行特征 划分, 采用XGBOOST模型根据划分的特征对每个 相关实体进行得分计算, 将得分第一的实体作为 最终实体链接得到的实体; 将实体对应的候选关 系集合构建成句子形式, 对其与相应的中文问句 做句子间的语义 关系相似度计算任务, 采用BERT 模型对任务进行训练, 最后输出得分最高的作为 问答对最优语义关系路径。 使原始数据集语料表 示经过逐层变换和抽象后得到优化。 权利要求书2页 说明书11页 附图3页 CN 115357692 A 2022.11.18 CN 115357692 A 1.一种中文问答信息抽取 方法, 其特 征在于, 包括以下步骤: S1, 对中文问句进行划 分, 根据划 分分类, 建立Bert模型, 将中文问句输入至Bert模型 中, 输出得到中文问句分类结果标签; S2, 基于中文问句分类结果标签对问句进行命名实体识别, 找出问句对应的实体; S3, 对实体进行特征划分, 采用XGBOOST模型根据划分的特征对每个相关实体进行得分 计算, 将得分第一的实体作为 最终实体链接得到的实体; S4, 将实体对应的候选关系集合构建成句子形式, 对其与相应的中文问句做句子间的 语义关系相似度计算任务, 采用BERT模型对任务进行训练, 最后输出得分最高的作为问答 对最优语义关系路径。 2.根据权利要求1所述的中文问答信息抽取方法, 其特征在于, S1中, 将中文问句划分 为直接结果 导向型和间接结果 导向型两类。 3.根据权利要求1所述的中文问答信息抽取方法, 其特征在于, S1中, BERT模型包括三 层表征向量, 依次为字向量 嵌入、 位置向量嵌入和分段向量嵌入, 将一个问句语句序列作为 模型的输入, 通过BERT模型的三层表征向量, 最后经过Softmax预测各个类别的概率, 其中 概率最大的类别最 为最后的输出类别标签Clas sLabel。 4.根据权利要 求2所述的中文问答信息抽取方法, 其特征在于, BERT模型中, T okenn表示 第n个随机遮挡的部分字符, En表示第n个Token的嵌入向量, Tn表示第n个Token在 经过BERT 模型处理后的特 征向量。 5.根据权利要求1所述的中文问答信息抽取方法, 其特征在于, S3中, 特征划分为实体 提及的初始分、 实体提及的长度、 实体提及的长度占问句的长度比、 实体对应的排名、 实体 对应的排名的倒数、 问句和实体的语义相似度、 问句和实体后缀的语义相似度、 问句和实体 后缀的杰卡德系数、 问句和实体候选关系的最大语义相似度和问句和实体候选 关系的最大 杰卡德系数。 6.根据权利要求1所述的中文问答信息抽取方法, 其特征在于, S3中, 得分计算的内容 为标签为 正确标签的概 率得分。 7.根据权利要求1所述的中文问答信息抽取方法, 其特征在于, S4中, 构建候选三元组 句子对的过程为: 将候选 关系集构建成句子形式, 尾部用<PAD>泛化便签保持与中文问句长 度一致。 8.一种中文问答信息抽取系统, 其特 征在于, 包括: 分类模块, 用于对中文问句进行划分, 根据划分分类, 建立Bert模型, 将中文问句输入 至Bert模型中, 输出 得到中文问句分类结果标签; 实体获取模块, 用于基于中文问句分类结果标签对问句进行命名实体识别, 找出问句 对应的实体; 实体链接确认模块, 用于对实体进行特征划分, 采用XGBOOST模型根据划分的特征对每 个相关实体进行 得分计算, 将得分第一的实体作为 最终实体链接得到的实体; 最优语义关系获取模块, 用于将实体对应的候选关系集合构建成句子形式, 对其与相 应的中文问句做句子间的语义关系相似度计算任务, 采用BERT模型对任务进行训练, 最后 输出得分最高的作为问答对最优语义关系路径。 9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器权 利 要 求 书 1/2 页 2 CN 115357692 A 2上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至 7任意一项所述中文问答信息抽取 方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处理器执行时实现如权利要求 1至7任意一项 所述中文问答信息抽取 方法的步骤。权 利 要 求 书 2/2 页 3 CN 115357692 A 3

.PDF文档 专利 一种中文问答信息抽取方法、系统、设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种中文问答信息抽取方法、系统、设备及存储介质 第 1 页 专利 一种中文问答信息抽取方法、系统、设备及存储介质 第 2 页 专利 一种中文问答信息抽取方法、系统、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:06:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。