说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210853365.3 (22)申请日 2022.07.08 (71)申请人 中国科学院空间应用工程与技 术中 心 地址 100094 北京市海淀区邓庄南路9号 (72)发明人 李盛阳 龚帅 刘云飞  (74)专利代理 机构 北京轻创知识产权代理有限 公司 11212 专利代理师 李昆蔚 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 5/02(2006.01) (54)发明名称 一种航天文本数据的实体识别与链接方法、 系统 (57)摘要 本发明公开了一种航天文本数据的实体识 别与链接方法、 系统, 涉及航天中文信息检索领 域。 该方法包括: 根据输入的航天文本数据获得 的特征向量矩阵结合复杂长序列的编码结果, 对 定位后的特征向量矩阵进行解码, 获得航天文本 数据的指称集合, 对指称集合和预设知识库的实 体表示分别进行编码, 通过双编码器模型对编码 后的指称集合进行处理, 再通过双编码器模型获 得实体特征表示, 并生成候选实体, 将候选实体 通过交叉编码器模型输出指称实体集合, 以获得 航天文本 数据的实体识别和链接结果, 解决了复 杂长序列专业术语识别精度不高、 实体链接速度 缓慢、 链接精度低等难点问题, 有效提高了在空 间科学与应用领域的实体识别与链接的效率。 权利要求书2页 说明书18页 附图5页 CN 115422934 A 2022.12.02 CN 115422934 A 1.一种航天文本数据的实体识别与链接方法, 其特 征在于, 包括: S1, 根据输入的航天文本数据获得文本向量矩阵; S2, 根据所述文本向量矩阵获得 所述航天文本数据的特 征向量矩阵; S3, 将分类后的特征向量矩阵结合所述航天文本数据的复杂长序列的编码结果, 对所 述复杂长序列进行 特征定位, 获得定位后的特 征向量矩阵; S4, 通过归一化指数函数结合条件随机场, 对所述定位后的特征向量矩阵进行解码, 获 得所述航天文本数据的指称集 合; S5, 对所述指称集合和预设知识库的实体表示分别进行编码, 获得编码后的指称集合 和编码后的实体表示; S6, 通过双编码器模型对编码后的指称集合进行处理, 获得指称上下文特征表示, 通过 双编码器模型对编码后的实体进行处 理, 获得实体特 征表示; S7, 通过预设方法对所述指称上下文特征表示和所述实体特征表示进行处理, 生成候 选实体, 并对所述候选实体使用交叉编 码器模型进 行重排序, 输出指称实体集合, 以获得所 述航天文本数据的实体识别和链接结果。 2.根据权利要求1所述的一种航天文本数据的实体识别与链接方法, 其特征在于, 所述 S2, 具体包括: 通过编码器对维度变换后的所述文本向量矩阵进行处理, 获得所述航天文本数据的特 征向量矩阵。 3.根据权利要求1或2所述的一种航天文本数据的实体识别与链接方法, 其特征在于, 所述S3之前, 还 包括: 通过前馈神经网络对所述特 征向量矩阵进行字符分类, 获得分类后的特 征向量矩阵。 4.根据权利要求1所述的一种航天文本数据的实体识别与链接方法, 其特征在于, 所述 S3之前, 还包括: 对所述航 天文本数据进 行长实体编码, 获得所述航 天文本数据的复杂长序 列的编码结果。 5.根据权利要求1所述的一种航天文本数据的实体识别与链接方法, 其特征在于, 所述 S6之前, 还 包括: 将所述指称集合和预设知识库的实体表示分别进行编码, 获得编码后的指称集合和编 码后的实体表示; 通过编码后的指称集 合对双编码器进行训练, 获得双编码器模型。 6.根据权利要求1所述的一种航天文本数据的实体识别与链接方法, 其特征在于, 所述 S2之前, 还 包括: 将所述文本向量矩阵变换成预设维度的文本向量矩阵, 获得维度变换后的文本向量矩 阵; 所述根据所述文本向量矩阵获得 所述航天文本数据的特 征向量矩阵, 具体包括: 根据所述维度变换后的文本向量矩阵获得 所述航天文本数据的特 征向量矩阵。 7.根据权利要求1所述的一种航天文本数据的实体识别与链接方法, 其特征在于, 所述 S7具体包括: 通过点积法对所述指称上 下文特征表示和所述实体特 征表示进行处 理; 通过交叉编码对候选实体进行重排序, 根据排序结果输出指称实体集合, 以获得所述权 利 要 求 书 1/2 页 2 CN 115422934 A 2航天文本数据的实体识别和链接结果。 8.一种航天文本数据的实体识别与链接系统, 其特征在于, 包括: 向量表示模块、 特征 提取模块、 定位模块、 解码模块、 编码模块、 识别处 理模块和链接模块; 所述向量表示模块用于根据输入的航天文本数据获得文本向量矩阵; 所述特征提取模块用于根据所述文本向量矩阵获得所述航天文本数据的特征向量矩 阵; 所述定位模块用于将分类后的特征向量矩阵结合所述航天文本数据的复杂长序列的 编码结果, 对所述复杂长序列进行 特征定位, 获得定位后的特 征向量矩阵; 所述解码模块用于通过归一化指数函数结合条件随机场, 对所述定位后的特征向量矩 阵进行解码, 获得 所述航天文本数据的指称集 合; 所述编码模块用于对所述指称集合和预设知识库的实体表示分别进行编码, 获得编码 后的指称集 合和编码后的实体表示; 所述识别处理模块用于通过双编码器模型对编码后的指称集合进行处理, 获得指称上 下文特征表示, 通过双编码器模型对编码后的实体进行处 理, 获得实体特 征表示; 所述链接模块用于通过预设方法对所述指称上下文特征表示和所述实体特征表示进 行处理, 生成候选实体, 并对所述候选实体使用交叉编 码器模型进行重排序, 输出指称实体 集合, 以获得 所述航天文本数据的实体识别和链接结果。 9.根据权利要求8所述的一种航天文本数据的实体识别与链接系统, 其特征在于, 所述 特征提取模块, 具体用于通过编码器对维度变换后的所述文本 向量矩阵进行处理, 获得所 述航天文本数据的特 征向量矩阵。 10.根据权利要求8 或9所述的一种航天文本数据的实体识别与链接系统, 其特征在于, 还包括: 字符分类模块, 用于通过前馈神经网络对 所述特征向量矩阵进 行字符分类, 获得分 类后的特 征向量矩阵。权 利 要 求 书 2/2 页 3 CN 115422934 A 3

.PDF文档 专利 一种航天文本数据的实体识别与链接方法、系统

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种航天文本数据的实体识别与链接方法、系统 第 1 页 专利 一种航天文本数据的实体识别与链接方法、系统 第 2 页 专利 一种航天文本数据的实体识别与链接方法、系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。