说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111652819.2 (22)申请日 2021.12.3 0 (71)申请人 中国人民解 放军海军工程大 学 地址 430000 湖北省武汉市解 放大道717号 (72)发明人 马良荔 覃基伟 李陶圆 何智勇  牛敬华  (74)专利代理 机构 武汉开元知识产权代理有限 公司 42104 代理人 李满 (51)Int.Cl. G06F 16/2455(2019.01) G06F 40/295(2020.01) G06F 40/284(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于迁移学习的基地命名实体识别系统及 方法 (57)摘要 本发明公开了基于迁移学习的基地命名实 体识别方法, 包括如下步骤: 1、 对基地数据进行 采集和预处理, 并根据需要预定义实体类型; 2、 对基地数据进行标注; 3、 获取开源的迁移学习模 型; 4、 对本发明所述模型进行训练; 5、 进行命名 实体识别。 本发 明通过迁移学习使得模型利用额 外的海量数据进行预先的自监督训练, 解决了传 统深度学习模 型需要海量标注训练数据的限制, 同时运用泛化能力较强的Bi GRU模型编码实体的 上下文信息, 在人为干预较少的情况下实现更准 确的基地命名实体预测, 为后续知识图谱的自动 化构建提供了技 术支持。 权利要求书4页 说明书8页 附图6页 CN 114356990 A 2022.04.15 CN 114356990 A 1.一种基于 迁移学习的基地命名实体识别方法, 其特 征在于: 它包括如下步骤: 步骤1: 从互联网获取基地的自然语言描述语料, 并对自然语言描述语料进行预处理, 从而去除图片描述信息和HTML标签信息, 并统一描述属性 值的单位; 步骤2: 对预处理之后的自然语言描述语料随机划分成测试集、 验证集和训练集, 运用 BIOES格式标注方式对测试集的自然语言描述语料、 验证集的自然语言描述语料和训练集 的自然语言描述语料进行实体标注, 形成BIOES标注格式的测试集、 验证集、 训练集; 步骤3: 获取开源的迁移学习ALBERT模型, 通过基地的自然语言描述语料, 使用 finetune方式更新 开源的迁移学习ALBERT模型, 得到更新后的迁移学习ALBERT层; 步骤4: 利用更新后的迁移学习 ALBERT层、 BiGRU编码层和CRF约束层构建基地命名实体 识别模型, 使用BIOES标注格式的测试集、 验证集和训练集作为基地命名实体识别模型的训 练数据集对基地命名实体识别模型进行训练, 在训练过程中, 使用准确率、 召回率、 F1值作 为训练评价指标, 通过不断的迭代拟合, 得到训练好的基地命名实体识别模型; 步骤5: 利用训练好的基地命名实体识别模型对用户上传的语句进行识别, 得到上传语 句对应的BIOES格式标注。 2.根据权利要求1所述的基于迁移学习的基地命名实体识别系统, 其特征在于: 所述步 骤1中, 使用基于Python的爬虫Selenium根据基地名称列表爬取新闻稿, 得到新闻稿未 处理 合集; 筛查新闻稿未处理合集的内容, 在新闻稿未处理合集中选取基地名称、 基地位置、 基 地负责地区的名称、 基地武器装备的名称、 基地驻扎部队的名称、 基地内建筑设施的名称、 基地内建筑设施的编号、 基地内各建筑设施的位置、 基地评价; 使用基于Python的爬虫Selenium根据基地名称列表爬取维基百科和/或百度百科中的 基地描述信息, 从而获取基地名称、 基地位置、 基地负责地区的名称、 基地武器装 备的名称、 基地驻扎部队的名称、 基地内建筑设施的名称、 基地内建筑设施的编号、 基地内各建筑设施 的位置、 基地评价; 通过新闻稿以及维基百科和/或百度百科中获取的基地物理设施、 基地位置、 基地人员 情况、 基地武器装备信息构成基地的自然语言描述语料。 3.根据权利要求1所述的基于迁移学习的基地命名实体识别系统, 其特征在于: 所述步 骤2中, BIOES标注格式的测试集、 验证集、 训练集内 自然语言描述语料的基地描述信息按刻 画基地特点的预设基地描述分类进行基地描述类别标注, 并对基地描述信息进行字符排序 标注。 4.根据权利要求1所述的基于迁移学习的基地命名实体识别系统, 其特征在于: 所述步 骤3中, BIOES标注格式的训练集作为基地命名实体识别模 型拟合的数据样 本, BIOES标注格 式的验证集用来评估基地命名实体识别模型当前的训练状态, BIOES标注格式的测试集对 训练好的基地命名实体识别模型的泛化 性能做出评价。 5.根据权利要求1所述的基于迁移学习的基地命名实体识别系统, 其特征在于: 所述步 骤5中, 训练好的基地命名实体识别模型中更新后的迁移学习ALBERT层对用户上传的语句 中的每一个字符映射成分布式字符向量; 训练好的基地命名实体识别模型的BiGRU编码层使用BiGRU网络对迁移学习ALBERT层 输出的分布式字符向量进行编码, 形成多维字符向量; 训练好的基地命名实体识别模型的CRF解码层对BiGRU编码层输出的多维字符向量进权 利 要 求 书 1/4 页 2 CN 114356990 A 2行解码, 并根据BIOES标注格式的 隐含顺序关系进 行约束, 计算得到 符合要求的标签标注 顺 序, 得到上传语句对应的BIOES格式标注。 6.根据权利要求1所述的基于迁移学习的基地命名实体识别系统, 其特征在于: 所述步 骤4中, 准确率P、 召回率R、 F1值的计算公式为: 其中, TP代表正确预测的实体个数, FN代表正例预测为负例的实体个数, FP代表将负例 预测为正例的实体个数, outPredictTrue表示预测为正的样本数, outAllTrue表示样本中 所有的正样本数, F1值 为P值和R值的调和平均值, 用于平衡两个指标的占比。 7.根据权利要求1所述的基于迁移学习的基地命名实体识别系统, 其特征在于: 所述步 骤5中, 上传语句对应的BIOES格式标注为Json格式, 使用Python编程语言中Json模块的 loads函数将Json文件解析, 在Web前端展示训练好的基地命名实体识别模 型预测的实体字 符串和实体 类型。 8.根据权利要求5所述的基于迁移学习的基地命名实体识别系统, 其特征在于: BiGRU 编码层由实体前向和 后向两个方向的GRU模 型组合而成, 一个GRU 单元包括重置门、 更新门, 其详细计算公式如下: z(t)=σ(W(z)x(t)+U(z)h(t‑1))    (4) r(t)=σ(W(r)x(t)+U(r)h(t‑1))    (5) 其中, σ 代表激活函数Sigmoid, 用于将函数数值压缩到区间(0,1), z表示更新门, r表示 重置门, t表示单位时间, *表示哈达马积, 即矩阵中对应的元素相乘, tanh表示tan激活函 数, 用于将函数 数值压缩在区间( ‑1,1); z(t)表示t时刻更新门z的输出, W(z)表示t时刻, 更新门z的输入向量x的权重矩阵, U(z)表 示t时刻, 更新门z的隐含层向量h的权重矩阵, h(t‑1)表示t‑1时刻的隐含层向量, r(t)表示t时 刻重置门r的的输出, W(r)表示t时刻, 重置门r的输入向量x的权重矩阵, U(r)表示t时刻, 重置 门r的隐含层向量h的权 重矩阵, 表示t时刻的候选隐藏状态, h(t)表示t时刻的隐藏状态; 分布式字符向量x(t)正向输入上述公式4中, 获取实体前向GRU在t时刻的输出 再将 分布式字符向量x(t)反向输入到公式4中, 获取实体后向GRU在t时刻的输出 然后将同一位置的正向和反向隐状态层的输出进行拼接, 得到t时刻的BiGRU输出ht,权 利 要 求 书 2/4 页 3 CN 114356990 A 3

.PDF文档 专利 基于迁移学习的基地命名实体识别系统及方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于迁移学习的基地命名实体识别系统及方法 第 1 页 专利 基于迁移学习的基地命名实体识别系统及方法 第 2 页 专利 基于迁移学习的基地命名实体识别系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:56:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。