专利基于迁移学习的基地命名实体识别系统及方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111652819.2 (22)申请日 2021.12.3 0 (71)申请人中国人民解放军海军工程大学地址 430000 湖北省武汉市解放大道717号 (72)发明人马良荔　覃基伟　李陶圆　何智勇　牛敬华　 (74)专利代理机构武汉开元知识产权代理有限公司 42104 代理人李满 (51)Int.Cl. G06F 16/2455(2019.01) G06F 40/295(2020.01) G06F 40/284(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于迁移学习的基地命名实体识别系统及方法 (57)摘要本发明公开了基于迁移学习的基地命名实体识别方法，包括如下步骤： 1、对基地数据进行采集和预处理，并根据需要预定义实体类型； 2、对基地数据进行标注； 3、获取开源的迁移学习模型； 4、对本发明所述模型进行训练； 5、进行命名实体识别。本发明通过迁移学习使得模型利用额外的海量数据进行预先的自监督训练，解决了传统深度学习模型需要海量标注训练数据的限制，同时运用泛化能力较强的Bi GRU模型编码实体的上下文信息，在人为干预较少的情况下实现更准确的基地命名实体预测，为后续知识图谱的自动化构建提供了技术支持。权利要求书4页说明书8页附图6页 CN 114356990 A 2022.04.15 CN 114356990 A 1.一种基于迁移学习的基地命名实体识别方法，其特征在于：它包括如下步骤：步骤1：从互联网获取基地的自然语言描述语料，并对自然语言描述语料进行预处理，从而去除图片描述信息和HTML标签信息，并统一描述属性值的单位；步骤2：对预处理之后的自然语言描述语料随机划分成测试集、验证集和训练集，运用 BIOES格式标注方式对测试集的自然语言描述语料、验证集的自然语言描述语料和训练集的自然语言描述语料进行实体标注，形成BIOES标注格式的测试集、验证集、训练集；步骤3：获取开源的迁移学习ALBERT模型，通过基地的自然语言描述语料，使用 finetune方式更新开源的迁移学习ALBERT模型，得到更新后的迁移学习ALBERT层；步骤4：利用更新后的迁移学习 ALBERT层、 BiGRU编码层和CRF约束层构建基地命名实体识别模型，使用BIOES标注格式的测试集、验证集和训练集作为基地命名实体识别模型的训练数据集对基地命名实体识别模型进行训练，在训练过程中，使用准确率、召回率、 F1值作为训练评价指标，通过不断的迭代拟合，得到训练好的基地命名实体识别模型；步骤5：利用训练好的基地命名实体识别模型对用户上传的语句进行识别，得到上传语句对应的BIOES格式标注。 2.根据权利要求1所述的基于迁移学习的基地命名实体识别系统，其特征在于：所述步骤1中，使用基于Python的爬虫Selenium根据基地名称列表爬取新闻稿，得到新闻稿未处理合集；筛查新闻稿未处理合集的内容，在新闻稿未处理合集中选取基地名称、基地位置、基地负责地区的名称、基地武器装备的名称、基地驻扎部队的名称、基地内建筑设施的名称、基地内建筑设施的编号、基地内各建筑设施的位置、基地评价；使用基于Python的爬虫Selenium根据基地名称列表爬取维基百科和/或百度百科中的基地描述信息，从而获取基地名称、基地位置、基地负责地区的名称、基地武器装备的名称、基地驻扎部队的名称、基地内建筑设施的名称、基地内建筑设施的编号、基地内各建筑设施的位置、基地评价；通过新闻稿以及维基百科和/或百度百科中获取的基地物理设施、基地位置、基地人员情况、基地武器装备信息构成基地的自然语言描述语料。 3.根据权利要求1所述的基于迁移学习的基地命名实体识别系统，其特征在于：所述步骤2中， BIOES标注格式的测试集、验证集、训练集内自然语言描述语料的基地描述信息按刻画基地特点的预设基地描述分类进行基地描述类别标注，并对基地描述信息进行字符排序标注。 4.根据权利要求1所述的基于迁移学习的基地命名实体识别系统，其特征在于：所述步骤3中， BIOES标注格式的训练集作为基地命名实体识别模型拟合的数据样本， BIOES标注格式的验证集用来评估基地命名实体识别模型当前的训练状态， BIOES标注格式的测试集对训练好的基地命名实体识别模型的泛化性能做出评价。 5.根据权利要求1所述的基于迁移学习的基地命名实体识别系统，其特征在于：所述步骤5中，训练好的基地命名实体识别模型中更新后的迁移学习ALBERT层对用户上传的语句中的每一个字符映射成分布式字符向量；训练好的基地命名实体识别模型的BiGRU编码层使用BiGRU网络对迁移学习ALBERT层输出的分布式字符向量进行编码，形成多维字符向量；训练好的基地命名实体识别模型的CRF解码层对BiGRU编码层输出的多维字符向量进权　利　要　求　书 1/4 页 2 CN 114356990 A 2行解码，并根据BIOES标注格式的隐含顺序关系进行约束，计算得到符合要求的标签标注顺序，得到上传语句对应的BIOES格式标注。 6.根据权利要求1所述的基于迁移学习的基地命名实体识别系统，其特征在于：所述步骤4中，准确率P、召回率R、 F1值的计算公式为：其中， TP代表正确预测的实体个数， FN代表正例预测为负例的实体个数， FP代表将负例预测为正例的实体个数， outPredictTrue表示预测为正的样本数， outAllTrue表示样本中所有的正样本数， F1值为P值和R值的调和平均值，用于平衡两个指标的占比。 7.根据权利要求1所述的基于迁移学习的基地命名实体识别系统，其特征在于：所述步骤5中，上传语句对应的BIOES格式标注为Json格式，使用Python编程语言中Json模块的 loads函数将Json文件解析，在Web前端展示训练好的基地命名实体识别模型预测的实体字符串和实体类型。 8.根据权利要求5所述的基于迁移学习的基地命名实体识别系统，其特征在于： BiGRU 编码层由实体前向和后向两个方向的GRU模型组合而成，一个GRU 单元包括重置门、更新门，其详细计算公式如下： z(t)＝σ(W(z)x(t)+U(z)h(t‑1)) (4) r(t)＝σ(W(r)x(t)+U(r)h(t‑1)) (5) 其中， σ 代表激活函数Sigmoid，用于将函数数值压缩到区间(0,1)， z表示更新门， r表示重置门， t表示单位时间， *表示哈达马积，即矩阵中对应的元素相乘， tanh表示tan激活函数，用于将函数数值压缩在区间( ‑1,1)； z(t)表示t时刻更新门z的输出， W(z)表示t时刻，更新门z的输入向量x的权重矩阵， U(z)表示t时刻，更新门z的隐含层向量h的权重矩阵， h(t‑1)表示t‑1时刻的隐含层向量， r(t)表示t时刻重置门r的的输出， W(r)表示t时刻，重置门r的输入向量x的权重矩阵， U(r)表示t时刻，重置门r的隐含层向量h的权重矩阵，表示t时刻的候选隐藏状态， h(t)表示t时刻的隐藏状态；分布式字符向量x(t)正向输入上述公式4中，获取实体前向GRU在t时刻的输出再将分布式字符向量x(t)反向输入到公式4中，获取实体后向GRU在t时刻的输出然后将同一位置的正向和反向隐状态层的输出进行拼接，得到t时刻的BiGRU输出ht，权　利　要　求　书 2/4 页 3 CN 114356990 A 3

专利 基于迁移学习的基地命名实体识别系统及方法

专利基于迁移学习的基地命名实体识别系统及方法