说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210547075.6 (22)申请日 2022.05.19 (71)申请人 西安建筑科技大 学 地址 710055 陕西省西安市碑林区雁塔路 13号 (72)发明人 王萌 叶娜 张翔 (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 专利代理师 陈翠兰 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/211(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种命名实体识别方法、 系统、 设备及存储 介质 (57)摘要 本发明公开了一种命名实体识别方法、 系 统、 设备及存储介质, 步骤 一, 构建BERT预训练语 言模型, 将中文语句输 出至BERT预训练语言模型 中, 输出具有语义特征表示的向量; 步骤二, 构建 BiLSTM神经网络模型, 将BERT预训练语言模型的 输出结果作为BiLSTM神经网络模型的输入; 步骤 三, 将BiLSTM神经网络模型的输出结果进行BIO 联合标注, 得到正确的标签, 进行标注后得到该 中文语句的命名实体识别结果。 有效提高了命名 实体识别任务中准确率。 权利要求书1页 说明书10页 附图3页 CN 114925695 A 2022.08.19 CN 114925695 A 1.一种命名实体识别方法, 其特 征在于, 包括以下步骤: 步骤一, 构 建BERT预训练语言模型, 将中文语句输出至BERT预训练语言模型中, 输出具 有语义特 征表示的向量; 步骤二, 构建BiLSTM神经网络模型, 将BERT预训练语言模型的输出结果作为BiLSTM神 经网络模型的输入; 步骤三, 将BiLSTM神经网络模型的输出结果进行BIO联合标注, 得到正确的标签, 进行 标注后得到该中文语句的命名实体识别结果。 2.根据权利要求1所述的命名实体识别方法, 其特征在于, 步骤三中, 对BiLSTM神经网 络模型的输出结果进 行BIO联合标注后, 在标签的基础上, 加入一层CRF约束, 然后进行反向 解码, 得到最优路径, 找到正确的标签。 3.根据权利要求2所述的命名实体识别方法, 其特征在于, 使用维比特算法进行反向解 码。 4.根据权利要求1所述的命名实体识别方法, 其特征在于, 步骤一中, BERT预训练语言 模型中中文语句的特 征向量表示包括词嵌入向量和位置编码。 5.根据权利要求1所述的命名实体识别方法, 其特征在于, 步骤一中, BERT预训练语言 模型包括输入层、 特 征向量层、 多头自注意力层、 残差网络层、 全连接层和输出层。 6.根据权利 要求1所述的命名实体识别方法, 其特征在于, BiLSTM神经网络模型由四层 组成, 依次为输入层、 前 向LSTM层、 反向LSTM层和输出层, 通过前 向LSTM层和反向LSTM层的 输出进行 连接表示作为Bi LSTM神经网络模型的结果输出。 7.根据权利要求6所述的命名实体识别方法, 其特征在于, 设t时刻前向LSTM层或反向 LSTM层的输入由三个部分组成, 分别为: 记忆单元ct‑1, 上一个单元的隐含层ht‑1和输入层 xt; 隐含层ht和记忆单元ct构成了t时刻该单元的输出; t时刻隐含层的计算流程: 先算出输 入门、 输出门和遗忘门的信息, 再计算出记忆单元内的信息, 最后由输出门和记忆单元的值 计算得到该时刻隐含层的值。 8.一种命名实体识别系统, 其特 征在于, 包括: BERT预训练语言模型模块, 用于构建BERT预训练语言模型, 将中文语句输出至BERT预 训练语言模型中, 输出 具有语义特 征表示的向量; BiLSTM神经网络模型模块, 用于构建BiLSTM神经网络模型, 将BERT预训练语言模型的 输出结果作为Bi LSTM神经网络模型的输入; 命名实体识别 模块, 用于将BiLSTM神经网络模型的输出结果进行BIO联合标注, 得到正 确的标签, 进行 标注后得到该中文语句的命名实体识别结果。 9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器 上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至 7任意一项所述命名实体识别方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处理器执行时实现如权利要求 1至7任意一项 所述命名实体识别方法 的步骤。权 利 要 求 书 1/1 页 2 CN 114925695 A 2一种命名实体识别方 法、 系统、 设 备及存储介质 技术领域 [0001]本发明属于信息抽取 领域, 涉及一种命名实体识别方法、 系统、 设备及存 储介质。 背景技术 [0002]命名实体识别是自然语言处理中的一项基本研究任务, 也是信息抽取的一个子任 务, 最早是在MUC-6会议上引入这一评测任务, 作为信息抽取技术的子课题供广大学者讨 论研究, 旨在识别出自然语言文本中的专有名词和有意 义的数量短语, 并加以分类。 [0003]通用领域的命名实体识别已经得到了广泛研究, 其识别方法可分为基于规则的方 法和基于统计的方法两大类。 基于规则的方法通过分析实体本身的词汇特征和短语的搭配 习惯, 人工构建规则集抽取预先定义的各种类别的实体, 需要 具备大量的专 业知识, 因此导 致召回率低、 可移植性差的问答。 基于统计的方法是从给定的、 己标注好的训练集出发, 定 义特征集合, 并应用学习算法训练统计模型, 完成命名实体识别。 目前常用的统计模型包括 支持向量机(S upportVectorMachine, SVM)、 隐马尔可夫(HiddenMarkovModel s, HMM)和条件 随机场(ConditionalRando mFields, CRFS)等, 但这些模型都需要人依 靠逻辑直觉和训练语 料中的统计信息手工设计出大量的特征, 其识别性能很大程度上依赖于所设计特征的准确 度。 发明内容 [0004]本发明的目的在于克服上述现有技术的缺点, 提供一种命名实体识别方法、 系统、 设备及存 储介质, 有效提高了命名实体识别任务中准确率。 [0005]为达到上述目的, 本发明采用以下技 术方案予以实现: [0006]一种命名实体识别方法, 包括以下步骤: [0007]步骤一, 构建B ERT预训练语言模型, 将中文语句输出至B ERT预训练语言模型中, 输 出具有语义特 征表示的向量; [0008]步骤二, 构建BiLSTM神经网络模型, 将BERT预训练语言模型的输出结果作为 BiLSTM神经网络模型的输入; [0009]步骤三, 将BiLSTM神经网络模型的输出结果进行BIO联合标注, 得到正确的标签, 进行标注后得到该中文语句的命名实体识别结果。 [0010]优选的, 步骤三中, 对BiLSTM神经网络模型的输出结果进行BIO联合标注后, 在标 签的基础上, 加入一层CRF约束, 然后进行反向解码, 得到最优路径, 找到正确的标签。 [0011]进一步, 使用维比特算法进行反向解码。 [0012]优选的, 步骤一中, BERT预训练语言模型中中文语句的特征向量表示包括词嵌入 向量和位置编码。 [0013]优选的, 步骤一中, BERT预训练语言模型包括输入层、 特征向量层、 多头自注意力 层、 残差网络层、 全连接层和输出层。 [0014]优选的, BiLSTM神经网络模型由四层组成, 依次为输入层、 前向LSTM层、 反向LSTM说 明 书 1/10 页 3 CN 114925695 A 3
专利 一种命名实体识别方法、系统、设备及存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-18 14:07:07
上传分享
举报
下载
原文档
(663.5 KB)
分享
友情链接
ISO-IEC-IEEE 29119-1 2022 Software and systems engineering - Software testing - Part 1 General concepts.pdf
ISO 22435 2024 Gas cylinders — Cylinder valves with integrated pressure regula.pdf
ISO 22662 2024 Milk and milk products — Determination of lactose content by.pdf
ISO 12224-1 2024 Solder wire solid and flux-cored Specification and test methods Part 1 Classification and performance requirements.pdf
ISO 21308-1 2018 Road vehicles Product data exchange between chassis and bodywork manufacturers (BEP) Part 1 General principles.pdf
ISO 603-9 2024 Bonded abrasive products — Dimensions — Part 9 Grinding wheels.pdf
ISO 7076-6 2016 Fire protection — Foam fire extinguishing systems — Part 6 Vehicle mounted compressed air foam systems.pdf
ISO IEC 26550 2015 Software and systems engineering — Reference model for product line engineering and management.pdf
ISO 13879 1999 Petroleum and natural gas industries — Content and drafting of a functional specification.pdf
ISO 13799 2020 Ships and marine technology Ship s mooring and towing fittings Recessed bitts (casting type).pdf
GB-T 20658-2006 原油和液体石油产品 粘稠烃的体积计量.pdf
GB-T 24136-2009 橡胶或塑料涂覆织物 耐液体性能的测定.pdf
GB-T 4167-2024 砝码.pdf
GB-T 41146-2021 绝缘液体取样方法.pdf
GB-T 21355-2022 无损检测 基于存储磷光成像板的工业计算机射线照相检测 系统分类.pdf
GB-T 17127.2-1997 农业轮式拖拉机和机具 三点悬挂挂接器 第2部分 A型框架式挂接器.pdf
GB-T 44452-2024 工业过程测量控制和自动化 系统和部件的生命周期管理.pdf
GB-T 12204-2010 金属切削 基本术语.pdf
GB-T 23129-2008 家用咖啡机性能测试方法.pdf
GB 9448-1999 焊接与切割安全.pdf
1
/
3
15
评价文档
赞助1.5元 点击下载(663.5 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。