说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111643086.6 (22)申请日 2021.12.2 9 (71)申请人 中云开源数据技 术 (上海) 有限公司 地址 200131 上海市浦东 新区中国 (上海) 自由贸易试验区临港新片区环湖西一 路99号主楼1 16A26室 (72)发明人 王明浩  (74)专利代理 机构 上海伯瑞杰知识产权代理有 限公司 312 27 专利代理师 俞磊 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/242(2020.01) G06F 40/247(2020.01) G06F 40/126(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/02(2006.01) (54)发明名称 一种应用 于制造业科学技术文档的命名实 体识别模型 (57)摘要 本发明公开了一种应用于制造业科学技术 文档的命名实体识别模型, 其网络结构包括词嵌 入层SciBERT, 其用于将输入的词转换为固定长 度的向量; BiLSTM层, 其利用文本序列的上下文 信息挖掘隐藏特征, 其用于编码文本; 注意力层, 其用于降低实体内部不相关修饰词的权重, 界定 实体的边界, 避免重要实体抽取的遗漏; CRF层, 其作为网络结构的输出层, 用于避免文本序列中 的实体被错误标注。 本发明的命名实体识别模型 能从文本中提取信息和生 成知识, 能解析制造领 域中的产品设计文本数据、 工程测试文本数据、 供应商数据数据、 维护记录数据和产品使用数据 等各种与制造科学技术相当的文档, 能为企业实 现各种数据资产互连提供技术基础, 是促进企业 的数字化 转型的关键 。 权利要求书2页 说明书6页 附图1页 CN 114510940 A 2022.05.17 CN 114510940 A 1.一种应用于制造业科 学技术文档的命名实体识别模型, 其特 征在于, 包括如下步骤: I.数据收集 选取现有目标文本, 构成训练命名实体识别模型的原 始语料库; II.数据预处 理 去除原始语料库中的标点和停用词, 执行词形还原, 形成语料库对应的词典; 人工定义 若干种制 造文本类别; 并为词典中的每一个词分配一个制 造文本类别标签; 采用定制化的 词表提取算法, 用BIOES格式自动标注 原始语料库; III.命名实体识别模型的网络结构 1)词嵌入层SciBERT, 其用于将输入的词转换为固定 长度的向量; 2)位于词 嵌入层SciBERT之上的BiLSTM层, 其利用文本序列的上下文信息挖掘隐藏特 征, 其用于编码文本; 3)位于BiLSTM层之上的注意力层, 其用于降低实体内部不相 关修饰词的权重, 界定实 体的边界, 避免重要实体抽取的遗漏; 4)位于注意力层 之上的CRF层, 其作为网络结构的输出层, 用于避免文本序列中的实体 被错误标注; IV.命名实体识别模型的训练 把第I步得到的原始语料库按70:20:10的比例划分, 分别得到训练集、 验证集和测试 集; 命名实体识别模型需要训练的参数包括SciBERT词嵌入参数、 BiLSTM的权重、 注意力机 制的权重、 转移矩阵A和矩阵E; 采用后向传播算法更新每一次训练的参数, 每一次训练使用 学习率为0.01的随机梯度下降算法SGD和值为5.0的梯度裁剪; 用维度为100的单层前向 LSTM和后向LSTM实现BiLS TM; 网络的失活率DropOut设置为0.5; 共执行2 0次试验, 每一次试 验执行100个epoch, 每一个epoc h执行500次iterati on, Batch size的大小为25 6; V.模型预测 用第IV步训练好的命名实体识别模型对已准备好的测试集进行命名实体标注; VI.主题识别 通过使用已训练好的命名实体识别模型寻找重点命名实体; 其方法是: 查找给定的段 落文本中出现的命名实体的数量; 若两个或多个实体的数量相等, 将优先考虑段落中第一 个识别的实体。 2.根据权利要求1所述的应用于制造业科学技术文档的命名实体识别模型, 其特征在 于, 所述BiLSTM层利用文本序列的上下文信息挖掘隐藏特征的过程为: BiLSTM层计算每一 个单词t处句子左边的上下文表示 以及句子右边的上下文表示 然后连接左边和右边 的上下文表示得到 表示单词t处的上 下文信息 。 3.根据权利要求1所述的应用于制造业科学技术文档的命名实体识别模型, 其特征在 于, 所述注意力层的表示公式参见式(1) ‑式(3); scoreki=vTtanh(Whk+Uhi+b)            (2)权 利 要 求 书 1/2 页 2 CN 114510940 A 2其中, αki是结点k和结点i之间的注意力分布, scoreki是结点k和结点i之间的注意力打 分函数; v、 W和U是权重矩阵, hk是BiLSTM右边的上下文表示 hi是BiLSTM左边的上下文表 示 C是注意力编码。 4.根据权利要求1所述的应用于制造业科学技术文档的命名实体识别模型, 其特征在 于, 所述CRF层的原理如下: 设X={x1, x2,…, xn‑1, xn}是输入的句子向量, 注意力机制学得的特征向量为E={v1, v2,…, vn‑1, vn}, n是句子中词的个数; 对一个预测序列注意力机制学得的特征 向量Y={ y1, y2,…, yn}, 则预测序列的得分计算公式可用公式(4)表示; 其中, A是转移矩阵, 表示从标签yi转移到标签yj的得分; 表示第i个词是标 签yi的得分; 对于一个序列Y, 在所有可能的标签序列上的softmax产生的一个概率如公式 (5)所示; 命名实体识别模型训练时用公式(6)最大化 正确标签序列; 其中, YX表示句子X的所有可能的标签序列, 解码时可获得得分最大的输出序列为 最优的Y*就是从文本中自动标注得到的命名实体。权 利 要 求 书 2/2 页 3 CN 114510940 A 3

.PDF文档 专利 一种应用于制造业科学技术文档的命名实体识别模型

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种应用于制造业科学技术文档的命名实体识别模型 第 1 页 专利 一种应用于制造业科学技术文档的命名实体识别模型 第 2 页 专利 一种应用于制造业科学技术文档的命名实体识别模型 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:55:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。