专利一种应用于制造业科学技术文档的命名实体识别模型

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111643086.6 (22)申请日 2021.12.2 9 (71)申请人中云开源数据技术（上海）有限公司地址 200131 上海市浦东新区中国（上海）自由贸易试验区临港新片区环湖西一路99号主楼1 16A26室 (72)发明人王明浩　 (74)专利代理机构上海伯瑞杰知识产权代理有限公司 312 27 专利代理师俞磊 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/242(2020.01) G06F 40/247(2020.01) G06F 40/126(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/02(2006.01) (54)发明名称一种应用于制造业科学技术文档的命名实体识别模型 (57)摘要本发明公开了一种应用于制造业科学技术文档的命名实体识别模型，其网络结构包括词嵌入层SciBERT，其用于将输入的词转换为固定长度的向量； BiLSTM层，其利用文本序列的上下文信息挖掘隐藏特征，其用于编码文本；注意力层，其用于降低实体内部不相关修饰词的权重，界定实体的边界，避免重要实体抽取的遗漏； CRF层，其作为网络结构的输出层，用于避免文本序列中的实体被错误标注。本发明的命名实体识别模型能从文本中提取信息和生成知识，能解析制造领域中的产品设计文本数据、工程测试文本数据、供应商数据数据、维护记录数据和产品使用数据等各种与制造科学技术相当的文档，能为企业实现各种数据资产互连提供技术基础，是促进企业的数字化转型的关键。权利要求书2页说明书6页附图1页 CN 114510940 A 2022.05.17 CN 114510940 A 1.一种应用于制造业科学技术文档的命名实体识别模型，其特征在于，包括如下步骤： I.数据收集选取现有目标文本，构成训练命名实体识别模型的原始语料库； II.数据预处理去除原始语料库中的标点和停用词，执行词形还原，形成语料库对应的词典；人工定义若干种制造文本类别；并为词典中的每一个词分配一个制造文本类别标签；采用定制化的词表提取算法，用BIOES格式自动标注原始语料库； III.命名实体识别模型的网络结构 1)词嵌入层SciBERT，其用于将输入的词转换为固定长度的向量； 2)位于词嵌入层SciBERT之上的BiLSTM层，其利用文本序列的上下文信息挖掘隐藏特征，其用于编码文本； 3)位于BiLSTM层之上的注意力层，其用于降低实体内部不相关修饰词的权重，界定实体的边界，避免重要实体抽取的遗漏； 4)位于注意力层之上的CRF层，其作为网络结构的输出层，用于避免文本序列中的实体被错误标注； IV.命名实体识别模型的训练把第I步得到的原始语料库按70:20:10的比例划分，分别得到训练集、验证集和测试集；命名实体识别模型需要训练的参数包括SciBERT词嵌入参数、 BiLSTM的权重、注意力机制的权重、转移矩阵A和矩阵E；采用后向传播算法更新每一次训练的参数，每一次训练使用学习率为0.01的随机梯度下降算法SGD和值为5.0的梯度裁剪；用维度为100的单层前向 LSTM和后向LSTM实现BiLS TM；网络的失活率DropOut设置为0.5；共执行2 0次试验，每一次试验执行100个epoch，每一个epoc h执行500次iterati on， Batch size的大小为25 6； V.模型预测用第IV步训练好的命名实体识别模型对已准备好的测试集进行命名实体标注； VI.主题识别通过使用已训练好的命名实体识别模型寻找重点命名实体；其方法是：查找给定的段落文本中出现的命名实体的数量；若两个或多个实体的数量相等，将优先考虑段落中第一个识别的实体。 2.根据权利要求1所述的应用于制造业科学技术文档的命名实体识别模型，其特征在于，所述BiLSTM层利用文本序列的上下文信息挖掘隐藏特征的过程为： BiLSTM层计算每一个单词t处句子左边的上下文表示以及句子右边的上下文表示然后连接左边和右边的上下文表示得到表示单词t处的上下文信息。 3.根据权利要求1所述的应用于制造业科学技术文档的命名实体识别模型，其特征在于，所述注意力层的表示公式参见式(1) ‑式(3)； scoreki＝vTtanh(Whk+Uhi+b) (2)权　利　要　求　书 1/2 页 2 CN 114510940 A 2其中， αki是结点k和结点i之间的注意力分布， scoreki是结点k和结点i之间的注意力打分函数； v、 W和U是权重矩阵， hk是BiLSTM右边的上下文表示 hi是BiLSTM左边的上下文表示 C是注意力编码。 4.根据权利要求1所述的应用于制造业科学技术文档的命名实体识别模型，其特征在于，所述CRF层的原理如下：设X＝{x1， x2，…， xn‑1， xn}是输入的句子向量，注意力机制学得的特征向量为E＝{v1， v2，…， vn‑1， vn}， n是句子中词的个数；对一个预测序列注意力机制学得的特征向量Y＝{ y1， y2，…， yn}，则预测序列的得分计算公式可用公式(4)表示；其中， A是转移矩阵，表示从标签yi转移到标签yj的得分；表示第i个词是标签yi的得分；对于一个序列Y，在所有可能的标签序列上的softmax产生的一个概率如公式 (5)所示；命名实体识别模型训练时用公式(6)最大化正确标签序列；其中， YX表示句子X的所有可能的标签序列，解码时可获得得分最大的输出序列为最优的Y*就是从文本中自动标注得到的命名实体。权　利　要　求　书 2/2 页 3 CN 114510940 A 3

专利 一种应用于制造业科学技术文档的命名实体识别模型

专利一种应用于制造业科学技术文档的命名实体识别模型