专利一种合同文本命名实体识别方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111644252.4 (22)申请日 2021.12.2 9 (71)申请人航天科工网络信息发展有限公司地址 430040 湖北省武汉市临空港经济技术开发区五环大道6 66号(21) (72)发明人常远　孔雷　孟庆磊　孟笛　 (74)专利代理机构中国航天科工集团公司专利中心 11024 代理人葛鹏 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/211(2020.01) G06F 40/253(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种合同文本命名实体识别方法及系统 (57)摘要本发明涉及文本识别技术领域，具体涉及一种合同文本命名实体识别方法及模型。本发明的方法包括获取合同文本的语句序列；提取合同文本的语句序列的语法及语义特征，得到合同文本的词序列特征向量；对文本的词序列特征向量进行特征提取和特征融合，得到文本的预测标签；以及对预测标签进行修正处理，输出合同文本标签步骤。本发明的方法步骤均通过采用人工智能的深度学习方法识别合同文本的实体信息，不再需要耗费大量人力制定大量规则，且能够自动、高效识别出输入的合同文本中的命名实体信息，为后续文本分类、数据脱敏等任务提供准确的实体标签。权利要求书3页说明书7页附图1页 CN 114417872 A 2022.04.29 CN 114417872 A 1.一种合同文本命名实体识别方法，其特征在于，包括以下步骤：获取合同文本的语句序列；提取合同文本的语句序列的语法及语义特征，得到合同文本的词序列特征向量；对文本的词序列特征向量进行特征提取和特征融合，得到文本的预测标签；对预测标签进行修正处理，输出合同文本标签。 2.根据权利要求1所述的合同文本命名实体识别方法，其特征在于，所述提取合同文本的语句序列的语法及语义特征，得到合同文本的词序列特征向量；具体包括：将合同文本语句序列中的每个词汇或者字符映射为一个词向量或者字符向量，得到带有上下文信息及文本语义信息的词序列特征向量X＝(x1,x2,...,xn)；其中， xn是语句序列中文字的动态词特征向量，维度为d， i∈{1,2,3,. ..,n}。 3.根据权利要求2所述的合同文本命名实体识别方法，其特征在于，所述对文本的词序列特征向量进行特征提取和特征融合，得到文本的预测标签；具体包括： BiLSTM网络学习和 IDCNN网络学习； BiLSTM网络学习,将词序列特征向量传入BiLSTM网络，分别从左至右和从右至左对输入的序列数据进行学习，得到文本的前向特征和文本的后向特征；并将前向特征和后向特征进行拼接，得到文本的上下文特征，且基于上下文特征计算得到上下文特征序列； IDCNN网络学习,将上下文特征序列H通过卷积网络卷积处理，得到IDCNN网络的输入特征；将输入特征通过ID CNN网络的多个膨胀卷积块学习，分别输出多个膨胀卷积块的学习结果；并将多个膨胀卷积块的学习结果进行拼接，得到IDCNN网络的学习特征；将学习特征通过全连接层处理，输出文本的预测标签以及预测标签的打分分数。 4.根据权利要求3所述的合同文本命名实体识别方法，其特征在于，所述BiLSTM 网络学习中，前向特征和后向特征依据下列公式计算得到； it＝σ(Wxixt+Whiht‑1+Wcict‑1+bi)； ft＝σ(Wxfxt+Whfht‑1+Wcfct‑1+bf)； ct＝ftct‑1+it(Wxcxt+Whcht‑1+bc)； ot＝σ(Wxoxt+Whoht‑1+Wcoct+b0)； ht＝ottanh(ct)；其中， it为记忆门， ft为遗忘门， ct为细胞核， ot为输出门， ht为隐藏层， t指代输入第t个文本；前向特征hlt指从左至右学习计算得到的ht；后向特征hrt指从右至左学习计算得到的 ht； W为模型的参数； b为偏置向量； σ 为Sigmo id函数； tanh为双曲正切函数；上下文特征依据下列公式计算：式子中表示向量的拼接；上下文本特征序列依据下列公式计算： H＝(H1,H2,…HT) 其中， H1、 H2...HT均为上下文特征。 5.根据权利要求4所述的合同文本命名实体识别方法，其特征在于，所述IDCNN网络学习中，膨胀卷积块的结构依据下列公式表示：权　利　要　求　书 1/3 页 2 CN 114417872 A 2式中: 为第j层膨胀距离为δ 的膨胀卷积神经网络；为第j层网络卷积得到的特征 (j＞1)； r()表示ReLU激活函数； IDCNN网络的学习特征依据下列公式计算得到：其中， θ'＝[θ ′1， θ′2…， θ'N]为IDCNN网络的参数，为第n个膨胀卷积块的学习结果输出。 6.根据权利要求5所述的合同文本命名实体识别方法，其特征在于，所述对预测标签进行修正处理，输出合同文本标签；具体包括：将预测标签及预测标签的分数序列输入到 CRF模型中；引入状态转移矩阵处理预测标签，得到预测标签的打分分数；将状态转移矩阵和IDCNN网络学习两者得到的预测标签打分分数相加处理，得到文本对应的标签序列的分数；基于文本对应的标签序列的分数，计算标签序列分数的条件概率，并输出条件概率的似然函数最大时的预测标签作为输出合同文本标签。 7.根据权利要求6所述的合同文本命名实体识别方法，其特征在于，所述将状态转移矩阵和IDCNN网络学习两者得到的预测标签打分分数相加处理，得到文本对应的标签序列的分数；基于文本对应的标签序列的分数，计算标签序列分数的条件概率，并输出条件概率的似然函数最大的标签作为合同文本标签；具体包括：对于输入的词序列特征向量X＝(x1,x2,...,xn)，其对应的预测序列为Y＝(y1,y2,…… yn)，通过计算Y的评分函数，得到预测序列Y产生的概率；预测序列Y的评分函数为：其中， A表示状态转移矩， Ayi， yi+1表示连续两个标签， yi转移到yi+1的分数； P为IDCNN网络全连接层输出的得分矩阵， Pi， yi表示第i个标签对应的标签分数yi；预测标签Y产生的概率依据下列公式计算: 其中，表示真实的标注序列， YX表示所有可能的标注序列；预测序列产生概率的似然函数依据下列公式计算:权　利　要　求　书 2/3 页 3 CN 114417872 A 3

专利 一种合同文本命名实体识别方法及系统

专利一种合同文本命名实体识别方法及系统