(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111644252.4
(22)申请日 2021.12.2 9
(71)申请人 航天科工网络信息发展 有限公司
地址 430040 湖北省武汉市临 空港经济技
术开发区五环大道6 66号(21)
(72)发明人 常远 孔雷 孟庆磊 孟笛
(74)专利代理 机构 中国航天科工集团公司专利
中心 11024
代理人 葛鹏
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/211(2020.01)
G06F 40/253(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种合同文本命名实体识别方法及系统
(57)摘要
本发明涉及文本识别技术领域, 具体涉及一
种合同文本命名实体识别方法及模 型。 本发明的
方法包括获取合同文本的语句序列; 提取合同文
本的语句序列的语 法及语义特征, 得到合同文本
的词序列特征向量; 对文本的词序列特征向量进
行特征提取和特征融合, 得到文本的预测标签;
以及对预测标签进行修正处理, 输出合同文本标
签步骤。 本发 明的方法步骤均通过采用人工智能
的深度学习方法识别合同文本的实体信息, 不再
需要耗费大量人力制定大量规则, 且能够自动、
高效识别出输入的合同文本中的命名实体信息,
为后续文本分类、 数据脱 敏等任务提供准确的实
体标签。
权利要求书3页 说明书7页 附图1页
CN 114417872 A
2022.04.29
CN 114417872 A
1.一种合同文本命名实体识别方法, 其特 征在于, 包括以下步骤:
获取合同文本的语句序列;
提取合同文本的语句序列的语法及语义特 征, 得到合同文本的词序列特 征向量;
对文本的词序列特 征向量进行 特征提取和特 征融合, 得到文本的预测标签;
对预测标签进行修 正处理, 输出合同文本标签。
2.根据权利要求1所述的合同文本命名实体识别方法, 其特征在于, 所述提取合同文本
的语句序列的语法及语义特 征, 得到合同文本的词序列特 征向量; 具体包括:
将合同文本语句序列中的每个词汇或者字符映射为一个词向量或者字符 向量, 得到带
有上下文信息及文本语义信息的词序列特 征向量X=(x1,x2,...,xn);
其中, xn是语句序列中文字的动态词特 征向量, 维度为d, i∈{1,2,3,. ..,n}。
3.根据权利要求2所述的合同文本命名实体识别方法, 其特征在于, 所述对文本的词序
列特征向量进 行特征提取和特征融合, 得到文本的预测标签; 具体包括: BiLSTM网络学习和
IDCNN网络学习;
BiLSTM网络学习,将词序列特征向量传入BiLSTM网络, 分别从左至右和从右至左对输
入的序列数据进行学习, 得到文本的前向特征和文本的后向特征; 并将前向特征和后向特
征进行拼接, 得到文本的上 下文特征, 且基于上 下文特征计算得到上 下文特征序列;
IDCNN网络学习,将上下文特征序列H通过卷积网络卷积处理, 得到IDCNN网络的输入特
征; 将输入 特征通过ID CNN网络的多个膨胀卷积块学习, 分别输出多个膨胀卷积块的学习结
果; 并将多个膨胀卷积块的学习结果进行拼接, 得到IDCNN网络的学习特征; 将学习特征通
过全连接层处 理, 输出文本的预测标签以及预测标签的打 分分数。
4.根据权利 要求3所述的合同文本命名实体识别方法, 其特征在于, 所述BiLSTM 网络学
习中, 前向特 征和后向特 征依据下列公式计算得到;
it=σ(Wxixt+Whiht‑1+Wcict‑1+bi);
ft=σ(Wxfxt+Whfht‑1+Wcfct‑1+bf);
ct=ftct‑1+it(Wxcxt+Whcht‑1+bc);
ot=σ(Wxoxt+Whoht‑1+Wcoct+b0);
ht=ottanh(ct);
其中, it为记忆门, ft为遗忘门, ct为细胞核, ot为输出门, ht为隐藏层, t指代输入第t个
文本; 前向特征hlt指从左至右学习计算得到的ht; 后向特征hrt指从右至左学习计算得到的
ht; W为模型的参数; b为偏置向量; σ 为Sigmo id函数; tanh为双曲正切函数;
上下文特征依据下列公式计算:
式子中
表示向量的拼接;
上下文本特 征序列依据下列公式计算:
H=(H1,H2,…HT)
其中, H1、 H2...HT均为上下文特征。
5.根据权利要求4所述的合同文本命名实体识别方法, 其特征在于, 所述IDCNN网络学
习中, 膨胀卷积块的结构依据下列公式表示:
权 利 要 求 书 1/3 页
2
CN 114417872 A
2式中:
为第j层膨胀距 离为δ 的膨胀卷积神经网络;
为第j层网络 卷积得到的特征
(j>1); r()表示ReLU激活函数;
IDCNN网络的学习特 征依据下列公式计算得到:
其中, θ'=[θ ′1, θ′2…, θ'N]为IDCNN网络的参数,
为第n个膨胀卷积块的学习结
果输出。
6.根据权利要求5所述的合同文本命名实体识别方法, 其特征在于, 所述对预测标签进
行修正处理, 输出合同文本标签; 具体包括:
将预测标签及预测标签的分数序列输入到 CRF模型中;
引入状态转移 矩阵处理预测标签, 得到预测标签的打 分分数;
将状态转移矩阵和IDCNN网络学习两者得到的预测标签打分分数相加处理, 得到文本
对应的标签序列的分数;
基于文本对应的标签序列的分数, 计算标签序列分数的条件概率, 并输出条件概率的
似然函数最大时的预测标签作为输出合同文本标签。
7.根据权利要求6所述的合同文本命名实体识别方法, 其特征在于, 所述将状态转移矩
阵和IDCNN网络学习两者得到的预测标签打分分数相加处理, 得到文本对应的标签序列的
分数; 基于文本对应的标签序列的分数, 计算标签序列分数的条件概率, 并输出条件概率的
似然函数最大的标签作为 合同文本标签; 具体包括:
对于输入的词序列特征向量X=(x1,x2,...,xn), 其对应的预测序列为Y=(y1,y2,……
yn), 通过计算Y的评分函数, 得到预测序列Y产生的概 率;
预测序列Y的评分函数为:
其中, A表示状态转移矩, Ayi, yi+1表示连续两个标签, yi转移到yi+1的分数; P为IDCNN网
络全连接层输出的得分矩阵, Pi, yi表示第i个标签对应的标签分数yi;
预测标签Y产生的概 率依据下列公式计算:
其中,
表示真实的标注序列, YX表示所有可能的标注序列;
预测序列产生 概率的似然函数依据下列公式计算:权 利 要 求 书 2/3 页
3
CN 114417872 A
3
专利 一种合同文本命名实体识别方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:54:33上传分享