说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111641955.1 (22)申请日 2021.12.2 9 (71)申请人 北京工业大 学 地址 100124 北京市朝阳区平乐园10 0号 (72)发明人 何东之 张震 王鹏飞 孙亚茹  郭隆杭  (74)专利代理 机构 北京汇信合知识产权代理有 限公司 1 1335 代理人 孙民兴 (51)Int.Cl. G06F 40/295(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于笔画卷积和词 向量的中文命名实体识 别方法及系统 (57)摘要 本发明提供基于笔画卷积和词向量的中文 命名实体识别方法及系统, 涉及命名实体识别技 术领域, 包括: 获取文本中各汉字对应的笔画序 列及各汉字的字符特征向量; 将笔画序列输入笔 画卷积神经网络, 获取笔画特征向量; 根据文本 中实体的最大长度设置滑动窗口, 通过自注意力 机制获取每个字在滑动窗口内的词向量; 拼接文 本中各汉字的笔画特征向量、 词向量和字符特征 向量, 并输入BiLSTM网络, 获取每个汉字对应每 种实体标签的得分; 采用CRF模型对文本中每个 汉字确定一个最佳的实体标签。 本发 明考虑到汉 字的笔画序列对汉字的影 响, 结合汉字的笔画特 征向量、 词特征向量和字符特征向量后, 在进行 命名实体识别, 提高命名实体识别的效果。 权利要求书2页 说明书7页 附图3页 CN 114298047 A 2022.04.08 CN 114298047 A 1.基于笔画卷积和词向量的中文命名实体识别方法, 其特 征在于, 包括: 获取文本中各汉字对应的笔画序列及各汉字的字符特 征向量; 将所述笔画序列输入笔画卷积神经网络, 获取 笔画特征向量; 根据所述文本 中实体的最大长度设置滑动窗口, 通过自注意力 机制获取每个字在所述 滑动窗口内的词向量; 拼接所述文本中各汉字的所述笔画特征向量、 词向量和字符特征向量, 并输入BiLSTM 网络, 获取每 个汉字对应 每种实体标签的得分; 采用CRF模型对所述文本中每 个汉字确定一个最佳的所述实体标签。 2.根据权利要求1所述的中文命名实体识别方法, 其特征在于: 构建汉字到笔画序列的 映射表, 通过 所述映射表获取 各汉字对应的所述笔画序列。 3.根据权利要求1所述的中文命名实体识别方法, 其特征在于: 所述笔画卷积神经网络 通过不同窗口大小的卷积核对所述笔画序列进行 卷积, 获取 所述笔画特 征向量。 4.根据权利要求3所述的中文命名实体识别方法, 其特征在于: 所述笔画卷积神经网络 通过不同窗口大小的卷积核卷积得到笔画特征图, 将所述特征图进行最大池化和全连接, 得到笔画特 征向量, 公式为: 其中: w表示卷积神经网络训练中的权 重; Mt, t+k‑1表示输入的特 征; b表示卷积神经网络训练中的偏置 。 5.根据权利要求1所述的中文命名实体识别方法, 其特征在于: 所述笔画卷积神经网络 训练过程中加入分类损失函数L(cls): L(cls)= ‑log P(z|X)= ‑log softmax(w*semb) 其中, X表示输入的笔画序列; z表示该笔画序列对应的中文标签; w表示网络中的参数; semb表示笔画特 征向量。 6.根据权利要求1所述的中文命名实体识别方法, 其特征在于: 所述通过自注意力 机制 获取每个字在所述滑动窗口内的词向量; 包括: 通过所述自注意力机制计算所述滑动窗口内每两个字之间的相似度; 采用soffmax函数根据所述相似度获取每 个字在该 所述滑动窗口中的词向量。 7.根据权利要求6所述的中文命名实体识别方法, 其特 征在于: 对所述滑动窗口内的每个汉字, 根据所述字符特征向量生成对应的Query向量、 Key向 量和Value向量; 计算所述Query向量和Key向量的点积获取每个字的得分, 将所述得分与每个字的所述 Value向量相乘, 获取 该字在该 所述滑动窗口内的词向量。 8.根据权利要求1所述的中文命名实体识别方法, 其特征在于, 所述采用CRF模型对所权 利 要 求 书 1/2 页 2 CN 114298047 A 2述文本中每 个汉字确定一个最佳的所述实体标签; 包括: 定义输入文本的字序列为x=(x1, x2, ..., xn), 预测标签序列为y=(y1, y2, ..., yn); 定义 是BiLSTM网络模型输出的第i个字标注为标签yi的预测分值; 定义一个标签转移 矩阵 其中 表示从标签yi 转换为标签yi+1的分数; 通过 计算每种所述预测标签序列的最终得分; 将得分最高的所述预测标签序列作为最终的标签序列, 根据标签获取到中文命名实 体。 9.根据权利要求8所述的中文命名实体识别方法, 其特 征在于: 计算每种所述预测标签序列的条件概 率 若得分最高的所述预测标签序列的条件概率也最大, 则将得分最高的所述预测标签序 列作为最终的标签序列。 10.一种实现如权利要求1~9任一项所述的中文命名实体识别方法的系统, 其特征在 于, 包括预准备模块、 笔画特征获取模块、 词向量获取模块、 标签预测模块和最佳标签获取 模块; 所述预准备模块, 用于: 获取文本中各汉字对应的笔画序列及各汉字的字符特 征向量; 所述笔画特 征获取模块, 用于: 将所述笔画序列输入笔画卷积神经网络, 获取 笔画特征向量; 所述词向量获取模块, 用于: 根据所述文本 中实体的最大长度设置滑动窗口, 通过自注意力 机制获取每个字在所述 滑动窗口内的词向量; 所述标签预测模块, 用于: 拼接所述文本中各汉字的所述笔画特征向量、 词向量和字符特征向量, 并输入BiLSTM 网络, 获取每 个汉字对应 每种实体标签的得分; 所述最佳标签获取模块, 用于: 采用CRF模型对所述文本中每 个汉字确定一个最佳的所述实体标签。权 利 要 求 书 2/2 页 3 CN 114298047 A 3

.PDF文档 专利 基于笔画卷积和词向量的中文命名实体识别方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于笔画卷积和词向量的中文命名实体识别方法及系统 第 1 页 专利 基于笔画卷积和词向量的中文命名实体识别方法及系统 第 2 页 专利 基于笔画卷积和词向量的中文命名实体识别方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:56:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。