说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210575047.5 (22)申请日 2022.05.24 (71)申请人 成都信息工程大学 地址 610225 四川省成 都市西南 航空港经 济开发区学府路1段24 号 (72)发明人 王亚强 梁海峰 唐聃 舒红平  (74)专利代理 机构 北京元本知识产权代理事务 所(普通合伙) 11308 专利代理师 曹广生 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 基于深度神经网络的中医文献指代词识别 方法及装置 (57)摘要 本发明公开了一种基于深度神经网络的中 医文献指代词识别方法及装置, 所述方法包括: 提取中医文献的中医文本序列中的字符序列特 征向量; 根据字符序列特征向量得到中医文 献的 词序列特征向量; 根据中医文献中的中医文本序 列的相邻上下文之间的依赖关系, 对 所述词序列 特征向量进行预测, 并根据预测结果为对应的词 序列特征向量指派一个指代词标签。 本发明可以 有效对中医文献中的指代词进行识别, 从而便于 下游任务的开展, 例如问题问答、 信息检索、 信息 抽取等。 权利要求书1页 说明书5页 附图3页 CN 114861659 A 2022.08.05 CN 114861659 A 1.一种基于深度神经网络的中 医文献指代词识别方法, 其特 征在于, 所述方法包括: 提取中医文献的中 医文本序列中的字符序列特 征向量; 根据字符序列特 征向量得到中 医文献的词序列特 征向量; 根据中医文献中的中医文本序列的相邻上下文之间的依赖关系, 对所述词序列特征向 量进行预测, 并根据预测结果 为对应的词序列特 征向量指派一个指代词标签。 2.根据权利要求1所述的方法, 其特征在于, 所述提取中医文献的中医文本序列中的字 符序列特 征向量, 包括: 利用中医文献的中医文本序列中的字符来训练卷积神经网络, 将训练好的卷积神经网 络作为字符序列特 征提取器, 以提取中 医文献的中 医文本序列中的字符序列特 征向量。 3.根据权利要求1所述的方法, 其特征在于, 所述根据字符序列 特征向量得到中医文献 的词序列特 征向量, 包括: 利用中医文献的字符序列 特征来训练双向长短期记忆网络, 将训练好的双向长短期记 忆网络作为词序列特征提取器, 以根据字符序列特征向量得到中医文献的词序列特征向 量。 4.根据权利要求1所述的方法, 其特征在于, 通过无向图表示的马尔科夫随机场捕 获中 医文献中的中医文本序列 的相邻上下文之间的依赖关系, 对所述词序列特征向量进行预 测, 并根据预测结果 为对应的词序列特 征向量指派一个指代词标签。 5.根据权利要求1所述的方法, 其特征在于, 所述指代词标签包括中医文献疑 问代词标 签、 中医文 献指示代词标签、 中医文献人称代词标签、 中医文献人物标签以及中医文献事物 标签。 6.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述根据字符序列 特征向量得到 中医文献的词序列特 征向量, 包括: 根据字符序列 特征向量, 在中医文献词序列中的过去信 息和中医文献中词序列中未来 信息两个方向来 提取得到词序列特 征向量。 7.一种基于深度神经网络的中 医文献指代词识别装置, 其特 征在于, 所述装置包括: 卷积神经网络单 元, 被配置为提取中医文献的中 医文本序列中的字符序列特 征向量; 双向长短期记忆网络单元, 被配置为根据字符序列特征向量得到 中医文献的词序列 特 征向量; 无向图表示的马尔科夫随机场单元, 被配置为根据中医文献中的中医文本序列的相邻 上下文之间的依赖关系, 对所述词序列特征向量进行预测, 并根据预测结果为对应的词序 列特征向量指派一个指代词标签。 8.根据权利要求7所述的装置, 其特征在于, 利用中医文献的中医文本序列中的字符来 训练卷积神经网络, 将训练好的卷积神经网络作为所述卷积神经网络单 元。 9.根据权利要求7所述的装置, 其特征在于, 利用中医文献的字符序列 特征来训练双向 长短期记 忆网络, 将训练好的双向长短期记 忆网络作为所述双向长短期记 忆网络单 元。 10.根据权利要求7所述的装置, 其特征在于, 所述双向长短期记忆网络单元被进一步 配置为根据字符序列特征向量, 在中医文献词 序列中的过去信息和中医文献中词序列中未 来信息两个方向来 提取得到词序列特 征向量。权 利 要 求 书 1/1 页 2 CN 114861659 A 2基于深度神经 网络的中医文献指代词识别方 法及装置 技术领域 [0001]本发明涉及中医文献识别领域, 具体的说, 涉及一种基于深度神经网络的中医文 献指代词识别方法及装置 。 背景技术 [0002]由于信息技术和人工智能的快速发展, 它们被广泛用于挖掘医学文本, 包括中医 文献。 但是由于中医文献中频繁出现的指代引用给之前的自然语言处理任务带来了 极大的 挑战。 我们收集了 《妇科心法要诀》 和 《医学三字经》 两篇中医文献的部分内容, 对其中指代 词的数量进行了一个统计。 统计结果如下表1所示。 [0003]表1.指代词数量和句子数量统计 [0004]类别 《妇女心法要诀》 《医学三字经》 句子总量 3571 4814 指代词总量 2992 7766 平均每句话指代词数量 1.1935 0.6199 [0005]从上表中可以看出, 在我们获得到的这两篇中医文献中, 平均每句话大约含有0.6 个到1个指代词。 因此, 指代词的识别对于中医文献的信息处理有着关键作用, 例如更有利 于下游任务如问题问答、 信息抽取、 信息检索的开展。 [0006]中医文献的指代词的识别属于自然语言处理下序列标注任务的实体识别范畴。 在 过去, 针对序列标注任务下的实体识别, 常常采用基于统计学习的方法, 其中基于条件随机 场(Conditional  Random Fields, CRFs)的方法优于其它一般的统计学习方法, 如最大熵马 尔可夫模型(Maximum  entropy Markov models, MEMMs)、 隐马尔科夫模型(Hidden  Markov  models, HMMs)。 条件随机场是一个用于建立概率模型以分割和标记序列数据的框架, 它能 结合文本上下文的观察特征, 从而动态规划的高效训练与解码, 克服了HMMs、 MEMMs的输出 独立性假设问题以及MEMM s的标注偏 置问题。 然而 条件随机场和其他统计学习模型一样, 需 要手工制作繁杂的特征以及特定任务资源, 耗费大量时间成本、 人力成本; 并且不能够抽取 文本中丰富的语义特 征。 [0007]然而近年来, 因为深度神经网络其自身复杂的学习结构, 拥有复杂丰富的特征表 达能力和预测能力, 有很多研究人员将它应用在自然语言处理任务中。 深度神经网络具有 多层非线性映射的深层结构, 其优势之一是可以完成抽取文本丰富的语义特征; 此外深度 神经网络理论上 可获取分布式表示, 即通过 逐层学习获取输入数据的主 要驱动变量。 [0008]因此, 本发明提出利用深度神经网络模型来对中 医文献中的指代词进行识别。 发明内容 [0009]本发明提供了一种基于深度神经网络的中医文献指代词识别方法及装置, 以解决 现有技术中存在的耗费大量时间成本、 人力成本, 并且不能够抽取文本中丰富的语义特征 等问题。说 明 书 1/5 页 3 CN 114861659 A 3

.PDF文档 专利 基于深度神经网络的中医文献指代词识别方法及装置

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度神经网络的中医文献指代词识别方法及装置 第 1 页 专利 基于深度神经网络的中医文献指代词识别方法及装置 第 2 页 专利 基于深度神经网络的中医文献指代词识别方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。