专利基于深度神经网络的中医文献指代词识别方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210575047.5 (22)申请日 2022.05.24 (71)申请人成都信息工程大学地址 610225 四川省成都市西南航空港经济开发区学府路1段24 号 (72)发明人王亚强　梁海峰　唐聃　舒红平　 (74)专利代理机构北京元本知识产权代理事务所(普通合伙) 11308 专利代理师曹广生 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称基于深度神经网络的中医文献指代词识别方法及装置 (57)摘要本发明公开了一种基于深度神经网络的中医文献指代词识别方法及装置，所述方法包括：提取中医文献的中医文本序列中的字符序列特征向量；根据字符序列特征向量得到中医文献的词序列特征向量；根据中医文献中的中医文本序列的相邻上下文之间的依赖关系，对所述词序列特征向量进行预测，并根据预测结果为对应的词序列特征向量指派一个指代词标签。本发明可以有效对中医文献中的指代词进行识别，从而便于下游任务的开展，例如问题问答、信息检索、信息抽取等。权利要求书1页说明书5页附图3页 CN 114861659 A 2022.08.05 CN 114861659 A 1.一种基于深度神经网络的中医文献指代词识别方法，其特征在于，所述方法包括：提取中医文献的中医文本序列中的字符序列特征向量；根据字符序列特征向量得到中医文献的词序列特征向量；根据中医文献中的中医文本序列的相邻上下文之间的依赖关系，对所述词序列特征向量进行预测，并根据预测结果为对应的词序列特征向量指派一个指代词标签。 2.根据权利要求1所述的方法，其特征在于，所述提取中医文献的中医文本序列中的字符序列特征向量，包括：利用中医文献的中医文本序列中的字符来训练卷积神经网络，将训练好的卷积神经网络作为字符序列特征提取器，以提取中医文献的中医文本序列中的字符序列特征向量。 3.根据权利要求1所述的方法，其特征在于，所述根据字符序列特征向量得到中医文献的词序列特征向量，包括：利用中医文献的字符序列特征来训练双向长短期记忆网络，将训练好的双向长短期记忆网络作为词序列特征提取器，以根据字符序列特征向量得到中医文献的词序列特征向量。 4.根据权利要求1所述的方法，其特征在于，通过无向图表示的马尔科夫随机场捕获中医文献中的中医文本序列的相邻上下文之间的依赖关系，对所述词序列特征向量进行预测，并根据预测结果为对应的词序列特征向量指派一个指代词标签。 5.根据权利要求1所述的方法，其特征在于，所述指代词标签包括中医文献疑问代词标签、中医文献指示代词标签、中医文献人称代词标签、中医文献人物标签以及中医文献事物标签。 6.根据权利要求1 ‑5任一项所述的方法，其特征在于，所述根据字符序列特征向量得到中医文献的词序列特征向量，包括：根据字符序列特征向量，在中医文献词序列中的过去信息和中医文献中词序列中未来信息两个方向来提取得到词序列特征向量。 7.一种基于深度神经网络的中医文献指代词识别装置，其特征在于，所述装置包括：卷积神经网络单元，被配置为提取中医文献的中医文本序列中的字符序列特征向量；双向长短期记忆网络单元，被配置为根据字符序列特征向量得到中医文献的词序列特征向量；无向图表示的马尔科夫随机场单元，被配置为根据中医文献中的中医文本序列的相邻上下文之间的依赖关系，对所述词序列特征向量进行预测，并根据预测结果为对应的词序列特征向量指派一个指代词标签。 8.根据权利要求7所述的装置，其特征在于，利用中医文献的中医文本序列中的字符来训练卷积神经网络，将训练好的卷积神经网络作为所述卷积神经网络单元。 9.根据权利要求7所述的装置，其特征在于，利用中医文献的字符序列特征来训练双向长短期记忆网络，将训练好的双向长短期记忆网络作为所述双向长短期记忆网络单元。 10.根据权利要求7所述的装置，其特征在于，所述双向长短期记忆网络单元被进一步配置为根据字符序列特征向量，在中医文献词序列中的过去信息和中医文献中词序列中未来信息两个方向来提取得到词序列特征向量。权　利　要　求　书 1/1 页 2 CN 114861659 A 2基于深度神经网络的中医文献指代词识别方法及装置技术领域 [0001]本发明涉及中医文献识别领域，具体的说，涉及一种基于深度神经网络的中医文献指代词识别方法及装置。背景技术 [0002]由于信息技术和人工智能的快速发展，它们被广泛用于挖掘医学文本，包括中医文献。但是由于中医文献中频繁出现的指代引用给之前的自然语言处理任务带来了极大的挑战。我们收集了《妇科心法要诀》和《医学三字经》两篇中医文献的部分内容，对其中指代词的数量进行了一个统计。统计结果如下表1所示。 [0003]表1.指代词数量和句子数量统计 [0004]类别《妇女心法要诀》《医学三字经》句子总量 3571 4814 指代词总量 2992 7766 平均每句话指代词数量 1.1935 0.6199 [0005]从上表中可以看出，在我们获得到的这两篇中医文献中，平均每句话大约含有0.6 个到1个指代词。因此，指代词的识别对于中医文献的信息处理有着关键作用，例如更有利于下游任务如问题问答、信息抽取、信息检索的开展。 [0006]中医文献的指代词的识别属于自然语言处理下序列标注任务的实体识别范畴。在过去，针对序列标注任务下的实体识别，常常采用基于统计学习的方法，其中基于条件随机场(Conditional Random Fields， CRFs)的方法优于其它一般的统计学习方法，如最大熵马尔可夫模型(Maximum entropy Markov models， MEMMs)、隐马尔科夫模型(Hidden Markov models， HMMs)。条件随机场是一个用于建立概率模型以分割和标记序列数据的框架，它能结合文本上下文的观察特征，从而动态规划的高效训练与解码，克服了HMMs、 MEMMs的输出独立性假设问题以及MEMM s的标注偏置问题。然而条件随机场和其他统计学习模型一样，需要手工制作繁杂的特征以及特定任务资源，耗费大量时间成本、人力成本；并且不能够抽取文本中丰富的语义特征。 [0007]然而近年来，因为深度神经网络其自身复杂的学习结构，拥有复杂丰富的特征表达能力和预测能力，有很多研究人员将它应用在自然语言处理任务中。深度神经网络具有多层非线性映射的深层结构，其优势之一是可以完成抽取文本丰富的语义特征；此外深度神经网络理论上可获取分布式表示，即通过逐层学习获取输入数据的主要驱动变量。 [0008]因此，本发明提出利用深度神经网络模型来对中医文献中的指代词进行识别。发明内容 [0009]本发明提供了一种基于深度神经网络的中医文献指代词识别方法及装置，以解决现有技术中存在的耗费大量时间成本、人力成本，并且不能够抽取文本中丰富的语义特征等问题。说　明　书 1/5 页 3 CN 114861659 A 3

专利 基于深度神经网络的中医文献指代词识别方法及装置

专利基于深度神经网络的中医文献指代词识别方法及装置