专利基于预训练特征嵌入的文本分类方法及词义消歧方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210625333.8 (22)申请日 2022.06.02 (71)申请人中南大学地址 410083 湖南省长沙市岳麓区麓山南路932号 (72)发明人石金晶　赖蔚　袁逸凡　王雯萱　黄端　 (74)专利代理机构长沙永星专利商标事务所 (普通合伙) 43001 专利代理师周咏　米中业 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 10/00(2022.01) (54)发明名称基于预训练特征嵌入的文本分类方法及词义消歧方法 (57)摘要本发明公开了一种基于预训练特征嵌入的文本分类方法，包括构建训练数据集；构建量子启发式文本分类初始模型；采用训练数据集训练量子启发式文本分类初始模型得到量子启发式文本分类模型；获取预训练模型ERNIE；连接量子启发式文本分类模型和预训练模型ERNIE构建文本分类模型；采用训练数据集训练文本分类模型得到基于预训练特征嵌入的文本分类模型；采用基于预训练特征嵌入的文本分类模型对实际文本进行文本分类。本发明提供的这种基于预训练特征嵌入的文本分类方法及词义消歧方法，通过结合预训练特征嵌入、神经网络模型和量子计算理论，提出了全新的文本分类方法和对应的词义消歧方法；本发明方法不仅可靠性高，而且分类精度较好。权利要求书3页说明书6页附图2页 CN 114970497 A 2022.08.30 CN 114970497 A 1.一种基于预训练特征嵌入的文本分类方法，包括如下步骤： S1.获取语料库和带有分类标记的训练文本，构建训练数据集； S2.基于量子计算和深度学习理论，构建量子启发式文本分类初始模型； S3.采用步骤S1构建的训练数据集，对步骤S2构建的量子启发式文本分类初始模型进行训练，从而得到量子启发式文本分类模型； S4.获取预训练模型ERN IE； S5.连接量子启发式文本分类模型和预训练模型ERN IE，构建文本分类模型； S6.采用步骤S1构建的训练数据集，对步骤S5构建的文本分类模型进行训练，得到最终的基于预训练特征嵌入的文本分类模型； S7.采用步骤S6得到的基于预训练特征嵌入的文本分类模型，对实际文本进行文本分类。 2.根据权利要求1所述的基于预训练特征嵌入的文本分类方法，其特征在于步骤S2所述的基于量子计算和深度学习理论，构建量子启发式文本分类初始模型，具体包括如下步骤： A.对获取的文本数据进行分词，从而构建单词和单词索引映射表； B.采用复数词嵌入，将步骤A得到的所有单词映射到对应量子态的希尔伯特空间，从而得到单词的复数向量； C.构建GRU循环神经网络； D.将步骤B得到的单词的复数向量输入到步骤C构建的GRU循环神经网络中进行特征提取，得到中间隐含特征； E.对步骤D得到的中间隐含特征进行测量，从而得到概率特征； F.采用线性分类器，对步骤E得到的概率特征进行分类结果预测。 3.根据权利要求2所述的基于预训练特征嵌入的文本分类方法，其特征在于步骤B所述的采用复数词嵌入，将步骤A得到的所有单词映射到对应量子态的希尔伯特空间，从而得到单词的复数向量，具体为将步骤A得到的所有单词，采用振幅嵌入层和相位嵌入层进行映射，得到振幅向量和相位向量，并采用欧拉公式计算得到词单词的复数向量。 4.根据权利要求3所述的基于预训练特征嵌入的文本分类方法，其特征在于所述的振幅嵌入层，对应词语振幅向量映射表Wa，并随机化初始词语振幅向量映射表Wa中的参数；所述的相位嵌入层，对应词语相位向量映射表Wβ，并随机初始化词语相位向量映射表Wβ中的参数为[0,1]中的数，然后再乘以2π，将参数区间扩大至[0,2π]；单词通过单词索引对应的独热向量为x，对应的振幅向量αi为αi＝Wαx，对应的相位向量βi为βi＝Wβx；然后根据欧拉公式α eβ i＝α cosβ +iα sinβ，最后得到单词对应的实部向量r eal为real＝αicosβi，对应的虚部向量 image为image＝αisinβi。 5.根据权利要求4所述的基于预训练特征嵌入的文本分类方法，其特征在于步骤C所述的构建GRU循环神经网络，具体包括如下步骤： GRU循环神经网络采用如下算式进行计算：权　利　要　求　书 1/3 页 2 CN 114970497 A 2式中z为更新门，用于更新隐藏状态； σ()为sigmoid激活函数；为更新门的第一参数； xt为当前时刻的输入；为更新门的第二参数； ht‑1为上一个时刻的输出； b(z)为更新门的偏置； r为重置门，用于控制过去的隐藏信息，且当r＝0时过去的信息被完全忽略；为重置门的第一参数；为重置门的第二参数； b(r)为重置门的偏置；为记忆门神经元输出； t anh()为tanh激活函数； Wx为记忆门的第一参数； Wh为记忆门的第二参数； ⊙为哈达玛乘积； b为记忆门的偏置； ht为当前时刻的输出。 6.根据权利要求5所述的基于预训练特征嵌入的文本分类方法，其特征在于步骤E所述的对步骤D得到的中间隐含特征进行测量，从而得到概率特征，具体包括如下步骤：采用如下算式计算概率特征pi： pi＝<ti|M|ti>＝<ti| λm>< λm|ti>＝<ti| λm>2 式中ti为任意单词， |ti>为单词ti的量子态表示； <ti|为|ti>的厄米共轭，且 |λm>为测量算子； M为测量算子|λm>对应的密度矩阵，且M＝|λm><λm|； <ti|λm>表示向量的内积运算，且(|ti>,| λm>)＝<ti|| λm>＝<ti| λm>，满足<ti| λm>＝< λm|ti>。 7.根据权利要求6所述的基于预训练特征嵌入的文本分类方法，其特征在于步骤S3所述的采用步骤S1构建的训练数据集，对步骤S2构建的量子启发式文本分类初始模型进行训练，从而得到量子启发式文本分类模型，具体包括如下步骤：通过监督学习和半监督学习对量子启发式文本分类初始模型进行训练；对于有标签的文本数据，采用文本分类任务对模型进行训练，对于无标签数据，采用下一个句子预测任务自定义标签对模型进行训练；模型训练完成后，得到量子启发式文本分类模型。 8.根据权利要求7所述的基于预训练特征嵌入的文本分类方法，其特征在于步骤S5所述的连接量子启发式文本分类模型和预训练模型ERNIE，构建最终的文本分类模型，具体包括如下步骤：拼接量子启发式文本分类模型的最后一层特征和预训练模型ERNIE的最后一层特征；然后，将拼接后的特征连接到线性分类器，得到最终的文本分类模型；连接完成后，将量子启发式文本分类模型中的参数进行保留，保留的参数包括复数词嵌入层中的振幅嵌入层和相位嵌入层的参数；线性分类器的输出为最终的文本分类模型的输出；线性分类器用于将拼接后的特征映射到分类结果维度，从而输出最终的分类结果。 9.一种包括了权利要求1～8之一所述的基于预训练特征嵌入的文本分类方法的词义消歧方法，其特征在于具体包括如下步骤： a.将含有歧义词的语句作为目标文本，将目标文本的分类结果定义为歧义词的所有可能含义； b.采用权利要求1～8之一所述的基于预训练特征嵌入的文本分类方法，对目标文本进行分类；权　利　要　求　书 2/3 页 3 CN 114970497 A 3

专利 基于预训练特征嵌入的文本分类方法及词义消歧方法

专利基于预训练特征嵌入的文本分类方法及词义消歧方法