专利基于知识驱动多分类的情绪原因对提取方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210805075.1 (22)申请日 2022.07.10 (71)申请人大连理工大学地址 116024 辽宁省大连市甘井子区凌工路2号 (72)发明人宗林林　张靖琳　秦鑫　张宪超　徐博　 (74)专利代理机构大连星河彩舟专利代理事务所(普通合伙) 2126 3 专利代理师陈玲玉 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/242(2020.01) G06F 40/279(2020.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于知识驱动多分类的情绪原因对提取方法及系统 (57)摘要本发明公开了基于知识驱动多分类的情绪原因对提取方法及系统，本发明将数据集文档分词后，计算从句中每个词的情绪分数，相加得到从句的情绪分数。再通过长短期记忆人工神经网络学习文档上下文信息，结合位置嵌入学习和窗口搜索提取情绪 ‑原因对。本发明联合语义知识嵌入，位置信息学习和窗口搜索提高情绪 ‑原因对提取的准确率。缓解了标签不平衡等问题，在公开的数据集上有较好的效果。权利要求书3页说明书9页附图2页 CN 115129818 A 2022.09.30 CN 115129818 A 1.基于知识驱动多分类的情绪原因对提取方法，其特征在于，包括以下步骤： S1计算从句情绪分数：导入情绪词典，情绪词典中每个词汇赋予一个情绪分数；逐一读取每个文档，提取文档中每个从句的分词，与情绪词典中的词汇进行匹配并赋予对应的情绪分数，若词汇不存在于情绪词典中分数记为零，之后相加计算从句情绪分数并储存； S2文档语义嵌入学习：将从句中的分词替换为词向量，每个从句生成词嵌入矩阵；使用词汇级的双向长短时记忆网络学习从句间词汇的上下文信息；再加入注意力机制，每个从句生成句向量；将得到的句向量输入特定语义类型的语句级的双向长短时记忆网络中，学习上下文，生成语义特定的句向量；所述语义特定的句向量包括情绪特定的句向量、原因特定的句向量、情绪原因特定的句向量和非情绪原因特定的句向量； S3从句情绪原因判断的联合学习分类：使用四个线性分类器区分步骤S2中不同种类的语义特定的从句向量，其中，在预测时将步骤S1得到的情绪分数也加入到各分类器中进行判断； S4基于图信息的位置嵌入： S4.1图的构建：计算数据集中所有文档从句数的最大值m，构建包含m个节点的不含边的无连通图，根据S3判断的情绪原因从句类型，按照情绪 ‑原因对的位置建立边，并根据出现次数赋予边的权重； S4.2图信息传播和位置生成：使用GCN算法学习边的邻居信息，生成含有上下文的边句嵌入，加入图的入度和出度信息学习上下文生成最终的位置信息；所述图的入度和出度代表该位置下原因从句和情绪从句出现的概率； S5基于窗口的情绪 ‑原因对提取：根据将文档中每句话作为候选从句，与文档中的从句拼接形成情绪 ‑原因候选对；设置搜索窗口大小，对于一个候选从句只选搜索窗口范围内语句生成情绪 ‑原因候选对，拼接位置信息联合S4.2判断的情绪 ‑原因对概率。 2.根据权利要求1所述的基于知识驱动多分类的情绪原因对提取方法，其特征在于， S1 中从句i情绪分数其中，为从句i中第j个分词的情绪分数， k为从句i中分词的个数。 3.根据权利要求1所述的基于知识驱动多分类的情绪原因对提取方法，其特征在于， S3 中首先进行从句情绪和原因分类，再进行从句情绪原因分类，最后进行从句非情绪原因分类；所述从句情绪原因分类方发为：将情绪特定的句向量和原因特定的句向量分别拼接情绪分数，送入线性分类器得到从句情绪分类的概率和从句原因分类的概率；其中，为情绪特性的句向量，为原因特性的句向量， We为情绪可训练参数， Wc为原因可训练参数， be为情绪偏置向量， bc为原因偏置向量，和分别是预测的情绪从句和原因从句的分布， si为从句的情绪分数， i代表本文档中的第i个从句；权　利　要　求　书 1/3 页 2 CN 115129818 A 2所述从句情绪原因分类：将从句特征向量与从句情绪分类概率、从句原因分类概率和情绪分数拼接联合判断从句情绪原因分类；其中，是预测的情绪原因从句的分布，为情绪原因特性句向量， Wec为情绪原因可训练参数， bec为情绪原因偏置向量；所述从句非情绪原因分类：将从句特征向量与从句非情绪分类的概率、从句非原因分类的概率和从句情绪分数拼接联合判断从句非情绪原因分类；其中，是预测的非情绪原因从句的分布，为非情绪原因特性句向量， Wn为非情绪原因可训练参数， bn为非情绪原因偏置向量；和分别为非情绪分类的概率和非原因分类的概率，其中从句情绪原因联合判断的l oss如公式所示：其中j为不同的从句分类类型， y代表预测标签，代表真实标签。 4.根据权利要求1所述的基于知识驱动多分类的情绪原因对提取方法，其特征在于， S4.1当文档中包含一组情绪 ‑原因对Pij，其中i代表情绪从句， j代表原因从句；如果图中i 结点与j结点之间不包含原因对，添加新边Eij＝<i,j>，并将这条边的值置为1；若此情绪 ‑原因对Pij出现n次，则将该条边得值置为 n。 5.根据权利要求1所述的基于知识驱动多分类的情绪原因对提取方法，其特征在于， S4.2中加入多轮GRU获得图中边的邻居信息，将最后一轮迭代结果作为边位置嵌入的结果 pij，其中第t+1轮的结果由第t轮结果推到得到： P(t+1)＝GRU(co ncat(P(t),P(0) )) 其中， P(0)为边的初始值；采用BiLSTM学习边入度和出度以及边位置嵌入，生成代表位置信息的位置嵌入，公式如下：其中， pij为迭代后的边位置嵌入，为图中第i个点的入度代表该位置作为原因的概率，为图中第j个点的出度代表该位置作为情绪的概率。 6.根据权利要求3所述的基于知识驱动多分类的情绪原因对提取方法，其特征在于， S5 中使用全连接层预测最终情绪 ‑原因对，公式如下：其中 W为权重参数， b为偏置， i为文档中第i个结点为候选权　利　要　求　书 2/3 页 3 CN 115129818 A 3

专利 基于知识驱动多分类的情绪原因对提取方法及系统

专利基于知识驱动多分类的情绪原因对提取方法及系统