专利一种长尾分布场景下的方面类别识别方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111681644.8 (22)申请日 2021.12.3 0 (71)申请人江南大学地址 214122 江苏省无锡市滨湖区蠡湖大道1800号 (72)发明人陆恒杨　方伟　聂玮　孙俊　吴小俊　 (74)专利代理机构哈尔滨市阳光惠远知识产权代理有限公司 2321 1 代理人张勇 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 40/284(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称一种长尾分布场景下的方面类别识别方法及系统 (57)摘要本发明公开了一种长尾分布场景下的方面类别识别方法及系统，属于自然语言处理技术领域。本发明的方法基于一种在长尾分布场景下的的方面类别识别系统，该系统聚焦数据长尾分布特点，首先得到句子细粒度方面特征向量，提供额外的上下文方面级语义信息；然后加入一种基于长尾分布的融合上下文方面级语义信息的注意力机制，加强模型捕捉与方面类别最相关的信息的能力，同时提出一种改进的分布平衡损失函数缓解长尾多标签文本分类任务中的标签共现以及负类优势的问题，有效地提升了具有长尾分布特点的方面类别识别效果。权利要求书5页说明书13页附图2页 CN 114297390 A 2022.04.08 CN 114297390 A 1.一种长尾分布场景下的方面类别识别方法，其特征在于，所述方法对数据集中的N个句子进行方面类别的识别，其中， Sl＝{w1,w2,…,wn}为所述数据集D中的第l个句子，由n个词组成， wn表示所述第l个句子Sl中第n个词；是所述第l个句子Sl对应的方面类别标签；所述方法包括：步骤1：预先定义m个方面类别，用A＝{a1,a2,…,am}表示，其中am为描述第m个方面的单词或词组，步骤2：构建词嵌入矩阵E1∈R|V|×d，每个词wi通过所述词嵌入矩阵E1中映射为其中|V|为所述数据集D中所有词的大小， d是词向量的维度；同时构建方面类别嵌入矩阵E2∈Rm×d，每个词ai通过所述方面类别嵌入矩阵E2中映射为分别得到文本嵌入向量和方面嵌入向量步骤3：将所述文本嵌入向量与所述方面嵌入向量输入到长短时记忆网络LSTM中，得到该句子的网络输出隐藏状态和步骤4：将所述隐藏状态Hw和Ha输入到IAN ‑LoT机制中，得到融合长尾分布特点的总的方面向量表示s；步骤5：将所述总的方面向量s输入到融合上下文方面级语义信息的注意力机制，计算融合向量步骤6：使用所述融合向量向量作为预测的句子表示，如公式(1)所示，对于第j个方面类别：其中， Wj∈Rd×1， bj为一个标量，为第j个方面类别的预测结果，当大于分类阈值时，认为句子包含第j个方面类别。 2.根据权利要求1所述的方法，其特征在于，所述IAN ‑LoT机制中计算融合长尾分布特点的总的方面向量的步骤包括：步骤41：对于输入的隐藏状态Hw和Ha计算交互注意力权重矩阵I∈Rn×m，如公式(2)所示：步骤42：对所述交互注意力权重矩阵的每一行进行softmax计算，如公式(3)所示：其中， kij为矩阵k∈Rn×m的第i行第j列元素， k表示文本对方面的注意力权重， Iij为矩阵 I中第i行第j列的元素；权　利　要　求　书 1/5 页 2 CN 114297390 A 2步骤43：然后对于矩阵k引入数据长尾分布特点，如公式(4)所示：其中，为引入长尾分布的文本对于每个方面的权重信息， β ∈R1×m代表预先学习到的长尾分布特点，为训练集中有效样本的数量倒数， m为方面类别的个数；步骤44：对于进行最大池化，得到融入长尾分布特点的细粒度的文本对于方面的权重信息IL，进而将此权重信息与方面类别的嵌入向量表示相乘，得到最终的总的方面向量表示s，如公式(5)所示：其中， s∈R1×d。 3.根据权利要求2所述的方法，其特征在于，所述融合上下文方面级语义信息的融合向量的计算过程包括：将所述总的方面向量s与作为输入，计算融合向量如公式(6)所示：其中， W∈Rn×1是每个单词与方面融合的可学习权重参数，代表融合上下文方面级语义信息的向量，将输入到所述注意力机制，为每个预定义的方面类别生成注意权重向量；如公式(7)所示，对于第j个方面类别：其中Wj∈Rd×d,bj∈Rd以及uj∈Rd为可学习参数， β ∈ R1×m，代表预先学习到的长尾分布特点，为训练集中有效样本的数量倒数， αj∈Rn是注意力权重向量。 4.根据权利要求3所述的方法，其特征在于，所述方法采用改进的A ‑DB损失函数训练识别模型，所述改进的A ‑DB损失函数改进了重平衡权重的计算方式和平滑函数，具体包括：首先，在不考虑标签共现的情况下，表示数据集中包含第j个方面类别的样例数；针对第j个方面类别的采样频率期望值为然后按该实例包含的每个正类重复采样估算出样本采样频率PI，如公式(8)所示：其中，当时表示第l个句子包含第j个方面类别aj，时则不包含；重平衡权重计算如公式(9)所示：其中， γ为协调权重超参数；所述平滑函数将映射的公式为：权　利　要　求　书 2/5 页 3 CN 114297390 A 3

专利 一种长尾分布场景下的方面类别识别方法及系统

专利一种长尾分布场景下的方面类别识别方法及系统