专利文本情感分类方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221071526 0.1 (22)申请日 2022.06.22 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人舒畅　陈又新　肖京　 (74)专利代理机构深圳市沃德知识产权代理事务所(普通合伙) 44347 专利代理师高杰　于志光 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称文本情感分类方法、装置、电子设备及存储介质 (57)摘要本发明涉及智能决策技术，揭露一种文本情感分类方法，包括：对文本集进行聚类，得到多个文本簇，在任意一个所述文本簇选择文本构建正负样本对预构建的模型相同的第一模型及第二模型进行训练，得到训练完成的第一模型及训练完成的第二模型；对所述训练完成的第一模型及所述训练完成的第二模型进行模型筛选，得到文本情感分类模型；当获取待分类文本时，利用所述文本情感分类模型对所述待分类文本进行分类，得到情感分类结果。本发明还涉及一种区块链技术，所述文本簇可以存储在区块链节点中。本发明还提出一种文本情感分类装置、设备以及介质。本发明可以提高文本情感分类的准确度。权利要求书3页说明书11页附图2页 CN 115221274 A 2022.10.21 CN 115221274 A 1.一种文本情感分类方法，其特征在于，所述方法包括：获取文本集，其中，所述文本集中每个文本都有对应的情感标签；将每个所述文本转换为向量，得到文本向量，并利用所述文本向量将所述文本集中的所有文本进行聚类，得到预设数量的文本簇；在任意一个所述文本簇中随机选取预设数量的文本，得到训练文本集；依次选取所述训练文本集的文本为训练文本，并将所述训练文本进行同义词替换，得到所述训练文本对应的正样本文本；筛选所述训练文本集中与所述训练文本情感标签不同的相似文本，得到所述训练文本对应的负样本文本；利用每个所述训练样本及该训练样本对应的正样本文本及负样本文本对预构建的模型相同的第一模型及第二模型进行训练，得到训练完成的第一模型及训练完成的第二模型；对所述训练完成的第一模型及所述训练完成的第二模型进行模型筛选，得到文本情感分类模型；当获取待分类文本时，利用所述文本情感分类模型对所述待分类文本进行分类，得到情感分类结果。 2.如权利要求1所述的文本情感分类方法，其特征在于，所述利用所述文本向量将所述文本集中的所有文本进行聚类，得到预设数量的文本簇，包括：步骤A：在所有所述文本向量中随机选取预设数量的文本向量，并将选取的每个文本向量作为质心；步骤B：计算每一个所述文本向量与每个所述质心的距离，将每条所述文本向量向距离最近的所述质心凝集汇总，得到对应初始向量簇；步骤C：根据所述初始向量簇及所述质心进行质心波动计算，得到质心波动值；步骤D：判断所述质心波动值是否为0，步骤E：当所述质心波动值为0，将所述初始向量簇确定为所述文本向量簇，并将每个所述文本向量簇中所有文本向量对应的文本汇总，得到对应的文本簇；步骤F：当所述质心波动值不为0，将所述簇平均值作为新的质心，并返回步骤B。 3.如权利要求1所述的文本情感分类方法，其特征在于，所述将所述训练文本进行同义词替换，得到所述训练文本对应的正样本文本，包括：将所述训练文本的任意一个词语或多个词语替换为对应的词语的同义词，得到所述训练文本对应的正样本文本。 4.如权利要求1所述的文本情感分类方法，其特征在于，所述筛选所述训练文本集中与所述训练文本情感标签不同的相似文本，得到所述训练文本对应的负样本文本，包括：筛选所述训练文本集中与所述训练文本情感标签不同的文本，得到筛选文本集；计算所述训练文本与所述筛选文本集中每个文本的相似度，得到对应的文本相似度；将所述筛选文本集中最大文本相似度对应的文本确认为所述训练文本对应的负样本文本。 5.如权利要求1所述的文本情感分类方法，其特征在于，所述利用每个所述训练样本及该训练样本对应的正样本文本及负样本文本对预构建的模型相同的第一模型及第二模型权　利　要　求　书 1/3 页 2 CN 115221274 A 2进行训练，得到训练完成的第一模型及训练完成的第二模型，包括：利用所述第一模型对所述训练文本进行特征提取，得到训练文本特征向量；利用所述第二模型对所述正样本文本进行特征提取，得到正样本文本特征向量；利用所述第二模型对所述负样本文本进行特征提取，得到负样本文本特征向量；分别计算所述训练文本特征向量与所述正样本文本特征向量及所述负样本文本特征向量的相似度，得到第一相似度分数及第二相似度分数；基于预设损失函数，利用所述第一相似度分数及所述第二相似度分数进行计算，得到目标损失值；当所述目标损失值大于或等于预设损失阈值，则更新所述第一模型及所述第二模型的模型参数，并返回所述在任意一个所述文本簇中随机选取预设数量的文本步骤；当所述目标损失值小于预设损失阈值，则输出训练完成的第一模型及训练完成的第二模型。 6.如权利要求1至5中任意一项所述的文本情感分类方法，其特征在于，所述对所述训练完成的第一模型及所述训练完成的第二模型进行模型筛选，得到文本情感分类模型，包括：获取测试文本集，其中，所述测试文本集中每个测试文本都有对应的情感标签；对所述训练完成的第一模型对所述测试文本集中每个测试文本进行分类以判断分类结果与对应的测试文本的情感标签是否一致，得到第一测试准确率；对所述训练完成的第二模型对所述测试文本集中每个测试文本进行分类以判断分类结果与对应的测试文本的情感标签是否一致，得到第二测试准确率；判断所述第一测试准确率是否大于所述第二测试准确率，并根据判断结果对所述训练完成的第一模型及所述训练完成的第二模型进行模型筛选，得到所述文本情感分类模型。 7.如权利要求6 中所述的文本情感分类方法，其特征在于，所述根据测试结果对所述训练完成的第一模型及所述训练完成的第二模型进行模型筛选，得到所述文本情感分类模型，包括：当所述判断结果为第一测试准确率大于第二测试准确率，将所述训练完成的第一模型确定为所述文本情感分类模型；当所述判断结果为第一测试准确率不大于所述第二测试准确率，将所述训练完成的第二模型确定为所述文本情感分类模型。 8.一种文本情感分类装置，其特征在于，包括：正负样本构建模块，用于获取文本集，其中，所述文本集中每个文本都有对应的情感标签；将每个所述文本转换为向量，得到文本向量，并利用所述文本向量将所述文本集中的所有文本进行聚类，得到预设数量的文本簇；在任意一个所述文本簇中随机选取预设数量的文本，得到训练文本集；依次选取所述训练文本集的文本为训练文本，并将所述训练文本进行同义词替换，得到所述训练文本对应的正样本文本；筛选所述训练文本集中与所述训练文本情感标签不同的相似文本，得到所述训练文本对应的负样本文本；模型训练筛选模块，用于利用每个所述训练样本及该训练样本对应的正样本文本及负样本文本对预构建的模型相同的第一模型及第二模型进行训练，得到训练完成的第一模型及训练完成的第二模型；对所述训练完成的第一模型及所述训练完成的第二模型进行模型权　利　要　求　书 2/3 页 3 CN 115221274 A 3

专利 文本情感分类方法、装置、电子设备及存储介质

专利文本情感分类方法、装置、电子设备及存储介质