说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221071526 0.1 (22)申请日 2022.06.22 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 舒畅 陈又新 肖京  (74)专利代理 机构 深圳市沃德知识产权代理事 务所(普通 合伙) 44347 专利代理师 高杰 于志光 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 文本情感分类方法、 装置、 电子设备及存储 介质 (57)摘要 本发明涉及智能决策技术, 揭露一种文本情 感分类方法, 包括: 对文本集进行聚类, 得到多个 文本簇, 在任意一个所述文本簇选择文本构建正 负样本对预构建的模型相同的第一模型及第二 模型进行训练, 得到训练完成的第一模型及训练 完成的第二模 型; 对所述训练完成的第一模型及 所述训练完成的第二模型进行模 型筛选, 得到文 本情感分类模型; 当获取待分类文本时, 利用所 述文本情感分类模型对所述待分类文本进行分 类, 得到情感分类结果。 本发明还涉及一种区块 链技术, 所述文本簇可以存储在区块链节点中。 本发明还提出一种文本情感分类装置、 设备以及 介质。 本发明可以提高文本情感分类的准确度。 权利要求书3页 说明书11页 附图2页 CN 115221274 A 2022.10.21 CN 115221274 A 1.一种文本情感分类方法, 其特 征在于, 所述方法包括: 获取文本集, 其中, 所述文本集中每 个文本都有对应的情感标签; 将每个所述文本转换为向量, 得到文本向量, 并利用所述文本向量将所述文本集中的 所有文本进行聚类, 得到预设数量的文本 簇; 在任意一个所述文本 簇中随机 选取预设数量的文本, 得到训练文本集; 依次选取所述训练文本集的文本为训练文本, 并将所述训练文本进行同义词替换, 得 到所述训练文本对应的正样本文本; 筛选所述训练文本集中与 所述训练文本情感标签不同的相似文本, 得到所述训练文本 对应的负 样本文本; 利用每个所述训练样本及该训练样本对应的正样本文本及负样本文本对预构建的模 型相同的第一模型及第二模型进行训练, 得到训练完成的第一模型及训练完成的第二模 型; 对所述训练完成的第 一模型及所述训练完成的第 二模型进行模型筛选, 得到文本情感 分类模型; 当获取待分类文本时, 利用所述文本情感分类模型对所述待分类文本进行分类, 得到 情感分类结果。 2.如权利要求1所述的文本情感分类方法, 其特征在于, 所述利用所述文本向量将所述 文本集中的所有 文本进行聚类, 得到预设数量的文本 簇, 包括: 步骤A: 在所有所述文本向量中随机选取预设数量的文本向量, 并将选取的每个文本向 量作为质心; 步骤B: 计算每一个所述文本向量与每个所述质心的距离, 将每条所述文本向量向距离 最近的所述质心凝集汇总, 得到对应初始向量簇; 步骤C: 根据所述初始向量簇及所述质心进行质心波动计算, 得到质心波动值; 步骤D: 判断所述质心波动值是否为0, 步骤E: 当所述质心波动值为0, 将所述初始向量簇确定为所述文本向量簇, 并将每个所 述文本向量簇中所有 文本向量对应的文本汇总, 得到对应的文本 簇; 步骤F: 当所述质心波动值 不为0, 将所述簇平均值作为 新的质心, 并返回步骤B。 3.如权利要求1所述的文本情感分类方法, 其特征在于, 所述将所述训练文本进行同义 词替换, 得到所述训练文本对应的正样本文本, 包括: 将所述训练文本的任意一个词语或多个词语替换为对应的词语的同义词, 得到所述训 练文本对应的正样本文本 。 4.如权利要求1所述的文本情感分类方法, 其特征在于, 所述筛选所述训练文本集中与 所述训练文本情感标签不同的相似文本, 得到所述训练文本对应的负 样本文本, 包括: 筛选所述训练文本集中与所述训练文本情感标签不同的文本, 得到 筛选文本集; 计算所述训练文本与所述筛 选文本集中每 个文本的相似度, 得到对应的文本相似度; 将所述筛选文本集中最大文本相似度对应的文本确认为所述训练文本对应的负样本 文本。 5.如权利要求1所述的文本情感分类方法, 其特征在于, 所述利用每个所述训练样本及 该训练样本对应的正样本文本及负样本文本对预构建的模型相同的第一模型及第二模型权 利 要 求 书 1/3 页 2 CN 115221274 A 2进行训练, 得到训练完成的第一模型及训练完成的第二模型, 包括: 利用所述第一模型对所述训练文本进行 特征提取, 得到训练文本特 征向量; 利用所述第二模型对所述 正样本文本进行 特征提取, 得到正样本文本特 征向量; 利用所述第二模型对所述负 样本文本进行 特征提取, 得到负 样本文本特 征向量; 分别计算所述训练文本特征向量与所述正样本文本特征向量及所述负样本文本特征 向量的相似度, 得到第一相似度分数及第二相似度分数; 基于预设损 失函数, 利用所述第一相似度分数及所述第二相似度分数进行计算, 得到 目标损失值; 当所述目标损失值大于或等于预设损失阈值, 则更新所述第 一模型及所述第 二模型的 模型参数, 并返回所述在任意 一个所述文本 簇中随机 选取预设数量的文本步骤; 当所述目标损失值小于预设损失阈值, 则 输出训练完成的第 一模型及训练完成的第 二 模型。 6.如权利要求1至5中任意一项所述的文本情感分类方法, 其特征在于, 所述对所述训 练完成的第一模型及所述训练完成的第二模型进行模型筛选, 得到文本情感分类模型, 包 括: 获取测试文本集, 其中, 所述测试文本集中每 个测试文本都有对应的情感标签; 对所述训练完成的第一模型对所述测试文本集中每个测试文本进行分类以判断分类 结果与对应的测试文本的情感标签是否一 致, 得到第一测试准确率; 对所述训练完成的第二模型对所述测试文本集中每个测试文本进行分类以判断分类 结果与对应的测试文本的情感标签是否一 致, 得到第二测试准确率; 判断所述第 一测试准确率是否大于所述第 二测试准确率, 并根据判断结果对所述训练 完成的第一模型及所述训练完成的第二模型进行模型筛 选, 得到所述文本情感分类模型。 7.如权利要求6 中所述的文本情感分类方法, 其特征在于, 所述根据测试结果对所述训 练完成的第一模型及所述训练完成的第二模型进行模型筛选, 得到所述文本情感分类模 型, 包括: 当所述判断结果为第 一测试准确率大于第 二测试准确率, 将所述训练完成的第 一模型 确定为所述文本情感分类模型; 当所述判断结果为第 一测试准确率不大于所述第 二测试准确率, 将所述训练完成的第 二模型确定为所述文本情感分类模型。 8.一种文本情感分类装置, 其特 征在于, 包括: 正负样本构建模块, 用于获取文本集, 其中, 所述文本集中每个文本都有对应的情 感标 签; 将每个所述文本转换为向量, 得到文本向量, 并利用所述文本向量将所述文本集中的所 有文本进行聚类, 得到预设数量的文本簇; 在任意一个所述文本簇中随机选取预设数量的 文本, 得到训练文本集; 依次选取所述训练文本集的文本为训练文本, 并将所述训练文本进 行同义词替换, 得到所述训练文本对应的正样本文本; 筛选所述训练文本集中与所述训练 文本情感标签不同的相似文本, 得到所述训练文本对应的负 样本文本; 模型训练筛选模块, 用于利用每个所述训练样本及该训练样本对应的正样本文本及负 样本文本对预构建的模型相同的第一模型及第二模型进行训练, 得到训练完成的第一模型 及训练完成的第二模型; 对所述训练完成的第一模型及所述训练完成的第二模型进行模型权 利 要 求 书 2/3 页 3 CN 115221274 A 3

.PDF文档 专利 文本情感分类方法、装置、电子设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本情感分类方法、装置、电子设备及存储介质 第 1 页 专利 文本情感分类方法、装置、电子设备及存储介质 第 2 页 专利 文本情感分类方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。