专利智能化新闻主题情感分析方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210680074.9 (22)申请日 2022.06.16 (71)申请人平安科技（深圳）有限公司地址 518033 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人袁超　李敏　徐介夫　 (74)专利代理机构北京鸿元知识产权代理有限公司 11327 专利代理师袁文婷　张娓娓 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/951(2019.01) G06F 40/253(2020.01) G06F 40/289(2020.01)G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 16/215(2019.01) (54)发明名称智能化新闻主题情感分析方法、装置、设备及存储介质 (57)摘要本发明涉及人工智能领域，提出一种智能化新闻主题情感分析方法，首先训练Bert/Xlnet+ CRF主体模型的准确率达到预设的抽取准确阈值，将最后一次训练更新的Bert /Xlnet+CRF主体抽取模型作为主体抽取模型；再将最后一次训练更新的Bert主体模型作为主体分析模型，并将主体分析模型与主体抽取模型相联系以形成主体情感分析模型；而后对新闻稿件进行数据清洗以获取目标数据；再将目标数据输入主体情感分析模型以通过主体抽取模型对目标数据进行主体抽取操作以获取新闻主体，并将新闻主体输入至主体情感分析模型以获取与新闻主体对应的情感分析数据，如此，能够轻易获取新闻的主题情绪、主体情感，进而能够根据各类新闻中的词条获取目标企业的舆情。权利要求书3页说明书13页附图2页 CN 114969345 A 2022.08.30 CN 114969345 A 1.一种智能化新闻主题情感分析方法，其特征在于，包括：采用预设的抽取标注方法通过预采集的标注语料对预设的Bert/Xlnet+CRF主体模型进行反复训练，直至所述Bert/Xlnet+CRF主体模型的准确率达到预设的抽取准确阈值，将最后一次训练更新的Ber t/Xlnet+CRF主体抽取模型作为主体抽取模型；将所述主体抽取模型与预训练的主体分析模型相联系以形成主体情感分析模型；其中，所述主体分析模型的训练过程包括：采用预设的分析标注方法通过所述标注语料的情感词条对预设的Bert主体模型进行反复训练，直至所述Bert主体模型的准确率达到预设的分析准确阈值，将最后一次训练更新的Ber t主体模型作为主体分析模型；通过预设的爬虫软件爬取新闻稿件，对所述新闻稿件进行数据清洗以获取目标数据；将所述目标数据输入所述主体情感分析模型，以通过所述主体抽取模型对所述目标数据进行主体抽取操作以获取新闻主体，并将所述新闻主体输入至所述主体情感分析模型以获取与所述新闻主体对应的情感分析数据。 2.如权利要求1所述的智能化新闻主题情感分析方法，其特征在于，所述采用预设的抽取标注方法通过预采集的标注语料对预设的Bert/Xlnet+CRF主体模型进行反复训练，包括：对预采集的标注语料进行长度统计，对统计后的所述标注语料进行数据清洗以获取清洁语料，并采用预设的抽取标注方法对所述清洁语料进行标注以获取标注语料；将所述标注语料按照比例划分为训练数据集和验证数据集；将所述训练数据集输入预搭建的Bert/Xlnet+CRF主体模型中，使所述Bert/Xlnet+CRF 主体模型对所述训练集进行自动主体抽取以获取训练新闻主体；将所述验证集与所述训练新闻主体相对比以获取所述Bert/Xlnet+CRF主体模型的准确率和召回率；根据所述准确率和所述召回率对所述Bert/Xlnet +CRF主体模型进行调整以进行持续、反复训练。 3.如权利要求2所述的智能化新闻主题情感分析方法，其特征在于，所述对统计后的所述标注语料进行数据清洗以获取清洁语料的步骤，包括：对所述统计后的标注语料进行表情剔除，以去除链接、制表符、表情符和不成文字符编码，形成清洁文本；将所述清洁文本全部转换为中文文字以获取清洁语料。 4.如权利要求3所述的智能化新闻主题情感分析方法，其特征在于，所述采用预设的分析标注方法通过所述标注语料的情感词条对预设的Bert主体模型进行反复训练，直至所述 Bert主体模型的准确率达到预设的分析准确阈值，包括：预搭建Bert架构，将所述Bert架构中的bert输入长度限制在限制阈值以内，并对所述 Bert架构中的SegmentEmbeddings主体的新闻参数和主体参数进行定义以形成Bert主体模型；将训练样本输入所述Ber t主体模型中形成特征向量；将所述特征向量输入预设的self ‑attention部分作循环处理以形成编码向量；对所述编码向量进行降维处理以形成预设数量个目标向量；根据所述目标向量与所述测试样本进行交叉熵计算以获取准确率；权　利　要　求　书 1/3 页 2 CN 114969345 A 2根据所述准确率对所述Bert主体模型进行反馈调整以对所述Bert主体模型进行反复训练，直至所述Ber t主体模型的准确率达到预设的分析准确阈值。 5.如权利要求4所述的智能化新闻主题情感分析方法，其特征在于，所述根据所述目标向量与所述测试样本进行交叉熵计算以获取准确率，包括：按照预设的循环轮次，在每一循环轮次中通过对所述目标向量与测试样本进行对比以获取精确度和召回率，并对所述目标向量与测试样本进行交叉熵计算以形成交叉熵损失；基于所述熵损失、所述精确度和召回率计算所述被训练的Ber t主体模型的准确率。 6.如权利要求5所述的智能化新闻主题情感分析方法，其特征在于，所述通过预设的爬虫软件爬取新闻稿件，对所述新闻稿件进行数据清洗以获取目标数据，包括：通过预设的爬虫软件在新闻客户端、网页端、媒体服务端爬取新闻稿件；对所述新闻稿件进行数据清洗以获取目标数据；其中，所述进行数据清洗以获取目标数据，包括：对所述新闻稿件进行表情剔除，以去除链接、制表符、表情符和不成文字符编码，形成清洁数据；将所述清洁数据全部转换为中文文字以获取目标数据。 7.如权利要求6所述的智能化新闻主题情感分析方法，其特征在于，所述新闻主体为所述目标数据中的名词关键词、语气关键词、句式和语法；所述新闻主体对应的情感分析数据包括情感总结关键词和情感分析语句；所述情感总结关键词为所述目标数据的主体情感；所述情感分析语句为所述目标数据的情感介绍。 8.一种智能化新闻主题情感分析装置，其特征在于，所述装置包括：抽取模型建立单元，用于采用预设的抽取标注方法通过预采集的标注语料对预设的 Bert/Xlnet+CRF主体模型进行反复训练，直至所述Bert/ Xlnet+CRF主体模型的准确率达到预设的抽取准确阈值，将最后一次训练更新的Bert/Xlnet+CRF主体抽取模型作为主体抽取模型；分析模型建立单元，用于将所述主体抽取模型与预训练的主体分析模型相联系以形成主体情感分析模型；其中，所述主体分析模型的训练过程包括：采用预设的分析标注方法通过所述标注语料的情感词条对预设的Bert主体模型进行反复训练，直至所述Bert主体模型的准确率达到预设的分析准确阈值，将最后一次训练更新的Bert主体模型作为主体分析模型；数据获取单元，用于通过预设的爬虫软件爬取新闻稿件，对所述新闻稿件进行数据清洗以获取目标数据；情感分析单元，用于将所述目标数据输入所述主体情感分析模型以通过所述主体抽取模型对所述目标数据进行主体抽取操作以获取新闻主体，并将所述新闻主体输入至所述主体情感分析模型以获取与所述新闻主体对应的情感分析数据。 9.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求 1至7中任一所述的权　利　要　求　书 2/3 页 3 CN 114969345 A 3

专利 智能化新闻主题情感分析方法、装置、设备及存储介质

专利智能化新闻主题情感分析方法、装置、设备及存储介质