说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210680074.9 (22)申请日 2022.06.16 (71)申请人 平安科技 (深圳) 有限公司 地址 518033 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 袁超 李敏 徐介夫  (74)专利代理 机构 北京鸿元知识产权代理有限 公司 11327 专利代理师 袁文婷 张娓娓 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/951(2019.01) G06F 40/253(2020.01) G06F 40/289(2020.01)G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 16/215(2019.01) (54)发明名称 智能化新闻主题情感分析方法、 装置、 设备 及存储介质 (57)摘要 本发明涉及人工智能领域, 提出一种智能化 新闻主题情感分析方法, 首先训练Bert/Xlnet+ CRF主体模型的准确率达到预设的抽取准确阈 值, 将最后一次训练更新的Bert /Xlnet+CRF主体 抽取模型作为主体抽取模型; 再将最后一次训练 更新的Bert主体模型作为主体分析模型, 并将主 体分析模型与主体抽取模型相联系以形成主体 情感分析模 型; 而后对新闻稿件进行数据清洗以 获取目标数据; 再将目标数据输入主体情感分析 模型以通过主体抽取模型对目标数据进行主体 抽取操作以获取新闻主体, 并将新闻主体输入至 主体情感分析模型以获取与新闻主体对应的情 感分析数据, 如此, 能够轻易获取新闻的主题情 绪、 主体情感, 进而能够根据各类新闻中的词条 获取目标企业的舆情。 权利要求书3页 说明书13页 附图2页 CN 114969345 A 2022.08.30 CN 114969345 A 1.一种智能化 新闻主题情感分析 方法, 其特 征在于, 包括: 采用预设的抽取标注方法通过预采集的标注语料对预设的Bert/Xlnet+CRF主体模型 进行反复训练, 直至所述Bert/Xlnet+CRF主体模型的准确率达到预设的抽取准确阈值, 将 最后一次训练更新的Ber t/Xlnet+CRF主体抽取模型作为主体抽取模型; 将所述主体抽取模型与预训练的主体分析模型相联系以形成主体情感分析模型; 其 中, 所述主体分析模型 的训练过程包括: 采用预设的分析标注方法通过所述标注语料 的情 感词条对 预设的Bert主体模 型进行反复训练, 直至所述Bert主体模 型的准确率达到预设的 分析准确阈值, 将最后一次训练更新的Ber t主体模型作为主体分析模型; 通过预设的爬虫软件爬取新闻稿件, 对所述新闻稿件进行数据清洗以获取目标数据; 将所述目标数据输入所述主体情感分析模型, 以通过所述主体抽取模型对 所述目标数据进 行主体抽取操作以获取新闻主体, 并将所述新闻主体输入至所述主体情感分析模型以获取 与所述新闻主体对应的情感分析 数据。 2.如权利要求1所述的智能化新闻主题情 感分析方法, 其特征在于, 所述采用预设的抽 取标注方法通过预采集的标注语料对预设的Bert/Xlnet+CRF主体模型进行反复训练, 包 括: 对预采集的标注语料进行长度统计, 对统计后的所述标注语料进行数据清洗以获取清 洁语料, 并采用预设的抽取标注方法对所述清洁语料进行标注以获取标注语料; 将所述标 注语料按照比例划分为训练数据集和验证数据集; 将所述训练数据集输入预搭建的Bert/Xlnet+CRF主体模型 中, 使所述Bert/Xlnet+CRF 主体模型对所述训练集进行自动主体抽取以获取训练新闻主体; 将所述验证集与所述训练新闻主体相对比以获取所述Bert/Xlnet+CRF主体模型的准 确率和召回率; 根据所述准确率和所述召回率对所述Bert/Xlnet +CRF主体模型进行调整以进行持续、 反复训练。 3.如权利要求2所述的智能化新闻主题情 感分析方法, 其特征在于, 所述对统计后的所 述标注语料进行 数据清洗以获取清洁语料的步骤, 包括: 对所述统计后的标注语料进行表情剔除, 以去除链接、 制表符、 表情符和不成文字符编 码, 形成清洁文本; 将所述清洁文本全部转换为中文 文字以获取清洁语料。 4.如权利要求3所述的智能化新闻主题情 感分析方法, 其特征在于, 所述采用预设的分 析标注方法通过所述标注语料的情感词条对预设的Bert主体模型进 行反复训练, 直至所述 Bert主体模型的准确率达 到预设的分析准确阈值, 包括: 预搭建Bert架构, 将所述Bert架构中的bert输入长度限制在限制阈值以内, 并对所述 Bert架构中的SegmentEmbeddings主体的新闻参数和主体参数进行定义以形成Bert主体模 型; 将训练样本 输入所述Ber t主体模型中形成特 征向量; 将所述特 征向量输入预设的self ‑attention部分作循环处 理以形成编码向量; 对所述编码向量进行降维处 理以形成预设数量个目标向量; 根据所述目标向量与所述测试样本进行交叉熵计算以获取准确率;权 利 要 求 书 1/3 页 2 CN 114969345 A 2根据所述准确率对所述Bert主体模型进行反馈调整以对所述Bert主体模型进行反复 训练, 直至所述Ber t主体模型的准确率达 到预设的分析准确阈值。 5.如权利要求4所述的智能化新闻主题情 感分析方法, 其特征在于, 所述根据 所述目标 向量与所述测试样本进行交叉熵计算以获取准确率, 包括: 按照预设的循环轮次, 在每一循环轮次中通过对所述目标向量与测试样本进行对比以 获取精确度和召回率, 并对所述目标向量与测试样本进行交叉熵计算以形成交叉熵损失; 基于所述熵损失、 所述精确度和召回率计算所述被训练的Ber t主体模型的准确率。 6.如权利要求5所述的智能化新闻主题情 感分析方法, 其特征在于, 所述通过预设的爬 虫软件爬取新闻稿件, 对所述 新闻稿件进行 数据清洗以获取目标 数据, 包括: 通过预设的爬虫 软件在新闻客户端、 网页端、 媒体服 务端爬取新闻稿件; 对所述新闻稿件进行数据清洗以获取目标数据; 其中, 所述进行数据清洗以获取目标 数据, 包括: 对所述新闻稿件进行表情剔除, 以去除链接、 制表符、 表情符和不成文字符编码, 形成 清洁数据; 将所述清洁数据全部转换为中文 文字以获取目标 数据。 7.如权利要求6所述的智能化 新闻主题情感分析 方法, 其特 征在于, 所述新闻主体为所述目标 数据中的名词关键词、 语气关键词、 句式和语法; 所述新闻主体对应的情感分析数据包括情感总结关键词和情 感分析语句; 所述情 感总 结关键词为所述目标 数据的主体情感; 所述情感分析语句为所述目标 数据的情感介绍。 8.一种智能化 新闻主题情感分析装置, 其特 征在于, 所述装置包括: 抽取模型建立单元, 用于采用预设的抽取标注方法通过预采集的标注语料对预设的 Bert/Xlnet+CRF主体模型进行反复训练, 直至 所述Bert/ Xlnet+CRF主体模型的准确率达到 预设的抽取准确阈值, 将最后一次训练更新的Bert/Xlnet+CRF主体抽取模 型作为主体抽取 模型; 分析模型建立单元, 用于将所述主体抽取模型与 预训练的主体分析模型相联系以形成 主体情感分析模型; 其中, 所述主体分析模型的训练过程包括: 采用预设的分析标注方法通 过所述标注语料的情感词条对 预设的Bert主体模型进行反复训练, 直至所述Bert主体模 型 的准确率达到预设的分析准确阈值, 将最后一次训练更新的Bert主体模型作为主体 分析模 型; 数据获取单元, 用于通过预设的爬虫软件爬取新闻稿件, 对所述新闻稿件进行数据清 洗以获取目标 数据; 情感分析单元, 用于将所述目标数据输入所述主体情 感分析模型以通过所述主体抽取 模型对所述目标数据进行主体抽取操作以获取新闻主体, 并将所述新闻主体输入至所述主 体情感分析模型以获取与所述 新闻主体对应的情感分析 数据。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及, 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使 所述至少一个处理器能够执行如权利要求 1至7中任一所述的权 利 要 求 书 2/3 页 3 CN 114969345 A 3

.PDF文档 专利 智能化新闻主题情感分析方法、装置、设备及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 智能化新闻主题情感分析方法、装置、设备及存储介质 第 1 页 专利 智能化新闻主题情感分析方法、装置、设备及存储介质 第 2 页 专利 智能化新闻主题情感分析方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。