说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210667384.7 (22)申请日 2022.06.13 (71)申请人 广东数源智汇科技有限公司 地址 519000 广东省珠海市横琴新区环岛 东路3000号1016房 (72)发明人 李智聪 纪俊光 林泳  (74)专利代理 机构 北京深川专利代理事务所 (普通合伙) 16058 专利代理师 张彦 (51)Int.Cl. G06V 30/41(2022.01) G06V 10/82(2022.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/242(2020.01) (54)发明名称 一种从新闻内容中提取品牌信息并计算品 牌指数的方法 (57)摘要 本发明涉及一种从新闻内容中提取品牌信 息并计算品牌指数的方法。 本发 明所提供的方法 可以方便提取新闻图片, 根据图片进行筛选过滤 的算法, 是一种提取主要文章内容坐标的技术, 可以有效修正识别品牌词、 成语等错误词语, 完 整提取出新闻内容, 得到文章中相关品牌方的情 感指数、 品牌权重、 品牌指数等信息, 准确度提高 了45%左右, 减少了人工参与, 工作效率提高了 近2倍。 权利要求书1页 说明书3页 附图6页 CN 115188002 A 2022.10.14 CN 115188002 A 1.一种从新闻内容中提取品牌信息并计算品牌指数的方法, 其特征在于, 包括步骤如 下: 步骤一、 根据大数据采集系统, 将采集到的待识别新闻文章图像完整上传进行扫描整 合, 首先使用基于卷积递归神经网络的开源算法进 行二次开 发, 和开源算法相比, 原算法识 别不出图片中哪些属于干扰信息, 哪些属于正常新闻内容, 而 是全部当作新闻内容去识别, 二次开发集成了新的卷积递归神经网络训练模型, 能识别出图片 中属于广告信息, 干扰信 息的所在坐标大概位置, 然后将图片根据坐标信息进行裁剪或者模糊填充去除干扰部分, 只识别属于新闻 内容的部分, 提取 得到主要文章内容 坐标; 步骤二、 使用卷积递归神经网络开源算法识别出文章中容所有 文字, 用于分析语义; 步骤三、 使用开源项 目langid算法, 分析出 图片语种属于哪个国家, 然后基于jieba开 源算法进行二次开发分词, 相比原算法基础上, 开发关于品牌指数和新闻内容相关的特定 处理关键词训练模型, 使用新的训练模型进行分词提取新闻内容中和品牌指数相关的词 语, 基于余弦相似计算算法,将其中识别的品牌词、 成语中的错误词语进行修正处理, 完善 新闻文章语义; 步骤四、 根据jieba开源算法分词拆选出品牌方, 利用开源NLP算法项目二次开发, 在项 目基础上使用python扩充算法, 新增支持品牌词、 品牌指数信息的可扩展词典算法功能, 实 时训练样本模型, 过滤掉除品牌词的相关内容, 获取并计算文章中相关 品牌方的情感指数、 品牌权重、 品牌指数信息 。 2.根据权利要求1所述的一种从新闻内容中提取品牌信息并计算品牌指数的方法, 其 特征在于: 步骤一中所述卷积递归神经网络结合了CNN、 RNN和CTC损失, 用于基于图像的序 列识别任务。权 利 要 求 书 1/1 页 2 CN 115188002 A 2一种从新 闻内容中提取品牌信息并计算品牌指数的方 法 技术领域 [0001]本发明涉及图片、 文字 的分析处理技术领域, 具体为一种从新闻内容中提取品牌 信息并计算品牌指数的方法。 背景技术 [0002]新闻内容提取品牌指数的分析方法运用了大数据采集系统对全网新闻数据进行 采集, 将采集回来的数据通过OCR识别技术算法,新闻内容抽取算法,新闻内容分词打标处 理算法,从互联网新闻内容中提取品牌及 品牌相关内容数据, 通过品牌指数算法生成品牌 指数。 [0003]OCR识别是指对文本资料的图像文件进行分析识别处理, 获取文字及版面信息 的 过程。 单单只是识别字体, 无法准确获取新闻的本身语义以及关键热词, 品牌词之类信息, 且OCR技术会将整篇网页内的所有文字全部提出, 包含大量垃圾信息, 不利于阅读、 分析。 因 此, 智能A I处理技术需要一种可以把所有文字提取出来且智能分词, 去除垃圾信息, 智能打 标, 提取出新闻内容和品牌指数信息, 从而获取利于阅读的有价 值的信息技 术。 发明内容 [0004]鉴于现有技术中所存在的问题, 本发明公开了一种从新闻内容中提取品牌信息并 计算品牌指数的方法, 包括 步骤如下: 步骤一、 根据大数据采集系统, 将采集到 的待识别新闻文章图像完整上传进行扫 描整合, 首先使用基于卷积递归神经网络的开源算法进 行二次开 发, 和开源算法相比, 原 算 法识别不出图片 中哪些属于干扰信息, 哪些属于正常新闻内容, 而是全部当作新闻内容去 识别, 二次开 发集成了新的卷积递归神经网络训练模型, 能识别出图片中属于广告信息, 干 扰信息的所在坐标大概位置, 然后 将图片根据坐标信息进 行裁剪或者模糊填充去除干扰部 分, 只识别属于新闻 内容的部分, 提取 得到主要文章内容 坐标; 比如获取到一个如图2所示的完整网页, 除了新闻内容还有一些广告, 以及其他类 型的新闻, 相似类型的新闻推荐, 一张新闻文章图片中, 基本有比较明确的广告框和文章的 分割线, 大部 分新闻内容 都存在与网页的正中间位置或者靠左位置。 上传图片 至服务器, 根 据图片中像素值和色彩值、 灰度进行范围查找, 找到其中正文存在的大概位置, 对偏离正文 大概区域的部位判断为属于垃圾信息, 如图3所示, 打上标记信息, 根据标记信息对图片进 行区域分割裁 剪或者模糊填充处 理, 利用matlab引擎重新 生成图片, 如图4所示; 步骤二、 使用卷积递归神经网络开源算法识别出文章中容所有文字, 用于分析语 义; 步骤三、 使用开源项目langid算法, 分析出图片语种属于哪个国家, 然后基于 jieba开源算法进 行二次开发分词, 相比原 算法基础上, 开 发关于品牌指数和新闻内容相关 的特定处理关键词训练模型, 使用新的训练模型进行分词提取新闻内容中和品牌指数相关 的词语, 基于余弦相似计算算法,将其中识别的品牌词、 成语中的错误词语进行修正处理,说 明 书 1/3 页 3 CN 115188002 A 3

.PDF文档 专利 一种从新闻内容中提取品牌信息并计算品牌指数的方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种从新闻内容中提取品牌信息并计算品牌指数的方法 第 1 页 专利 一种从新闻内容中提取品牌信息并计算品牌指数的方法 第 2 页 专利 一种从新闻内容中提取品牌信息并计算品牌指数的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:06:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。