专利一种从新闻内容中提取品牌信息并计算品牌指数的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210667384.7 (22)申请日 2022.06.13 (71)申请人广东数源智汇科技有限公司地址 519000 广东省珠海市横琴新区环岛东路3000号1016房 (72)发明人李智聪　纪俊光　林泳　 (74)专利代理机构北京深川专利代理事务所 (普通合伙) 16058 专利代理师张彦 (51)Int.Cl. G06V 30/41(2022.01) G06V 10/82(2022.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/242(2020.01) (54)发明名称一种从新闻内容中提取品牌信息并计算品牌指数的方法 (57)摘要本发明涉及一种从新闻内容中提取品牌信息并计算品牌指数的方法。本发明所提供的方法可以方便提取新闻图片，根据图片进行筛选过滤的算法，是一种提取主要文章内容坐标的技术，可以有效修正识别品牌词、成语等错误词语，完整提取出新闻内容，得到文章中相关品牌方的情感指数、品牌权重、品牌指数等信息，准确度提高了45％左右，减少了人工参与，工作效率提高了近2倍。权利要求书1页说明书3页附图6页 CN 115188002 A 2022.10.14 CN 115188002 A 1.一种从新闻内容中提取品牌信息并计算品牌指数的方法，其特征在于，包括步骤如下：步骤一、根据大数据采集系统，将采集到的待识别新闻文章图像完整上传进行扫描整合，首先使用基于卷积递归神经网络的开源算法进行二次开发，和开源算法相比，原算法识别不出图片中哪些属于干扰信息，哪些属于正常新闻内容，而是全部当作新闻内容去识别，二次开发集成了新的卷积递归神经网络训练模型，能识别出图片中属于广告信息，干扰信息的所在坐标大概位置，然后将图片根据坐标信息进行裁剪或者模糊填充去除干扰部分，只识别属于新闻内容的部分，提取得到主要文章内容坐标；步骤二、使用卷积递归神经网络开源算法识别出文章中容所有文字，用于分析语义；步骤三、使用开源项目langid算法，分析出图片语种属于哪个国家，然后基于jieba开源算法进行二次开发分词，相比原算法基础上，开发关于品牌指数和新闻内容相关的特定处理关键词训练模型，使用新的训练模型进行分词提取新闻内容中和品牌指数相关的词语，基于余弦相似计算算法,将其中识别的品牌词、成语中的错误词语进行修正处理，完善新闻文章语义；步骤四、根据jieba开源算法分词拆选出品牌方，利用开源NLP算法项目二次开发，在项目基础上使用python扩充算法，新增支持品牌词、品牌指数信息的可扩展词典算法功能，实时训练样本模型，过滤掉除品牌词的相关内容，获取并计算文章中相关品牌方的情感指数、品牌权重、品牌指数信息。 2.根据权利要求1所述的一种从新闻内容中提取品牌信息并计算品牌指数的方法，其特征在于：步骤一中所述卷积递归神经网络结合了CNN、 RNN和CTC损失，用于基于图像的序列识别任务。权　利　要　求　书 1/1 页 2 CN 115188002 A 2一种从新闻内容中提取品牌信息并计算品牌指数的方法技术领域 [0001]本发明涉及图片、文字的分析处理技术领域，具体为一种从新闻内容中提取品牌信息并计算品牌指数的方法。背景技术 [0002]新闻内容提取品牌指数的分析方法运用了大数据采集系统对全网新闻数据进行采集，将采集回来的数据通过OCR识别技术算法,新闻内容抽取算法,新闻内容分词打标处理算法,从互联网新闻内容中提取品牌及品牌相关内容数据，通过品牌指数算法生成品牌指数。 [0003]OCR识别是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。单单只是识别字体，无法准确获取新闻的本身语义以及关键热词，品牌词之类信息，且OCR技术会将整篇网页内的所有文字全部提出，包含大量垃圾信息，不利于阅读、分析。因此，智能A I处理技术需要一种可以把所有文字提取出来且智能分词，去除垃圾信息，智能打标，提取出新闻内容和品牌指数信息，从而获取利于阅读的有价值的信息技术。发明内容 [0004]鉴于现有技术中所存在的问题，本发明公开了一种从新闻内容中提取品牌信息并计算品牌指数的方法，包括步骤如下：步骤一、根据大数据采集系统，将采集到的待识别新闻文章图像完整上传进行扫描整合，首先使用基于卷积递归神经网络的开源算法进行二次开发，和开源算法相比，原算法识别不出图片中哪些属于干扰信息，哪些属于正常新闻内容，而是全部当作新闻内容去识别，二次开发集成了新的卷积递归神经网络训练模型，能识别出图片中属于广告信息，干扰信息的所在坐标大概位置，然后将图片根据坐标信息进行裁剪或者模糊填充去除干扰部分，只识别属于新闻内容的部分，提取得到主要文章内容坐标；比如获取到一个如图2所示的完整网页，除了新闻内容还有一些广告，以及其他类型的新闻，相似类型的新闻推荐，一张新闻文章图片中，基本有比较明确的广告框和文章的分割线，大部分新闻内容都存在与网页的正中间位置或者靠左位置。上传图片至服务器，根据图片中像素值和色彩值、灰度进行范围查找，找到其中正文存在的大概位置，对偏离正文大概区域的部位判断为属于垃圾信息，如图3所示，打上标记信息，根据标记信息对图片进行区域分割裁剪或者模糊填充处理，利用matlab引擎重新生成图片，如图4所示；步骤二、使用卷积递归神经网络开源算法识别出文章中容所有文字，用于分析语义；步骤三、使用开源项目langid算法，分析出图片语种属于哪个国家，然后基于 jieba开源算法进行二次开发分词，相比原算法基础上，开发关于品牌指数和新闻内容相关的特定处理关键词训练模型，使用新的训练模型进行分词提取新闻内容中和品牌指数相关的词语，基于余弦相似计算算法,将其中识别的品牌词、成语中的错误词语进行修正处理，说　明　书 1/3 页 3 CN 115188002 A 3

专利 一种从新闻内容中提取品牌信息并计算品牌指数的方法

专利一种从新闻内容中提取品牌信息并计算品牌指数的方法