说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210594239.0 (22)申请日 2022.05.27 (71)申请人 华中科技大 学 地址 430074 湖北省武汉市洪山区珞喻路 1037号 (72)发明人 康玲 周丽伟 温云亮 李江珊 田潘 叶金旺 (74)专利代理 机构 华中科技大 学专利中心 42201 专利代理师 王颖翀 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06Q 50/00(2012.01) (54)发明名称 一种基于双层fastText模型的水务舆情大 数据分析方法 (57)摘要 本发明公开了一种基于双层fastText模型 的水务舆情大数据分析方法, 利用增量式爬虫在 互联网中实时获取海量水务舆情文本数据, 基于 中文常用停用词表及分词技术对水务舆情文本 数据进行预处理, 然后将预处理后的词和词组输 入词向量化模型中构造文本特征向量后输入到 训练后的fastText模型中, 计算每个文本 特征向 量的类别概率, 对获取到的水务舆情文本数据进 行主题分类与情感分析, 最终得到水务舆情文本 数据的主题类别及情感特征。 本发 明所提供的方 法信息获取速度快、 时效性强, 能实时从互联网 中获取水务舆情文本, 对文本分类和情感分析的 速度更快, 且能根据分类信息自动将其分配至相 关水务部门, 有助于水务管 理人员针对性地处理 水务舆情数据, 感知水务舆情态 势。 权利要求书1页 说明书5页 附图2页 CN 114996450 A 2022.09.02 CN 114996450 A 1.一种基于双 层fastText模型的水务舆情大 数据分析 方法, 其特 征在于, 包括: 训练阶段: 采用训练集训练双层fastText模型; 所述训练集中的训练样本为对水务舆情文本依次 进行去停用 词、 分词及词向量化处理后得到的文本特征向量, 标签为所述文本特征向量的 主题类别及情感特 征; 应用阶段: 对待分析的水务舆情文本依次进行去停用词、 分词及词向量化处理后得到的文本特征 向量, 并将其输入至训练后的双层fastT ext模型, 得到分析结果, 即水务舆情文本对应的主 题类别及情感特 征。 2.如权利要求1所述的方法, 其特征在于, 对水务舆情文本依次进行去停用词、 分词处 理后得到词和词组, 将所述词和词组输入至词向量化模型进行词向量化处理, 得到文本特 征向量。 3.如权利要求2所述的方法, 其特 征在于, 所述词向量 化模型为 n‑gram语言模型。 4.如权利要求1所述的方法, 其特征在于, 基于停用词表对所述水务舆情文本进行去停 用词处理; 其中, 所述停用词表包括 通用领域停用词及水务领域停用词。 5.如权利 要求1所述的方法, 其特征在于, 所述双层fastText模型的第一层为主题分类 模型, 第二层为情感分析模型。 6.如权利要求1所述的方法, 其特征在于, 采用增量式定时爬虫技术从网络平台获取水 务舆情文本 。 7.如权利要求1所述的方法, 其特征在于, 所述主题类别为供水、 水费、 水污染、 水灾害、 水工程中的任一种; 所述情感特 征为正面、 中性、 负面中的任一种。 8.一种基于双层fastText模型的水务舆情大数据分析系统, 其特征在于, 包括: 计算机 可读存储介质和处 理器; 所述计算机可读存 储介质用于存 储可执行指令; 所述处理器用于读取所述计算机可读存储介质中存储的可执行指令, 执行如权利要求 1‑7任一项所述的方法。权 利 要 求 书 1/1 页 2 CN 114996450 A 2一种基于双层fa stText模型的水务舆情大数据分析方 法 技术领域 [0001]本发明属于大数据挖掘领域, 更具体地, 涉及一种基于双层fastText模型的水务 舆情大数据分析 方法。 背景技术 [0002]在当今智能网络时代, 市民们通过网络媒体反映各种问题和建议的诉求日益凸 显, 逐渐成为反映社会舆情的主要载体。 社 交媒体数据是网络大数据的重要组成部 分, 具有 参与度广泛、 时空动态信息丰富、 实时性强、 网络信息量大和内容综合程度高等特点, 被越 来越多地应用到舆情信息的获取和监测之中, 逐渐成为相关管理部门获取民众反馈信息的 重要手段。 因此, 对网络大数据中蕴含的城市水务舆情信息进 行抽取和分析, 构建集数据获 取、 信息挖掘、 情感分析于一体的水务舆情大数据分析系统, 可以提升水务管 理部门的态势 感知能力, 并给予技 术辅助决策支持。 [0003]针对主题分类和舆情分析的研究包括主题挖掘、 情感分析、 话题识别和 关键词提 取等。 舆情分析最早应用于社会民意调查中, 随着互联网的发展, 逐渐被应用于多 领域热点 舆情信息的监测与追踪。 目前采用传统的水务舆情分析 方法存在以下问题: [0004](1)传统水务舆情信息的获取需要人工登录相应网站后, 从网站上有选择的下载 相关的水务舆情信息, 水务舆情信息的获取滞后、 且获取时间长; [0005](2)传统的水务舆情信息 的分析需要人工对获取的水务舆情信息进行分析后, 分 配至有关水务部门进行处 理, 时效性较差, 难以满足应急管理工作要求 等不足。 发明内容 [0006]针对现有技术的以上缺陷或改进需求, 本 发明提供了一种基于双层fastText模型 的水务舆情大数据分析方法, 针对传统水务舆情获取与分析滞后、 耗时长等问题, 本发明运 用词向量计算和fastText模 型, 基于浅层网络设计, 通过保留文本的低层信息, 实现对 水务 舆情文本数据的主题分类与情感分析, 最终得到水务舆情文本数据的主题类别及情感特 征。 [0007]为实现上述目的, 按照本发明的第一方面, 提供了一种基于双层fastText模型的 水务舆情大 数据分析 方法, 包括: [0008]训练阶段: [0009]采用训练集训练双层fastText模型; 所述训练集中的训练样本为对水务舆情文本 依次进行去停用词、 分词及词向量化处理后得到的文本特征向量, 标签为所述文本特征向 量的主题类别及情感特 征; [0010]应用阶段: [0011]对待分析的水务舆情文本依次进行去停用词、 分词及词向量化处理后得到的文本 特征向量, 并将其输入至训练后的双层fastText模 型, 得到分析结果, 即水务舆情文本对应 的主题类别及情感特 征。说 明 书 1/5 页 3 CN 114996450 A 3
专利 一种基于双层fastText模型的水务舆情大数据分析方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-18 14:07:30
上传分享
举报
下载
原文档
(546.7 KB)
分享
友情链接
ISO-IEC-IEEE 29119-1 2022 Software and systems engineering - Software testing - Part 1 General concepts.pdf
ISO 22435 2024 Gas cylinders — Cylinder valves with integrated pressure regula.pdf
ISO 22662 2024 Milk and milk products — Determination of lactose content by.pdf
ISO 12224-1 2024 Solder wire solid and flux-cored Specification and test methods Part 1 Classification and performance requirements.pdf
ISO 21308-1 2018 Road vehicles Product data exchange between chassis and bodywork manufacturers (BEP) Part 1 General principles.pdf
ISO 603-9 2024 Bonded abrasive products — Dimensions — Part 9 Grinding wheels.pdf
ISO 7076-6 2016 Fire protection — Foam fire extinguishing systems — Part 6 Vehicle mounted compressed air foam systems.pdf
ISO IEC 26550 2015 Software and systems engineering — Reference model for product line engineering and management.pdf
ISO 13879 1999 Petroleum and natural gas industries — Content and drafting of a functional specification.pdf
ISO 13799 2020 Ships and marine technology Ship s mooring and towing fittings Recessed bitts (casting type).pdf
GB-T 20658-2006 原油和液体石油产品 粘稠烃的体积计量.pdf
GB-T 24136-2009 橡胶或塑料涂覆织物 耐液体性能的测定.pdf
GB-T 4167-2024 砝码.pdf
GB-T 41146-2021 绝缘液体取样方法.pdf
GB-T 21355-2022 无损检测 基于存储磷光成像板的工业计算机射线照相检测 系统分类.pdf
GB-T 17127.2-1997 农业轮式拖拉机和机具 三点悬挂挂接器 第2部分 A型框架式挂接器.pdf
GB-T 44452-2024 工业过程测量控制和自动化 系统和部件的生命周期管理.pdf
GB-T 12204-2010 金属切削 基本术语.pdf
GB-T 23129-2008 家用咖啡机性能测试方法.pdf
GB 9448-1999 焊接与切割安全.pdf
1
/
3
9
评价文档
赞助1.5元 点击下载(546.7 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。