专利融合语义信息的舆情传播量预测方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210673988.2 (22)申请日 2022.06.15 (71)申请人青岛文达通科技股份有限公司地址 266500 山东省青岛市黄岛区望江路 500号 (72)发明人管洪清　徐亮　王伟　张元杰　张大千　尹广楹　孙浩云　 (74)专利代理机构济南圣达知识产权代理有限公司 372 21 专利代理师董雪 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 50/00(2012.01) G06N 3/04(2006.01) G06N 5/00(2006.01)G06N 20/20(2019.01) G06K 9/62(2022.01) G06F 40/30(2020.01) (54)发明名称融合语义信息的舆情传播量预测方法及系统 (57)摘要本发明提供一种融合语义信息的舆情传播量预测方法及系统，属于信息处理技术领域，包括：对于获取的微博数据，利用预先构建的回归模型提取维度特征；使用基于注意力机制的双向长短时记忆模型提取微博数据的语义特征；将提取的维度特征和语义特征进行合并；对合并后的特征通过决策树算法完成传播量的预测。本发明对微博数据在转发量、点赞量和评论量等维度进行了特征提取，提取了多维度特征，并借助集成学习的方法完成回归模型的构建；使用基于注意力机制的双向LS TM提取语义特征，对不同的文字具有不同训练权重，加入防止过拟合的策略；将维度特征进行合并送入决策树，使网络既能进行用户建模又能对微博内容进行理解，提升了消息传播量预测的准确率。权利要求书1页说明书5页附图2页 CN 114897270 A 2022.08.12 CN 114897270 A 1.一种融合语义信息的舆情传播量预测方法，其特征在于，包括：对于获取的微博数据，利用预先构建的回归模型提取维度特征；使用基于注意力机制的双向长短时记忆模型提取微博数据的语义特征；将提取的维度特征和语义特征进行合并；对合并后的特征通过决策树算法完成传播量的预测。 2.根据权利要求1所述的融合语义信息的舆情传播量预测方法，其特征在于，对微博数据利用特征工程，提取出构建回归模型所需要的特征。 3.根据权利要求1所述的融合语义信息的舆情传播量预测方法，其特征在于，使用基于注意力机制的双向长短时记忆模型提取微波数据的语义特征，使模型对不同的文字具有不同训练权重，同时加入防止过拟合的策略实现语义特征提取。 4.根据权利要求1所述的融合语义信息的舆情传播量预测方法，其特征在于，将预先构建的回归模型和双向长短时记忆模型所提取的特征进行合并送入决策树，使网络既能进行用户建模又能对微博内容进行理解，以提升传播量预测准确率。 5.根据权利要求1所述的融合语义信息的舆情传播量预测方法，其特征在于，维度特征包括在转发量、点赞量和评论量三个维度上的特征。 6.根据权利要求5所述的融合语义信息的舆情传播量预测方法，其特征在于，采用LSTM 模型、 RNN模型、 BiRNN模型或者XGboost模型中的一种对微博转发量、点赞量和评论量特征值进行预测。 7.一种融合语义信息的舆情传播量预测系统，其特征在于，包括：第一提取模块，用于对于获取的微博数据，利用预先构建的回归模型提取维度特征；第二提取模块，用于使用基于注意力机制的双向长短时记忆模型提取微博数据的语义特征；融合模块，用于将提取的维度特征和语义特征进行合并；预测模块，用于对合并后的特征通过决策树算法完成传播量的预测。 8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如权利要求 1‑6任一项所述的融合语义信息的舆情传播量预测方法。 9.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序当在一个或多个处理器上运行时，用于实现如权利要求1 ‑6任一项所述的融合语义信息的舆情传播量预测方法。 10.一种电子设备，其特征在于，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如权利要求1 ‑6任一项所述的融合语义信息的舆情传播量预测方法的指令。权　利　要　求　书 1/1 页 2 CN 114897270 A 2融合语义信息的舆情传播量预测方法及系统技术领域 [0001]本发明涉及信息处理技术领域，具体涉及一种融合语义信息的舆情传播量预测方法及系统。背景技术 [0002]对于微博的传播量预测，模型对提取出来的特征进行建模，对微博的点赞量、转发量、评论量等特征在低维度上进行表达，但是如果只使用基于集成学习的回归模型进行传播量预测，可能其准确率会较低，因为微博的传播量不仅跟微博主的特征有关系，还与微博内容本身有关系。如果微博内容中有 “@他人”，或者是带有明显的感情色彩，那么它传播的概率会相应的变大。因此，如果能将微博内容输入模型，那么模型在处理不同的微博内容的时候就会有所偏重，进而提高预测效果。 [0003]在以往的预测模型中，通过LDA主题模型， TF ‑IDF等模型可以提取文本的主要特征，但是这些特征在一定程度上仅基于统计方法的抽取，并没有对微博的文本内容做出理解。为了使得模型能够通过理解微博内容来进行预测，建立深度神经网络进行微博内容的特征提取。 [0004]现有的一种基千时变阻尼运动的在线社交网络信息传播构建方法，包括以下步骤： S1，获取在线社交网络节点上的个体特征； S2，根据步骤S1获取的个体特征计算信息传播加速度； S3，获取信息传播在网络节点上的受力状况； S4，判断信息剩余能量是否大千或者等千信息预设能量阅值； S5，统计网络节点上用户传播量，预测热点度。 [0005]然而，上述现有的当前对于舆情传播量预测的模型大多仅考虑特定的数据属性或使用与TF ‑IDF类似的统计特征进行训练，忽略了微博语义信息对传播量预测的影响，因此无法准确对舆情传播量进行预测。发明内容 [0006]本发明的目的在于提供一种能够准确有效的预测消息传播量的融合语义信息的舆情传播量预测方法及系统，以解决上述背景技术中存在的至少一项技术问题。 [0007]为了实现上述目的，本发明采取了如下技术方案： [0008]一方面，本发明提供一种融合语义信息的舆情传播量预测方法，包括： [0009]对于获取的微博数据，利用预先构建的回归模型提取维度特征； [0010]使用基于注意力机制的双向长短时记忆模型提取微博数据的语义特征； [0011]将提取的维度特征和语义特征进行合并； [0012]对合并后的特征通过决策树算法完成传播量的预测。 [0013]可选的，对微博数据利用特征工程，提取出构建回归模型所需要的特征。 [0014]可选的，使用基于注意力机制的双向长短时记忆模型提取微波数据的语义特征，使模型对不同的文字具有不同训练权重，同时加入防止过拟合的策略实现语义特征提取。 [0015]可选的，将预先构建的回归模型和双向长短时记忆模型所提取的特征进行合并送说　明　书 1/5 页 3 CN 114897270 A 3

专利 融合语义信息的舆情传播量预测方法及系统

专利融合语义信息的舆情传播量预测方法及系统