说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111576670.4 (22)申请日 2021.12.2 2 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 付波 刘术辉  (74)专利代理 机构 电子科技大 学专利中心 51203 代理人 邹裕蓉 (51)Int.Cl. G06K 9/62(2022.01) G06V 10/764(2022.01) G06N 20/00(2019.01) (54)发明名称 一种基于稀疏时间序列数据的事件发生时 间预测方法 (57)摘要 本发明公开了一种基于稀疏时间序列数据 的事件发生时间预测方法, 分为统计特征选择和 模型训练测试两个步骤依次实施, 统计特征选择 是采用单因素分析的方法, 通过统计检验初步选 择出有显著差异的特征; 模型训练测试是使用筛 选完成的特征构造新的时间序列特征并使用梯 度提升树进行训练。 本发明简化了特征构造方 式, 有效解决了时序数据的特征构造在不同的数 据系统中存在较大差异无法通用的问题, 同时预 测精度相比于其 他的方法提升明显 。 权利要求书1页 说明书3页 附图3页 CN 114239743 A 2022.03.25 CN 114239743 A 1.一种基于稀疏时间序列数据的事 件发生时间预测方法, 其特 征在于: S1.对稀疏时间序列数据进行数据分类, 将在观测时间长度内未发生变换的作为静态 数据, 持续随时间变化的作为动态数据, 间断出现且只有0与1两种状态的作为离 散数据; S2.按数据类别进行 特征提取: 对于静态数据, 选取与事 件相关的特 征作为静态数据特 征; 对于动态数据, 先按事件是否发生进行分组, 再对各动态数据提取数据 特征, 再计算数 据特征的置信度, 再按保留置信度小于0.1的数据特征的方式进 行筛选; 筛选后的数据特征 作为原始动态特征, 再将原始动态特征对应时间点之前的一段时间的数据特征作时序特 征, 原始动态特 征和其对应的时序特 征合并为 最终的动态数据特 征; 对于离散数据, 先对离散数据进行独热编码作为离散数据的原始离散特征, 再对每个 原始特征 统计在对应时间点之前的原始特征出现次数作为计数特征, 原始离散特征和其对 应的计数 特征合并为 最终的离 散数据特 征; S3.将同一时间点的静态数据特征、 时间特征序列和离散数据特征进行拼接形成模型 的输入特征, 再按照事件是否发生进行贴标后形成训练数据; 将观测时间内的训练数据形 成训练集输入至事 件发生预测模型中进行训练; S4.将待预测的稀疏时间序列数据通过S1 ‑S2步骤, 将同一时间点的静态数据特征、 时 间特征序列和离散数据特征进行拼接形成模型的输入特征输入至训练完成的事件发生预 测模型中, 事 件发生预测模型输出对应时间点是否发生事 件的预测结果。 2.如权利要求1方法, 其特征在于, 计算数据特征的置信度之前, 先判断特征是否属于 无法使用数字进行量化或者观测次数少 于总事件发生次数 的情况, 如是, 则丢弃该数据特 征, 否则再计算该算数据特 征的置信度。 3.如权利要求1方法, 其特征在于, 计算数据特征的置信度的具体方式为: 对于每一个 数据特征使用KS检验该数据特征的分布是否服从正态分布, 如是则使用独立样本的T检验 计算置信度, 否则使用Man n‑Whitney U检验计算置信度。 4.如权利要求1方法, 其特征在于, 原始动态特征Fi(t)对应的时序特征为: Fi(t‑2), Fi (t‑4), Fi(t)‑Fi(t‑1),Fi(t‑1)‑Fi(t‑3), t为当前时间点。 5.如权利要求1方法, 其特征在于, 事件发生预测模型由多个子模型组成, 在事件发生 预测模型训练过程中, 使用多折交叉验证方法将训练集输入多个子模型训练, 并使用多个 子模型输出的均值作为 最后的预测值。 6.如权利要求5方法, 其特征在于, 在事件发生预测模型训练过程中, 采用自定义评价 函数和贝叶斯超参数优化训练子模型。权 利 要 求 书 1/1 页 2 CN 114239743 A 2一种基于稀 疏时间序列 数据的事件发生时间预测方 法 技术领域 [0001]本发明涉及机器学习技 术, 特别涉及基于时间序列数据的事 件预测技 术。 背景技术 [0002]时间序列数据是一串按时间维度索引的数据, 这类数据描述了某个被测量的主体 在一个时间范围内的每个时间点上的测量值。 对时序数据通常会包含三个部 分, 分别是: 主 体, 时间点和测量值。 稀疏表示的目的就是在给定的超完备字典中用尽可能少的原子来表 示信息, 可以获得信息更为简洁的表示方式, 从而使我们 更容易地获取信号中所蕴含的信 息, 更方便进一步对信号进 行加工处理。 基于稀疏时间序列数据的事件发生时间预测, 用于 根据稀疏表示的时间序列数据来预测某个时间在指 定时间是否发生, 该应用在生活中无处 不在, 从对自然环 境、 人体行为或者身体机能各方面的事件的判断上, 比如天气预报与各种 预警系统。 [0003]机器学习在时序数据预测上有很多的成果, 在这方面应用最广泛的是循环神经网 络。 但是循环神经网络对数据的要求较高, 需要 数据是连续且不能存在空值, 而且现有的循 环神经网络模型都存在特异度较高而灵敏度较低的问题。 其他还有随机森林和梯度提升树 等模型, 虽然模型的精度较高, 但是无法处理 时间序列数据, 或者需要根据数据本身的特点 手动构造, 在不同的时间序列数据中无法通用, 处 理过程非常繁琐。 发明内容 [0004]本发明所要解决的技术问题是, 提供一种自动构造基于时间序列数据的特征来进 行事件是否发生的预测方法。 [0005]本发明为解决上述技术问题所采用的技术方案是, 一种基于稀疏时间序列数据的 事件预测方法, 包括: [0006]S1.对稀疏时间序列数据进行数据分类, 将在观测时间长度内未发生变换的作为 静态数据, 持续随时间变化的作为动态数据, 间断出现且只有0与1两种状态的作为离散数 据; [0007]S2.按数据类别进行 特征提取: [0008]对于静态数据, 选取与事 件相关的特 征作为静态数据特 征; [0009]对于动态数据, 先按事件是否发生进行分组, 再对各动 态数据提取数据特征, 再计 算数据特征的置信度, 再按保留置信度小于0.1的数据特征的方式进 行筛选; 筛选后的数据 特征作为原始动态特征, 再将原始动态特征对应时间点之前的一段时间的数据特征作时序 特征, 原始动态特 征和其对应的时序特 征合并为 最终的动态数据特 征; [0010]对于离散数据, 先对离散数据进行独热编码作为离散数据的原始离散特征, 再对 每个原始特征 统计在对应时间点之前的原始特征出现次数作为计数特征, 原始离散特征和 其对应的计数 特征合并为 最终的离 散数据特 征; [0011]S3.将同一时间点的静态数据特征、 时间特征序列和离散数据特征进行拼接形成说 明 书 1/3 页 3 CN 114239743 A 3

.PDF文档 专利 一种基于稀疏时间序列数据的事件发生时间预测方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于稀疏时间序列数据的事件发生时间预测方法 第 1 页 专利 一种基于稀疏时间序列数据的事件发生时间预测方法 第 2 页 专利 一种基于稀疏时间序列数据的事件发生时间预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:14:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。