说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111550447.2 (22)申请日 2021.12.17 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 郑飞飞 陈俊逸  (74)专利代理 机构 杭州天昊专利代理事务所 (特殊普通 合伙) 33283 专利代理师 何碧珩 (51)Int.Cl. G06F 30/27(2020.01) G06F 30/28(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) G06F 111/10(2020.01) (54)发明名称 一种提高水文数据驱动模型校核有效性的 方法 (57)摘要 本发明提供一种提高水文数据驱动模型校 核有效性的方法, 其步骤如下: S1:按步骤S11 ‑ S15通过自组织神经网络SOM实现原始观测数据 集D的聚类; S2:采用传统的DUPLEX方法将SOM网 络内的每一节点内初步聚类完成的数据按步骤 S21‑27分配到校核集C和验证集E中; S3:使用校 核集C和验证集E校核和验证水文数据驱动模型。 本发明有效结合了传统的SOM聚类方法和D UPLEX 采样方法, 将观测数据合理划分到校核和验证数 据集, 且保证两个数据集里的数据具有较好的分 布一致性, 从而提高水文数据驱动模型的有效 性。 权利要求书1页 说明书5页 附图4页 CN 114647974 A 2022.06.21 CN 114647974 A 1.一种提高水文数据驱动模型 校核有效性的方法, 其特 征在于, 步骤如下: S1:按步骤S1 1‑S15通过自组织神经网络SOM实现原 始观测数据集D的聚类; S11: 计算原始观测数据集D中的数据量N, 按照经验公式1 ‑1确定SOM的节点数M, 并根据 经验公式1 ‑2确定网络的行 数r和列数c, 从而确定SOM神经网络的拓扑 结构, 具体公式如下: M=r×c,r=1.6 c      1‑2 S12: 对SOM网络内的各个节点进行权值随机初始化, 一般选取 ‑0.5至0.5范围内; 同时 对原始观测数据集D中的数据进行z ‑score标准化; S13: 将标准化后的原始观测数据集D放入SOM网络进行多轮训练直至收敛, 此时SOM网 络内各个节点中聚集了数量不一的数据, 同一节点内的数据特征相似, 不同节点的数据特 征区别明显; 至此, 完成了对数据的初步聚类工作; S2:采用传统的DUPLEX方法将SOM网络内的每一节点内初步聚类完成的数据按步骤 S21‑27分配到校核集C和验证集E中; S21: 根据使用者指定的比例确定校核和验证数据集所需的总数据量, 分别记为nC和nE; 对于SOM网络内 的每个节点, 按比例确定在该节点中需要分配给C和E的数据量, 分别记为nC (m)和nE(m), 具体计算公式如下: 同理可计算 nE(m)。 其中, |U(m)|是该节点内聚集的数据量; S22: 针对当前SOM节点m, 初始化局部 子集 用于当前节点的数据采样; S23: 在当前SOM节点m内寻找到一对数据xi,xj∈U(m)使得欧几里得距离||xi‑xj||最大 化, 将该对数据分配于 C(m); S24: 重复S23分配数据给E(m); S25: 在当前SOM节点m内寻找下一对数据, 其中第一个数据与C(m)的single ‑linkage距 离最大, 第二个数据次之, 将该两个数据分配给C(m); S26: 重复S25分配数据于E(m), 之后不断重复S25, 依次分配数据给校核和验证数据集, 直至其中一个局部 子集达到设定的采样数, 剩余数据直接分配给另外一个局部 子集; S27: 将C(m)合并到C, E(m)合并到E; S3:使用校核集C和验证集E校核和验证水文数据驱动模型。权 利 要 求 书 1/1 页 2 CN 114647974 A 2一种提高 水文数据驱动模型校核有效性的方 法 技术领域 [0001]本发明属于水文模型校核领域, 具体涉及提高水文数据驱动模型校核有效性技 术。 背景技术 [0002]水文模型的用途十分广泛, 包括流域的径流预测、 洪水和干旱预报以及评估气候   变化的影响等。 水文模型主要分为数据驱动模型和机理模型, 前者通过充分挖掘观测  数据 的内在演 变规律, 以建立输入条件与输出信息之间的数学模型, 从而实现对将来  事件的预 报。 数据驱动模 型不需要充分掌握水文真实物理过程, 因而建模过程 非常简 便。 近几十年, 数据驱动建模方法已被 证明可以提供良好的预测性能, 并成功地应用  于实际水文预测。 [0003]水文模型在应用之前必须要实施独立的模型校核和验证, 前者主要是确定数据驱   动模型的相关参数值, 而后者是验证这些参数在模拟新情况 的有效性。 因此, 观测数  据通 常需要按照一定的比例分割成校核和验证两个独立的数据集。 前人研究发现模型  在校准 期得到的结构参数通常可以很好地再现校核数据集的水文行为, 但如果验证数  据集的数 据与校核数据集具有很大的分布差异, 模型验证效果会明显下降。 例如, 如  果校核数据都 是干旱水文事件, 而验证数据都是丰水期水文数据, 那么模型的验证效  果通常较差, 进而 影响模型 的实际工程应用。 造成这一问题主要原因是校核和验证数  据集的数据缺 乏统计 分布一致性, 从而导致模型的性能被过于乐观或悲观估计, 降低  了模型预测结果的可信 度。 [0004]解决该问题的直接方法是确保观测数据分配到校核和验证数据集后具有相似 的 统 计分布, 以保证模型尽可能地学习流域内的有效信息, 覆盖不同程度的水文事件, 进  而 确定合适的模型结构参数, 并正确评估模型的性能。 为实现该目的, 前人已建立了  多种数 据采样方法, 主要包括基于自组织神经网络(SOM)和Neyman分配原则的  SBSS‑N方法, 以及 基于欧几里得距离和single ‑linkage距离聚类算法的DUPLEX方法  等。 SBSS‑N方法属随机 方法, 每次的数据分配结果具有一定的差异性, 而DUPLEX  属确定性方法, 每次数据分配结 果一致。 通过大量流域样本测试, 结果证明这两种传  统数据分配策略比完全随机抽样方法 的效果显著上升, 大幅度提高了模型的校核有效  性, 即模型的校核与验证效果的差异 性相 比于随机取样方法减少。 然而, 这两种方法  也存在明显的缺陷: SBSS ‑N方法存在模型的乐 观估计, 即模 型的验证效果趋向于高  估模型的真实预测能力, 而DUPLEX方法存在明显的悲 观估计, 即模型的验证效果趋  向于低估模型的真实预测能力。 这些缺陷显著 地影响了水文 数据驱动模型的实际工程  应用。 [0005]为解决上述难题, 本发明提出了一种高水文数据驱动模型校核有效性的方法, 通   过合理分析SOM聚类和DUPLEX方法原理上的特点和缺陷, 有效结合两种方法的优  点, 提出 一种我们将其命名为SOMPLEX的基于新型数据分配方法, 并将其应用于717  个不同水文观 测数据集进行建模测试, 结果表 明SOMPLEX方法是一种优势极为明显  的数据分配方法, 能 够显著提高水文数据驱动模型的校核 有效性, 进 而提高模型的工  程应用可靠性。说 明 书 1/5 页 3 CN 114647974 A 3

.PDF文档 专利 一种提高水文数据驱动模型校核有效性的方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种提高水文数据驱动模型校核有效性的方法 第 1 页 专利 一种提高水文数据驱动模型校核有效性的方法 第 2 页 专利 一种提高水文数据驱动模型校核有效性的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:15:10上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。