专利一种提高水文数据驱动模型校核有效性的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111550447.2 (22)申请日 2021.12.17 (71)申请人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号 (72)发明人郑飞飞　陈俊逸　 (74)专利代理机构杭州天昊专利代理事务所 (特殊普通合伙) 33283 专利代理师何碧珩 (51)Int.Cl. G06F 30/27(2020.01) G06F 30/28(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) G06F 111/10(2020.01) (54)发明名称一种提高水文数据驱动模型校核有效性的方法 (57)摘要本发明提供一种提高水文数据驱动模型校核有效性的方法，其步骤如下： S1:按步骤S11 ‑ S15通过自组织神经网络SOM实现原始观测数据集D的聚类； S2:采用传统的DUPLEX方法将SOM网络内的每一节点内初步聚类完成的数据按步骤 S21‑27分配到校核集C和验证集E中； S3:使用校核集C和验证集E校核和验证水文数据驱动模型。本发明有效结合了传统的SOM聚类方法和D UPLEX 采样方法，将观测数据合理划分到校核和验证数据集，且保证两个数据集里的数据具有较好的分布一致性，从而提高水文数据驱动模型的有效性。权利要求书1页说明书5页附图4页 CN 114647974 A 2022.06.21 CN 114647974 A 1.一种提高水文数据驱动模型校核有效性的方法，其特征在于，步骤如下： S1:按步骤S1 1‑S15通过自组织神经网络SOM实现原始观测数据集D的聚类； S11：计算原始观测数据集D中的数据量N，按照经验公式1 ‑1确定SOM的节点数M，并根据经验公式1 ‑2确定网络的行数r和列数c，从而确定SOM神经网络的拓扑结构，具体公式如下： M＝r×c,r＝1.6 c 1‑2 S12：对SOM网络内的各个节点进行权值随机初始化，一般选取 ‑0.5至0.5范围内；同时对原始观测数据集D中的数据进行z ‑score标准化； S13：将标准化后的原始观测数据集D放入SOM网络进行多轮训练直至收敛，此时SOM网络内各个节点中聚集了数量不一的数据，同一节点内的数据特征相似，不同节点的数据特征区别明显；至此，完成了对数据的初步聚类工作； S2:采用传统的DUPLEX方法将SOM网络内的每一节点内初步聚类完成的数据按步骤 S21‑27分配到校核集C和验证集E中； S21：根据使用者指定的比例确定校核和验证数据集所需的总数据量，分别记为nC和nE；对于SOM网络内的每个节点，按比例确定在该节点中需要分配给C和E的数据量，分别记为nC (m)和nE(m)，具体计算公式如下：同理可计算 nE(m)。其中， |U(m)|是该节点内聚集的数据量； S22：针对当前SOM节点m，初始化局部子集用于当前节点的数据采样； S23：在当前SOM节点m内寻找到一对数据xi,xj∈U(m)使得欧几里得距离||xi‑xj||最大化，将该对数据分配于 C(m)； S24：重复S23分配数据给E(m)； S25：在当前SOM节点m内寻找下一对数据，其中第一个数据与C(m)的single ‑linkage距离最大，第二个数据次之，将该两个数据分配给C(m)； S26：重复S25分配数据于E(m)，之后不断重复S25，依次分配数据给校核和验证数据集，直至其中一个局部子集达到设定的采样数，剩余数据直接分配给另外一个局部子集； S27：将C(m)合并到C， E(m)合并到E； S3:使用校核集C和验证集E校核和验证水文数据驱动模型。权　利　要　求　书 1/1 页 2 CN 114647974 A 2一种提高水文数据驱动模型校核有效性的方法技术领域 [0001]本发明属于水文模型校核领域，具体涉及提高水文数据驱动模型校核有效性技术。背景技术 [0002]水文模型的用途十分广泛，包括流域的径流预测、洪水和干旱预报以及评估气候变化的影响等。水文模型主要分为数据驱动模型和机理模型，前者通过充分挖掘观测数据的内在演变规律，以建立输入条件与输出信息之间的数学模型，从而实现对将来事件的预报。数据驱动模型不需要充分掌握水文真实物理过程，因而建模过程非常简便。近几十年，数据驱动建模方法已被证明可以提供良好的预测性能，并成功地应用于实际水文预测。 [0003]水文模型在应用之前必须要实施独立的模型校核和验证，前者主要是确定数据驱动模型的相关参数值，而后者是验证这些参数在模拟新情况的有效性。因此，观测数据通常需要按照一定的比例分割成校核和验证两个独立的数据集。前人研究发现模型在校准期得到的结构参数通常可以很好地再现校核数据集的水文行为，但如果验证数据集的数据与校核数据集具有很大的分布差异，模型验证效果会明显下降。例如，如果校核数据都是干旱水文事件，而验证数据都是丰水期水文数据，那么模型的验证效果通常较差，进而影响模型的实际工程应用。造成这一问题主要原因是校核和验证数据集的数据缺乏统计分布一致性，从而导致模型的性能被过于乐观或悲观估计，降低了模型预测结果的可信度。 [0004]解决该问题的直接方法是确保观测数据分配到校核和验证数据集后具有相似的统计分布，以保证模型尽可能地学习流域内的有效信息，覆盖不同程度的水文事件，进而确定合适的模型结构参数，并正确评估模型的性能。为实现该目的，前人已建立了多种数据采样方法，主要包括基于自组织神经网络(SOM)和Neyman分配原则的 SBSS‑N方法，以及基于欧几里得距离和single ‑linkage距离聚类算法的DUPLEX方法等。 SBSS‑N方法属随机方法，每次的数据分配结果具有一定的差异性，而DUPLEX 属确定性方法，每次数据分配结果一致。通过大量流域样本测试，结果证明这两种传统数据分配策略比完全随机抽样方法的效果显著上升，大幅度提高了模型的校核有效性，即模型的校核与验证效果的差异性相比于随机取样方法减少。然而，这两种方法也存在明显的缺陷： SBSS ‑N方法存在模型的乐观估计，即模型的验证效果趋向于高估模型的真实预测能力，而DUPLEX方法存在明显的悲观估计，即模型的验证效果趋向于低估模型的真实预测能力。这些缺陷显著地影响了水文数据驱动模型的实际工程应用。 [0005]为解决上述难题，本发明提出了一种高水文数据驱动模型校核有效性的方法，通过合理分析SOM聚类和DUPLEX方法原理上的特点和缺陷，有效结合两种方法的优点，提出一种我们将其命名为SOMPLEX的基于新型数据分配方法，并将其应用于717 个不同水文观测数据集进行建模测试，结果表明SOMPLEX方法是一种优势极为明显的数据分配方法，能够显著提高水文数据驱动模型的校核有效性，进而提高模型的工程应用可靠性。说　明　书 1/5 页 3 CN 114647974 A 3

专利 一种提高水文数据驱动模型校核有效性的方法

专利一种提高水文数据驱动模型校核有效性的方法