说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210531635.9 (22)申请日 2022.05.17 (65)同一申请的已公布的文献号 申请公布号 CN 114638222 A (43)申请公布日 2022.06.17 (73)专利权人 天津卓朗科技发展 有限公司 地址 300000 天津市红桥区湘潭道1号 (72)发明人 张坤宇 丁传捷 刘明伟 詹威威  崔志群 杜志彪  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 张萌 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 113869458 A,2021.12.31 CN 114417865 A,2022.04.29 审查员 宋鹏飞 (54)发明名称 自然灾害数据的分类方法及其模型训练方 法、 装置 (57)摘要 本发明提供了一种自然灾害数据的分类方 法及其模型训练方法、 装置, 涉及数据分类技术 领域, 该模 型在训练过程中结合训练文本中词语 之间的语义 关系, 将不同词语所对应的本体特征 向量、 词语向量和字符向量融入到模型训练中, 实现了对自然灾害语义关系的结合, 提高了模型 在不同使用功能场景下对自然灾害数据的分类 精度, 有利于降低人工分类成本 。 权利要求书3页 说明书14页 附图10页 CN 114638222 B 2022.08.16 CN 114638222 B 1.一种用于自然灾害数据分类的模型训练方法, 其特 征在于, 所述方法包括: 获取包含描述自然灾害的文本数据, 并提取 所述文本数据的词语向量和字符向量; 根据所述文本数据中的词语之间的语义关系, 构建与 所述自然灾害的类型相对应的领 域本体数据集; 提取所述领域本体数据集中不同词语所对应的本体特征向量, 并根据 所述本体特征向 量、 所述词语向量和所述字符向量确定所述文本数据的特 征融合向量; 将所述特征融合向量输入至预先构建的初始神经网络模型中进行特征提取训练, 并实 时获取所述特征融合向量的特 征提取结果; 当所述特征提取结果满足预设阈值条件时, 停止所述初始神经网络模型的特征提取训 练, 得到用于自然灾害数据分类的模型; 根据所述文本数据中的词语之间的语义关系, 构建与 所述自然灾害的类型相对应的领 域本体数据集的步骤, 包括: 对所述文本数据进行分词处 理, 得到所述文本数据中包 含的词语; 构建所述词语的语义网络图并获取各个词语的置信度结果, 根据 所述置信度 结果确定 所述文本数据中的关键词; 对所述关键词进行语义分析, 并根据 所述自然灾害的类型确定所述关键词之间的上下 位关系结果及所述关键词对应的属性数据; 其中, 所述自然灾害的类型至少包括: 洪水灾 害、 地震灾害、 地质灾害、 气象灾害、 海洋灾害、 生物灾害和森林草原火灾; 根据所述关键词、 所述关键词之间的上下位关系结果以及所述关键词对应的属性数 据, 确定所述与所述自然灾害的类型相对应的领域本体数据集; 对所述关键词进行语义分析, 并根据 所述自然灾害的类型确定所述关键词之间的上下 位关系结果及所述关键词对应的属性数据的步骤, 包括: 根据所述关键词的语义结果, 利用DBSCAN 算法确定所述关键词之间的上 下位关系; 获取所述自然灾害的类型, 并根据 所述类型确定所述关键词对应的属性值以及属性类 型, 并将所述属性值以及所述属性类型确定为所述属性数据; 其中, 所述属性类型至少包 括: 字符型、 整数 型、 数值型、 布尔型、 枚举型和示例性。 2.根据权利要求1所述的用于自然灾害数据分类的模型训练方法, 其特征在于, 获取包 含描述自然灾害的文本数据, 并提取 所述文本数据的词语向量和字符向量的步骤, 包括: 利用分词工具对所述文本数据进行分词处 理, 确定所述文本数据中包 含的所有词语; 利用已完成训练的w ord2vec模型将所述词语转 化为词语向量; 通过one‑hot编码提取所述文本数据的字符特征向量, 并将所述字符特征向量输入至 已初始化的textCNN网络中进行语义处理, 并将所述textCNN网络的输出结果确定为所述字 符向量。 3.根据权利要求1所述的用于自然灾害数据分类的模型训练方法, 其特征在于, 构建所 述词语的语义网络图并获取各个词语的置信度结果, 根据所述置信度结果确定所述文本数 据中的关键词的步骤, 包括: 获取所述词语对应的语义类型, 并根据所述语义类型对所述词语进行筛选, 得到候选 关键词; 根据所述 候选关键词之间的语义关系, 利用图传播 算法构建所述语义网络图;权 利 要 求 书 1/3 页 2 CN 114638222 B 2计算所述语义网络 中所述候选关键词之间的置信度 结果, 并将置信度 结果大于预设阈 值的所述 候选关键词确定为所述关键词。 4.根据权利要求1所述的用于自然灾害数据分类的模型训练方法, 其特征在于, 提取所 述领域本体数据集中不同词语所对应的本体特征向量, 并根据所述本体特征向量、 所述词 语向量和所述字符向量确定所述文本数据的特 征融合向量的步骤, 包括: 利用one‑hot编码获得 所述领域本体数据集中不同词语所对应的本体特 征向量; 将所述字符向量输入至已完成训练的textCNN网络中进行字符提取, 并将已提取的包 含字符语义序列的所述字符向量记为字符特 征向量; 将所述本体特征向量、 所述词语向量和所述字符特征向量进行拼接处理, 得到所述文 本数据的特 征融合向量。 5.根据权利要求1所述的用于自然灾害数据分类的模型训练方法, 其特征在于, 将所述 特征融合向量输入至预先构建的初始神经网络模型中进行特征提取训练, 并实时获取所述 特征融合向量的特 征提取结果的步骤, 包括: 将预先构建的GRU循环神经网络确定为所述初始神经网络模型, 并将所述特征融合向 量双向输入至所述GRU循环神经网络中进行 特征提取; 实时获取所述GRU循环神经网络输出的前向特征提取结果和后向特征提取结果, 并将 所述前向特征提取结果和所述后向特征提取结果确定为所述特征融合向量的特征提取结 果。 6.一种自然灾害数据的分类方法, 其特 征在于, 所述方法包括: 获取待分类的自然灾害数据; 将所述自然灾害数据输入至预先完成训练 的自然灾害数据分类模型中, 通过所述自然 灾害数据分类模型实时生成所述自然灾害 数据中不同词语对应的本体特征向量、 词语向量 和字符向量, 确定所述自然灾害 数据中包含的自然灾害关键词; 其中, 所述自然灾害 数据分 类模型通过权利要求1 ‑5任一项所述的用于自然灾害数据分类的模型训练方法训练得到; 利用已确定的所述自然灾害关键词, 对所述自然灾害数据进行分类, 得到所述自然灾 害数据的分类结果。 7.一种用于自然灾害数据分类的模型训练装置, 其特 征在于, 所述装置包括: 数据提取模块, 用于获取包含描述自然灾害的文本数据, 并提取所述文本数据的词语 向量和字符向量; 领域本体数据集构建模块, 用于根据所述文本数据中的词语之间的语义关系, 构建与 所述自然灾害的类型相对应的领域本体数据集; 特征融合向量确定模块, 用于提取所述领域本体数据集中不同词语所对应的本体特征 向量, 并根据所述本体特征向量、 所述词语 向量和所述字符向量确定所述文本数据的特征 融合向量; 模型训练模块, 用于将所述特征融合向量输入至预先构建的初始神经网络模型中进行 特征提取训练, 并实时获取 所述特征融合向量的特 征提取结果; 模型获取模块, 用于当所述特征提取结果满足预设阈值条件时, 停止所述初始神经网 络模型的特 征提取训练, 得到用于自然灾害数据分类的模型; 所述领域本体数据集构建模块, 包括:权 利 要 求 书 2/3 页 3 CN 114638222 B 3

.PDF文档 专利 自然灾害数据的分类方法及其模型训练方法、装置

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 自然灾害数据的分类方法及其模型训练方法、装置 第 1 页 专利 自然灾害数据的分类方法及其模型训练方法、装置 第 2 页 专利 自然灾害数据的分类方法及其模型训练方法、装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。