说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111651925.9 (22)申请日 2021.12.3 0 (71)申请人 南京大峡谷信息科技有限公司 地址 210046 江苏省南京市栖霞区尧化 街 道科创路1号金港科创园二期04幢401 室 (72)发明人 赵文强 王铁 张雪英 王益鹏  曹忠群  (74)专利代理 机构 南京锐恒专利代理事务所 (普通合伙) 32506 代理人 陈思 (51)Int.Cl. G06F 40/279(2020.01) G06N 20/00(2019.01) G06F 16/35(2019.01) (54)发明名称 一种基于要素信息抽取的气象灾害事件聚 合方法 (57)摘要 本发明公开了一种基于要素信息抽取的气 象灾害事件聚合方法。 本发明通过分析气象灾害 事件信息在自然语言与气象灾害事件信息系统 中表达机制差异, 归纳总结气象灾害信息的语言 描述特点, 构建面向中文文本的气象灾害信息表 达体系, 并制定具体的标注模式和规范, 建立大 规模的中文文本标注实验数据, 以供机器学习进 行灾害事件信息中相关信息的抽取; 根据气象灾 害信息来源发布特点, 选取合适所需信息源进行 数据采集, 制定自动化采集方法, 以获取气象灾 害事件的文本数据; 随后根据标注数据, 结合机 器学习算法与模 型, 对气象灾害事件信息中的时 间信息、 地名信息、 事物信息、 人物信息和事件信 息进行抽取; 以抽取的时间、 地名、 事物、 人物和 事件信息作为基础, 根据构建的气象灾害特征词 库以及抽取信息中的灾害时间范围、 灾害地点、 受灾详情以及事物关键词和灾情信息阈值等数据, 结合事件聚合流程和判断逻辑, 将同一气象 灾害事件的信息进行聚合。 权利要求书2页 说明书9页 附图4页 CN 114282534 A 2022.04.05 CN 114282534 A 1.一种基于要素信息抽取的气象灾害事件聚合方法, 其特征在于, 所述方法包括以下 步骤: 步骤1: 通过分析气象灾害事件信息在 自然语言与气象灾害事件信息系统中表达机制 差异, 归纳总 结气象灾害信息的语言描述特点, 构建面向中文文本的气象灾害信息表达体 系, 并制定具体的标注模式和规范, 建立大规模的中文文本标注实验 数据, 以供机器学习进 行灾害事 件信息中相关信息抽取的训练; 步骤2: 参考气象灾害信息的发布特点, 选取所需信息源进行访问, 拟采用基于链接结 构评价的搜索策略和基于网页内容评价的搜索策略两种方式的气象灾害事件信息资源网 页获取策略以获取灾害舆情信息的新闻文本数据; 步骤3: 利用舆情信息中灾害事件标注语料完成训练的机器学习和深度学习信息抽取 模型, 结合构建的气象灾害事件的特征词汇库, 进行舆情信息中的数据抽取, 包括时间、 地 名、 人物、 事物和气象灾害事 件信息的抽取; 步骤4: 将文本信息作为主要载体, 以抽取的时间、 地名、 事物、 人物和事件信息作为基 础, 根据构建的气象灾害 特征词库以及抽取信息中的灾害时间范围、 灾害地点、 受灾详情以 及事物关键词和灾情信息阈值等数据, 结合事件聚合流程和判断逻辑, 将同一气象灾害事 件的信息进行聚合, 得到同一事 件聚合结果。 2.根据权利要求1所述的一种基于要素信息抽取的气象灾害事件聚合方法, 其特征在 于, 步骤1 中所述构建面向中文文本的气象灾害信息表达体系和标注规范, 将从气象灾害信 息词汇、 句法和语义结构三个层次进行体系构建, 并制定基于XML  schema的气象灾害事件 信息标注操作规范。 3.根据权利要求1所述的一种基于要素信息抽取的气象灾害事件聚合方法, 其特征在 于, 步骤1中所述建立大规模的中文文本标注实验数据, 将以GATE(General  Architecture   for Text Engineering)为标注 平台, 进行 大规模数据标注, 以用于 机器学习训练。 4.根据权利要求1所述的一种基于要素信息抽取的气象灾害事件聚合方法, 其特征在 于, 步骤2中所述采用基于链接结构评价的搜索策略和基于网页内容评价的搜索策略两种 方式, 首先利用基于链接结构评价的搜索策略扩大搜索宽度, 然后通过对网页内容与检索 模板中的内容进行相似度计算, 最终根据计算结果确定是否保留该网页。 5.根据权利要求1所述的一种基于要素信息抽取的气象灾害事件聚合方法, 其特征在 于, 步骤3中所述利用机器学习模型对灾害信息中的时间信息进 行抽取, 主要利用条件随机 场(Conditional Random Fields, CRF)模型进行实现。 6.根据权利要求5所述的一种基于要素信息抽取的气象灾害事件聚合方法, 其特征在 于, 利用CRF对灾害信息中时间信息进行抽取, 实现步骤如下: 1)解析标注语料格式, 获取时 间短语起始 位置, 将其转化为条件随机场模 型训练所需要的格式, 即BIES序列标注, 2)经过 上述步骤得到CRF训练所需样本格式, 设计特征模板, 使用CRF++工具训练, 生 成CRF模型, 3) 将所得模型集成到Java项目中, 通过自定义的规则得到完整的时间信息, 从识别的BIES序 列标注结果中提取 出识别的时间信息 。 7.根据权利要求1所述的一种基于要素信息抽取的气象灾害事件聚合方法, 其特征在 于, 步骤3中所述利用机器学习模型对灾害信息中的事件信息进 行抽取, 根据事件语句描述 特点将事件信息抽取分为三个层次: 信息描述较为丰富的句 子、 事件信息描述较为稀疏 的权 利 要 求 书 1/2 页 2 CN 114282534 A 2句子和对于事 件信息描述较为稀疏的段落。 8.根据权利要求8所述的一种基于要素信息抽取的气象灾害事件聚合方法, 其特征在 于, 机器学习模型在 事件信息抽取选择文本范围时, 对于信息描述较为丰富的句子, 以句子 为单位的事件类型判断; 对于事件信息描述较为稀疏的句 子, 则将文本单位扩展至段落范 围; 对于事 件信息描述较为稀疏的段落, 则将文本单位扩展至篇 章范围。 9.根据权利要求1中所述的基于地址要素索引的中文地址匹配方法, 其特征在于, 步骤 4中所述的对气象灾害舆情信息进 行聚合, 针对已有的事件, 需要不断更新相关舆情新闻入 库直至事件结束; 针对数据库中没有的事件, 则需要根据事件聚合的方法逻辑进 行处理, 从 互联网数据中及时发现新的灾害事 件。 10.根据权利要求1中所述的基于地址要素索引的中文地址匹配方法, 其特征在于, 事 件聚合的过程中需要判断的内容包括灾害时间范围、 灾害地点、 受灾详情、 事物关键词和灾 情信息阈值数据, 结合聚合 流程进行综合判断, 根据判断结果进行事 件聚合。权 利 要 求 书 2/2 页 3 CN 114282534 A 3

.PDF文档 专利 一种基于要素信息抽取的气象灾害事件聚合方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于要素信息抽取的气象灾害事件聚合方法 第 1 页 专利 一种基于要素信息抽取的气象灾害事件聚合方法 第 2 页 专利 一种基于要素信息抽取的气象灾害事件聚合方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:28:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。