说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210624917.3 (22)申请日 2022.06.02 (71)申请人 西北农林科技大 学 地址 712100 陕西省西安市杨凌示范区 邰 城路3号 (72)发明人 张宏鸣 聂啸林 牛当当 张礼麟  黄铝文 蒲攀 朱珊娜 宋荣杰  (74)专利代理 机构 西安恒泰知识产权代理事务 所 61216 专利代理师 王孝明 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/951(2019.01) G06F 16/901(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 50/02(2012.01) (54)发明名称 一种葡萄种植知识图谱数据库的构建方法 (57)摘要 本发明提供了一种葡萄种植知识图谱数据 库的构建方法, 包括: 步骤S1, 设计知 识图谱数据 库顶级概念与概念之间的关系, 得到本体层; 步 骤S2, 构建葡萄文本数据集, 以BIO标注法标注7 类实体, 并提取字符部首, 获得标注的数据集; 步 骤S3, 将标注的数据集按照8:1:1划分为训练集、 验证集和测试集; 步骤S4, 将所述的训练集输入 到多特征融合高效知识抽取网络中进行训练, 获 得训练后的网络模型; 步骤S5, 将多源异构的葡 萄文本进行预处理后输入训练后的网络模型中, 得到格式化文本; 步骤S6, 在本体层的指导和约 束下, 将格式化文本组装成三元组, 即实体层; 步 骤S7, 将所述的三元组使用Neo4j图数据库进行 持久化保存。 本发明成本低, 知识完整度高且更 新维护便利。 权利要求书3页 说明书9页 附图4页 CN 114996474 A 2022.09.02 CN 114996474 A 1.一种葡萄种植知识图谱数据库的构建方法, 其特 征在于, 该 方法按照以下步骤进行: 步骤S1, 设计知识图谱数据库顶级概念与概念之间的关系, 得到 本体层; 步骤S1具体包括以下步骤: 步骤S101, 构建顶级概念与概念之间的关系; 步骤S102, 对顶级概念进行细化, 得到二级概念, 实现本体层的构建; 步骤S103, 将构建好的本体层存 储在“葡萄本体.o wl”文件中; 步骤S2, 构建葡萄文本数据集, 以BIO标注法标注7类实体, 并提取字符部首, 获得标注 的数据集; 所述的7类实体为品种名称、 地名、 虫害名称、 病害名称、 化学药品名称、 肥料名称以及 农技术语; 步骤S2具体包括以下步骤: 步骤S201, 从多个数据源爬取 数据, 爬取 数据存入“葡萄数据集.corpus ”; 步骤S202, 使用半自动化标注技术对 “葡萄数据集.corpus ”进行BIO标注, 将标记结果 存储在“葡萄数据集_BIO.corpus ”中; 步骤S203, 提取部首, 更新 “葡萄数据集_BIO.corpus ”, 获得标注的数据集; 步骤S3, 将标注的数据集按照8 :1:1划分为训练集、 验证集和 测试集; 步骤S4, 将所述的训练集输入到多特征融合高效知识抽取网络中进行训练, 获得训练 后的网络模型; 所述的多特 征融合高效知识抽取网络为改进的BERT+BiGRU+CRF网络; 所述的BERT为深度预训练语言模型; 所述的BiGRU为特 征提取模块; 所述的CRF为特 征解码模块; 所述的BERT+BiGRU+CRF网络的改进方法包括以下步骤: 步骤S401, BERT+BiGRU+CRF网络的原始输入为经过嵌入的字符向量集{h1, h2, h3, ..., hn}, 将部首 特征融入{h1, h2, h3, ..., hn}; 经过嵌入的字符向量hi为一句话S中的第i个字符映射成大小为120 *1的字符向量hi; 融入部首 特征的改进过程 为: 如式Ⅰ所示, 提取字符ci的部首di; hi=hi*d_rate                式I; 式中, d_rate为系数; 如果部首di为“艹”、“疒”或“虫”, 则设置d_rate为1.05对hi进行更 新; 如果部首di为其它, 则设置d_rate为1.0对hi进行更新; 步骤S402, 对BERT+BiGRU+CRF网络架构中的特 征提取模块进行改进; 所述的改进方法为: 在 BERT后, 加入一个与BiGRU并列的残差模块; 所述残差模块由dropout层、 卷积层和ReLU函数组成; 步骤S5, 将多源异构的葡萄文本进行预处理后输入训练后的网络模型中, 得到格式化 文本; 所述的预处理为: 将原始 的多源异构的葡萄文本按照句号分割, 并提取句子中每个字 符的部首; 将每句话中每个字 符随机初始 化为120*1维的原始特征向量, 并按照步骤S401中 所述的方法进行 更新;权 利 要 求 书 1/3 页 2 CN 114996474 A 2所述的得到格式化文本的过程包括以下步骤: 步骤S501, 原始的多源异构的葡萄文本经过预处理后, 包含num_step个字符的句子变 为num_step*120维包含字符特征、 分词特征和部首特征的特征矩阵, 将其输入BERT中, 得到 num_step*768维的包 含全局字符依赖特 征的特征矩阵; 步骤S502, 将num_step*768维的包含全局字符依赖特征的特征矩阵分别输入到前向 GRU网络、 反向GRU网络和残差模块, 分别得到num_step*300维的具有前 向和后向字符依赖 特征的特征矩阵 num_step* 600维的具有全局字符依赖特 征的特征矩阵hRS; 步骤S503, 将步骤S5 02中得到的3个特 征矩阵融合; 具体的, 具有前向和后向字符依赖特征的特征矩阵 融合方式如式 Ⅱ, 融合后得到 与具有全局字符依赖特征的特征矩阵hRS的融合方式如式 Ⅲ; 最终得到特征 矩阵H; 步骤S504, 将特征矩阵H输入CRF, 得到原始输入句子的标注序列; 根据标注结果, 将其 格式整理为每行一个句子, 包括原 始输入文本、 实体起始位置、 实体终止位置和实体 类别; 步骤S6, 在本体层的指导和约束下, 将格式化文本组装成三元组, 即实体层; 步骤S7, 将所述的三元组使用Neo4j图数据库进行持久化保存, 实现葡萄种植知识图谱 数据库的构建。 2.如权利要求1所述的葡萄种植知识图谱数据库的构建方法, 其特征在于, 步骤S101 中, 所述的顶级概念包括: 葡萄品种概念、 葡萄产地概念、 葡萄虫害概念、 葡萄病害概念、 防 治葡萄病虫害化学 药品概念、 肥 料概念和农技 术语概念。 3.如权利要求1所述的葡萄种植知识图谱数据库的构建方法, 其特征在于, 步骤S101 中, 所述的概念之间的关系包括: 葡萄品种概念与 葡萄产地概念之间的产地关系, 葡萄品种 概念与葡萄病害概念之间的易感关系, 葡萄品种概念与肥料概念之间的施肥关系, 葡萄品 种概念与葡萄虫害概念之间的危害关系, 防治葡萄病 虫害化学药品概念与葡萄虫害概念、 葡萄病害概念之间的防控关系以及葡萄品种概念与农技 术语概念之间的操作关系。 4.如权利要求1所述的葡萄种植知识图谱数据库的构建方法, 其特征在于, 步骤S102 中, 所述的葡萄病害概念下包括侵染性病害和 生理性病害; 所述的防治葡萄病虫害化学药 品概念下包括虫害防控农药和病害防控农药; 所述的农技术语概念包括苗木繁育技术、 树 体管理、 高产葡萄园的建立、 采收包装与储运、 土肥水管理和保护地栽培; 所述的葡萄品种 概念包括鲜食品种、 砧木品种和酿酒、 制汁品种。 5.如权利要求1所述的葡萄种植知识图谱数据库的构建方法, 其特征在于, 步骤S201 中, 所述的多个数据源 包括已发表公开 论文摘要和百 科类网站。 6.如权利要求1所述的葡萄种植知识图谱数据库的构建方法, 其特征在于, 步骤S202 中, 所述的BIO标注法为, a类实体的第一个字符标记为B ‑a, 中间字符或结尾字符标记为I ‑ a, 其它无关字符标记为O。 7.如权利要求1所述的葡萄种植知识图谱数据库的构建方法, 其特征在于, 步骤S203权 利 要 求 书 2/3 页 3 CN 114996474 A 3

.PDF文档 专利 一种葡萄种植知识图谱数据库的构建方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种葡萄种植知识图谱数据库的构建方法 第 1 页 专利 一种葡萄种植知识图谱数据库的构建方法 第 2 页 专利 一种葡萄种植知识图谱数据库的构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。