说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210814378.X (22)申请日 2022.07.12 (65)同一申请的已公布的文献号 申请公布号 CN 114880455 A (43)申请公布日 2022.08.09 (73)专利权人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新区望江西 路666号 专利权人 讯飞智元信息科技有限公司 (72)发明人 谭昶 刘丹月 范磊 张友国  刘江 吕军 胡少云 陈士星  刘啸 陈敏军  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 王雨(51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (56)对比文件 CN 113836316 A,2021.12.24 审查员 徐晓孜 (54)发明名称 一种三元组抽取方法、 装置、 设备及存储介 质 (57)摘要 本申请公开了一种三元组抽取方法、 装置、 设备及存储介质, 相较于传统的人工对行业知识 材料进行三元组抽取, 本申请将问答数据作为三 元组抽取的基础数据, 该问答数据作为一种非结 构化数据是一种广泛的优质行业知识来源, 更加 容易被转换为三元组数据。 在此基础上, 本申请 从问答数据中抽取关键片段, 并进行聚类、 确定 类标签操作, 基于此生成结构化数据表, 该数据 表的标题行包括各聚类簇的类标签, 除标题行外 的其余每一行对应一条问答文本, 一行中每一类 标签对应的列表格中包含从行对应的问答文本 中抽取的属于类标签的关键片段。 进一步基于结 构化数据表 提取三元组数据, 实现三元组数据的 自动化抽取, 避免了人工抽取成本高、 耗时长的 问题。 权利要求书4页 说明书14页 附图6页 CN 114880455 B 2022.12.06 CN 114880455 B 1.一种三元组抽取 方法, 其特 征在于, 包括: 获取问答数据, 所述问答数据中包 含多条问答文本; 所述问答数据为非结构化数据; 从所述问答数据中抽取关键片段; 对各所述关键片段进行聚类, 并确定每一聚类簇的类标签, 所述类标签用于表征聚类 簇中各关键片段的共同属性; 生成一结构化数据表, 所述结构化数据表的标题行包括各聚类簇的类标签, 除标题行 外的其余每一行对应一条问答文本, 不同行对应不同的问答文本, 一行中每一类标签对应 的列表格中包 含从行对应的问答文本中抽取的属于类标签的关键片段; 对所述结构化数据表进行分表, 得到 至少一个分表, 每一分表属于一个主题; 对于每一分表, 在分表中查找列元 素完全不重复的列 作为主键列 ; 基于所述主键列 , 按照如下 方式生成三元组数据 : 其中, 表示主键列 中第i行数据, 表示第j列的列名, 表示分表中第i 行第j列的数据, , 为分表除标题行外的行数, , 为 分表的列数, 且j取值 不包含主键列。 2.根据权利要求1所述的方法, 其特 征在于, 从所述问答数据中抽取关键片段, 包括: 对所述问答数据进行分词、 词性标注及句法依存关系分析; 基于分析后的句法依存关系 、 词性标注结果, 从分词结果中确定关键片段。 3.根据权利要求2所述的方法, 其特征在于, 所述基于分析后的句法依存关系、 词性标 注结果, 从分词结果中确定关键片段, 包括: 按照如下任意 一种或多种方式确定关键片段: 将修饰词与被修饰的名词及形容词组合 起来, 作为一个关键片段; 将主谓关系中的主语作为 一个关键片段; 将数字及量词的组合作为 一个关键片段; 将顿号之间的片段作为 一个关键片段。 4.根据权利要求1所述的方法, 其特 征在于, 所述确定每一聚类簇的类标签, 包括: 确定每一关键片段在所属问答文本中的语义类型; 基于每一聚类簇中各 条关键片段的语义类型确定聚类簇的类标签。 5.根据权利要求4所述的方法, 其特征在于, 所述确定每一关键片段在所属问答文本中 的语义类型, 包括: 对于每一关键片段, 在所属问答文本中查找关键片段的关系词; 若能够查找到关键片段的关系词, 则将所述关系词作为关键片段的语义类型; 若未能够查找到关键片段的关系词, 则将关键片段的语义类型设置为空。 6.根据权利要求5所述的方法, 其特征在于, 所述在所属问答文本 中查找关键片段的关 系词, 包括: 按照如下任意 一种方式查找关键片段的关系词:权 利 要 求 书 1/4 页 2 CN 114880455 B 2在所属问答文本中查找介宾关系, 若查找到的介宾关系中的宾语为关键片段, 则将介 宾关系中的介词, 或介词及宾语后跟随的动词的组合, 作为所述关键片段的关系词; 查找关键片段 前的兼语作为关键片段的关系词; 查找动宾关系中的动词, 作为宾语对应的关键片段的关系词; 查找主谓关系中的谓语, 作为谓语后跟随的关键片段的关系词; 查找核心关系中的动词, 作为后面跟随的关键片段的关系词; 查找动补结构中的补语和动词, 将补语和动词组合, 作为动词对应的关键片段的关系 词。 7.根据权利要求4所述的方法, 其特征在于, 所述基于每一 聚类簇中各条关键片段的语 义类型确定聚类簇的类标签, 包括: 对于每一 聚类簇, 在聚类簇包含的各条关键片段的语义类型中选出众数对应的目标语 义类型, 作为聚类簇的类标签。 8.根据权利要求1所述的方法, 其特 征在于, 所述 生成一结构化数据表, 包括: 创建一空的结构化数据表; 将各聚类簇的类标签依次排列到结构化数据表的标题行中各列; 从结构化数据表的第一行开始向下遍历, 对于当前遍历行, 从问答数据中选取一条未 被选取过的问答文本, 并将从选取 的问答文本中抽取 的各关键片段, 按照关键片段所属的 类标签对应的列, 填充至当前遍历行中对应列表格中, 直至 问答数据中不存在未被选取过 的问答文本为止, 得到最终的结构化数据表。 9.根据权利要求1所述的方法, 其特征在于, 所述对所述结构化数据表进行分表, 得到 至少一个分表, 包括: 构建与结构 化数据表O对应的目标矩阵D, 所述目标矩阵D中的元素Dij与结构化数据表O 中的元素Oij一一对应, 且当Oij为空值时Dij为0, 当Oij不为空值时Dij为1, 其中, , , h为数据表O除标题行外的行 数, p为数据表O的列数; 基于结构化数据表O中两两列 数据之间的变化跟随关系, 确定其中的重要列和次要列, 所述变化跟随关系表明其中一列数据在取不同值时另一列数据的取值是否跟随变化; 为所述重要列分配第一权值, 为所述次要列分配第二权值, 第一权值大于第二权值; 基于各列对应分配的权值, 对所述目标矩阵D进行加权处 理, 得到加权后矩阵 ; 将加权后矩阵 以行为单位进行聚类分析, 得到若干个聚类簇; 对于每一聚类簇, 按照 聚类簇包含的各行号在所述结构化数据表O中拆分出对应行数 据, 并结合结构化数据表O的标题行组成一个分表。 10.根据权利要求9所述的方法, 其特征在于, 所述基于结构化数据表O中两两列数据之 间的变化跟随关系, 确定其中的重要列和次要列, 包括: 对于所述结构化数据表O中的每一列, 将其中各关键片段去重, 并为去重后每一关键片 段赋予不同的数值, 在结构化数据 表O中将每一列中各关键片段按照对应的数值进 行替换, 得到替换后的数字表 ;权 利 要 求 书 2/4 页 3 CN 114880455 B 3

.PDF文档 专利 一种三元组抽取方法、装置、设备及存储介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种三元组抽取方法、装置、设备及存储介质 第 1 页 专利 一种三元组抽取方法、装置、设备及存储介质 第 2 页 专利 一种三元组抽取方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。