说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210200301.3 (22)申请日 2022.03.02 (66)本国优先权数据 202210044850.6 2022.01.14 CN (71)申请人 北京智谱华 章科技有限公司 地址 100084 北京市海淀区中关村东路1号 院6号楼6层6 03A (72)发明人 王炤宇 仇瑜 刘德兵 张鹏  李青  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 杜月 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/36(2019.01) (54)发明名称 一种快速提取文本中机构名称的方法和装 置 (57)摘要 本发明公开了一种快速提取文本中机构名 称的方法和装置, 其中, 该方法包括: 获取候选机 构列表, 候选机构列表包括至少一个机构名称; 根据组成机构名称的单词特征信息, 对机构名称 进行打分并得到打分结果, 以计算机构名称的重 要程度, 并根据组成候选机构列表中的机构名称 构造AC自动机; 其中, 单词特征信息包括: 单词出 现次数、 稀有度和长度中的多种; 将待提取文本 输入AC自动机, 通过构造的A C自动机进行文字匹 配, 以得到待提取文本中包含的机构名称; 根据 机构名称的重要 程度, 从AC自动机筛选出待 提取 文本中包含的机构名称中得分最高的机构。 本发 明降低了提取方法成本, 提升了实时性和准确 性, 降低了跨语言机构提取难度。 权利要求书2页 说明书7页 附图3页 CN 114676214 A 2022.06.28 CN 114676214 A 1.一种快速提取文本中机构名称的方法, 其特 征在于, 包括以下步骤: 获取候选 机构列表, 所述 候选机构列表包括至少一个机构名称; 根据组成所述机构名称的单词特征信息, 对所述机构名称进行打分并得到打分结果, 以计算所述机构名称的重要程度, 并根据组成所述候选机构列表中的机构名称构 造AC自动 机; 其中, 所述单词特 征信息包括: 单词出现次数、 稀有度和长度中的多种; 将待提取文本输入所述AC自动机, 通过构造的所述AC自动机进行文字匹配, 以得到所 述待提取文本中包 含的所述机构名称; 根据所述机构名称的重要程度, 从所述AC自动机筛选出所述待提取文本 中包含的所述 机构名称中得分最高的机构。 2.根据权利要求1所述的快速提取文本 中机构名称的方法, 其特征在于, 所述获取候选 机构列表, 包括: 从通用知识库中获取模板类型和机构相关的机构页面作为种子集; 基于所述种子集, 根据语言链接获取每 个机构在所述 通用知识库中的对应页面; 以及, 将所述每 个机构在所述 通用知识库中的重 定向词条作为所述每 个机构的名称。 3.根据权利要求1所述的快速提取文本 中机构名称的方法, 其特征在于, 所述根据组成 所述机构名称的单词特 征信息, 对所述机构名称进行打 分并得到打 分结果, 包括: 预定义对所述机构名称进行打分的打分规则, 对于给定的名称, 如果其中包含双字节 字符则为双字节名称, 否则为单字节名称。 4.根据权利要求3所述的快速提取文本中机构名称的方法, 其特 征在于, 对于所述双字节名称, 所述双字节名称的打 分为组成所述双字节名称的字符数量。 5.根据权利要求3所述的快速提取文本中机构名称的方法, 其特 征在于, 对于所述单字节名称, 获取全部单字节名称的总数, 统计组成全部单字节名称的单词 的出现次数; 根据所述总数和所述出现次数, 计算每 个单字节名称中每 个单词的重要程度; 将所述重要程度进行排序并列表, 根据所述列表得到所述单字节名称的打 分。 6.根据权利要求1所述的快速提取文本 中机构名称的方法, 其特征在于, 所述根据组成 所述候选机构列表中的机构名称构造AC自动机, 包括: 将所述候选机构列表中的全部机构名称作为所述AC自动机的第一模式串, 并将所述第 一模式串构建为前缀 树; 基于所述前缀 树, 进行失配指针的构建。 7.根据权利要求6所述的快速提取文本 中机构名称的方法, 其特征在于, 将所述候选机 构列表中的全部机构名称作为所述AC自动机的第一模式串, 并将所述第一模式串构建为前 缀树, 包括: 从根节点开始, 依次将第 二模式串插入所述前缀树; 其中, 如果所述第 二模式串是单字 节名称, 索引时在头尾添加空格, 如果是双字节名称, 则直接索引; 沿着所述第 二模式串中的当前字符在所述前缀树上进行转移, 如果节点不存在则创建 节点; 对于终结点, 标记所述第二模式串对应的实体和所述第二模式串的得分。 8.根据权利要求7所述的快速提取文本 中机构名称的方法, 其特征在于, 所述基于所述权 利 要 求 书 1/2 页 2 CN 114676214 A 2前缀树, 进行失配指针的构建, 包括: 对所述前缀 树进行宽度优先遍历; 对于当前所在结点n的每个子节点i, 沿着n的失配指针遍历k, 如果k也存在一个子节点 i, 则n的子节点 i的失配指针指向k的子节点 i; 否则n的子节点 i的失配指针指向根节点。 9.一种快速提取文本中机构名称的装置, 其特 征在于, 包括: 获取模块, 用于获取候选 机构列表, 所述 候选机构列表包括至少一个机构名称; 打分模块, 用于根据组成所述机构名称的单词特征信息, 对所述机构名称进行打分并 得到打分结果, 以计算所述机构名称的重要程度, 并根据组成所述候选机构列表中的机构 名称构造AC自动机; 其中, 所述单词特 征信息包括: 单词出现次数、 稀有度和长度中的多种; 匹配模块, 用于将待提取文本输入所述AC自动机, 通过构造的所述AC自动机进行文字 匹配, 以得到所述待提取文本中包 含的所述机构名称; 筛选模块, 用于根据所述机构名称的重要程度, 从所述AC自动机筛选出所述待提取文 本中包含的所述机构名称中得分最高的机构。 10.根据权利要求9所述的快速提取文本中机构名称的装置, 其特征在于, 所述获取模 块, 包括: 第一获取子模块, 用于从通用知识库中获取模板类型和机构相关的机构页面作为种子 集; 第二获取子模块, 用于基于所述种子集, 根据语言链接获取每个机构在所述通用 知识 库中的对应页面; 以及, 第三获取子模块, 用于将所述每个机构在所述通用知识库中的重定向词条作为所述每 个机构的名称。权 利 要 求 书 2/2 页 3 CN 114676214 A 3

.PDF文档 专利 一种快速提取文本中机构名称的方法和装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种快速提取文本中机构名称的方法和装置 第 1 页 专利 一种快速提取文本中机构名称的方法和装置 第 2 页 专利 一种快速提取文本中机构名称的方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:53:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。