说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210169887.1 (22)申请日 2022.02.23 (71)申请人 税友信息技 术有限公司 地址 310053 浙江省杭州市滨江区浦沿街 道南环路3738号817室 (72)发明人 史源源 黄志苹 王瑞 涂昶  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 耿苑 (51)Int.Cl. G06F 16/36(2019.01) (54)发明名称 一种文本实体链接方法、 系统、 电子设备及 存储介质 (57)摘要 本申请公开了一种文本实体链接方法, 包 括: 获取目标法规的法规文本, 从所述法规文本 中提取法规标题和法规文号; 根据所述法规标题 生成对应的标题字典树; 根据所述法规文号生成 对应的文号字典树; 若接收到待处理文本, 则利 用所述标题字典树和所述文号字典树对所述待 处理文本进行 实体链接。 本申请能够提高对法规 文本进行实体链接的效率和准确率。 本申请还公 开了一种文本实体链接系统、 一种存储介质及一 种电子设备, 具有以上有益效果。 权利要求书2页 说明书11页 附图3页 CN 114706993 A 2022.07.05 CN 114706993 A 1.一种文本实体链接方法, 其特 征在于, 包括: 获取目标法规的法规文本, 从所述法规文本中提取法规标题和法规文号; 根据所述法规标题生成对应的标题字典树; 根据所述法规文号 生成对应的文号字典树; 若接收到待处理文本, 则利用所述标题字典树和所述文号字典树对所述待处理文本进 行实体链接 。 2.根据权利要求1所述文本实体链接方法, 其特征在于, 所述获取目标法规的法规文 本, 包括: 从目标网站中爬取 所述目标法规的法规文本; 从所述目标法规的法规文本中提取法规关联信 息, 并利用所述法规关联信 息迭代爬取 所述目标法规的法规文本 。 3.根据权利要求1所述文本实体链接方法, 其特征在于, 在从所述法规文本 中提取法规 标题和法规文号之后, 还 包括: 对所述法规标题和所述法规文号进行拓展, 得到含义相同的多个法规标题、 以及多个 含义相同的法规文号; 为所述法规文本设置唯一对应的法规ID, 根据所述法规ID与所述法规标题的对应关系 生成法规标题字典, 根据所述法规ID与所述法规文号的对应关系生成法规文号字典; 其中, 所述法规标题字典的key为所述法规标题, 所述法规标题字典的value为所述法规ID; 所述 法规文号字典的key为所述法规文号, 所述法规文号字典的value为所述法规 ID; 相应的, 根据所述法规标题生成对应的标题字典树, 包括: 根据所述法规标题字典中的法规标题生成对应的所述标题字典树; 相应的, 根据所述法规文号 生成对应的文号字典树; 根据所述法规文号字典中的法规文号 生成对应的所述文号字典树。 4.根据权利要求3所述文本实体链接方法, 其特征在于, 对所述法规标题和所述法规文 号进行拓展, 包括: 对所述法规标题中的发布单位进行缩写, 得到拓展后的法规标题; 和/或, 对所述法规 标题中的发布单位进行扩写, 得到拓展后的法规标题; 和/或, 对所述法规标题中的符号进 行调整, 得到 拓展后的法规标题; 对所述法规文号进行缩写, 得到拓展后的法规文号; 和/或, 对所述法规文号进行扩写, 得到拓展后的法规文号。 5.根据权利要求1所述文本实体链接方法, 其特征在于, 利用所述标题字典树和所述文 号字典树对所述待处 理文本进行实体链接, 包括: 利用所述标题字典树和所述文号字典树对所述待处理文本进行文本匹配得到文本匹 配结果; 其中, 所述文本匹配结果包括标题文本和/或文号文本, 所述标题文本为所述待处 理文本中存在于所述标题字典树的文本, 所述文号文本为所述待处理文本中存在于所述文 号字典树的文本; 根据所述文本匹配结果对所述待处 理文本进行实体链接 。 6.根据权利要求5所述文本实体链接方法, 其特征在于, 根据所述文本匹配结果对所述 待处理文本进行实体链接, 包括:权 利 要 求 书 1/2 页 2 CN 114706993 A 2对所述待处理文本 中符合预设规则的所述标题文本和所述文号文本进行实体链接; 其 中, 所述预设规则为所述标题文本和所述文号文本之间不存在间隔, 或, 所述标题文本和所 述文号文本之间只存在书名号和/或括 号; 和/或, 将所述待处理文本中不符合所述预设规则的标题文本设置为无文号标题文本, 查询所述待处理文本中距离所述无文号标题文本最近的时间文本, 根据所述时间文本和所 述无文号标题文本进行实体链接 。 7.根据权利要求1至6任一项所述文本实体链接方法, 其特征在于, 利用所述标题字典 树和所述文号字典树对所述待处 理文本进行实体链接, 包括: 利用所述标题字典树和所述文号字典树确定所述待处理文本 中的实体; 所述实体包括 法规标题和法规文号的文本; 根据所述实体与所述法规文本的对应关系 对所述待处理文本进行实体链接, 以使所述 实体被点击后跳转至对应的法规文本 。 8.一种文本实体链接系统, 其特 征在于, 包括: 法规采集模块, 用于获取目标法规的法规文本, 从所述法规文本中提取法规标题和法 规文号; 字典树生成模块, 用于根据所述法规标题生成对应的标题字典树; 还用于根据所述法 规文号生成对应的文号字典树; 实体链接模块, 用于若接收到待处理文本, 则利用所述标题字典树和所述文号字典树 对所述待处 理文本进行实体链接 。 9.一种电子设备, 其特征在于, 包括存储器和处理器, 所述存储器中存储有计算机程 序, 所述处理器调用所述存储器中的计算机程序时实现如权利要求 1至7任一项 所述文本实 体链接方法的步骤。 10.一种存储介质, 其特征在于, 所述存储介质中存储有计算机可执行指令, 所述计算 机可执行指令被处理器加载并执行时, 实现如权利要求 1至7任一项 所述文本实体链接方法 的步骤。权 利 要 求 书 2/2 页 3 CN 114706993 A 3

.PDF文档 专利 一种文本实体链接方法、系统、电子设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本实体链接方法、系统、电子设备及存储介质 第 1 页 专利 一种文本实体链接方法、系统、电子设备及存储介质 第 2 页 专利 一种文本实体链接方法、系统、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:54:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。