说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210612667.1 (22)申请日 2022.05.31 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 林泽南 赵岷 傅瑜 张国鑫  秦华鹏 吕雅娟  (74)专利代理 机构 北京英赛 嘉华知识产权代理 有限责任公司 1 1204 专利代理师 王达佐 马晓亚 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 文本处理方法、 用于短文本的链指方法、 装 置及存储介质 (57)摘要 本公开提供了一种文本处理方法、 用于短文 本的链指方法、 装置、 设备、 存储介质以及计算机 程序产品, 涉及知 识图谱、 深度学习、 自然语言处 理等人工智 能技术领域。 具体实现方案为: 为歧 义词的每个词义项构建文本数据集, 其中, 歧义 词对应多个词义项; 对包含歧义词的短文本进行 语义解析, 得到多个候选消 歧词; 将每个候选消 歧词分别与每个词义项的文本数据集进行匹配; 响应于一个候选消歧词仅与一个词义项的文本 数据集匹配成功, 将该候选消歧作为相匹配的词 义项的目标消歧词; 将包含目标消歧词的短文 本, 保存至相匹配的词义项的消歧文本集。 获得 的消歧文本集精准且简洁。 权利要求书3页 说明书12页 附图8页 CN 114818736 A 2022.07.29 CN 114818736 A 1.一种文本处 理方法, 所述方法包括: 为歧义词的每 个词义项构建文本数据集, 其中, 所述歧义词对应多个词义项; 对包含所述歧义词的短文本进行语义 解析, 得到多个候选消歧词; 将每个候选消歧词分别与每 个词义项的文本数据集进行匹配; 响应于一个候选消歧词仅与一个词义项的文本数据集匹配成功, 将该候选消歧作为相 匹配的词义项的目标消歧词; 将包含目标消歧词的短文本, 保存至所述相匹配的词义项的消歧文本集。 2.根据权利要求1所述的方法, 还 包括: 对于每个词义项的消歧文本集分别执行向量压缩操作, 得到消歧文本集的压缩平均向 量, 作为对应词义项的消歧向量; 其中, 所述向量压缩操作包括: 将文本集中的每 个短文本进行向量 转换, 得到多个文本向量; 对所述多个文本向量进行加权拟合, 得到一个压缩平均向量。 3.根据权利要求2所述的方法, 还 包括: 为所述歧义词配置无词义文本集, 其中, 所述无词义文本集中包括多个无词义短文本, 所述无词义短文本中包 含所述歧义词且不包 含所述目标消歧词; 对无词义文本集执行所述向量压缩操作, 并将得到的压缩平均向量作为无词义文本集 的消歧向量。 4.根据权利要求1所述的方法, 还 包括: 从一个词义项的文本数据集中, 获取关键文本信息; 从所述关键文本信息中提取扩展消歧词, 并将所述扩展消歧词与所述歧义词进行拼 接, 得到拼接短文本; 将所述拼接短文本保存至该词义项的消歧文本集。 5.根据权利要求1 ‑4任一项所述的方法, 其中, 所述为歧义词的每个词义项构建文本数 据集, 包括: 生成初始文本资源集; 从所述初始文本资源集中, 分别获取与所述歧义词的各个词义项匹配的文本资源, 得 到每个词义项的文本数据集。 6.根据权利要求5所述的方法, 其中, 所述对包含所述歧义词的短文本进行文本解析, 得到多个候选消歧词包括: 从所述初始文本资源集中, 筛 选出包含所述歧义词的短文本; 对包含所述歧义词的短文本进行文本解析, 得到所述多个候选消歧词。 7.一种用于短文本的链指方法, 所述方法包括: 获取待处 理的短文本, 并从所述待处 理的短文本中确定出目标歧义词; 获取所述目标歧义词的多个词义项, 以及每个词义项的消歧文本集, 其中, 所述消歧文 本集是通过如权利要求1 ‑6任一项所述的文本处 理方法得到的; 将所述待处 理的短文本分别与每 个词义项的消歧文本集进行匹配; 基于匹配结果, 为所述目标歧义词确定链指结果。 8.根据权利要求7所述的方法, 其中, 所述将所述待处理 的短文本分别与每个词义项的权 利 要 求 书 1/3 页 2 CN 114818736 A 2消歧文本集进行匹配包括: 获取所述待处 理的短文本的压缩平均向量, 以及每 个词义项的消歧向量; 将所述待处 理的短文本的压缩平均向量, 分别与每 个词义项的消歧向量进行匹配。 9.根据权利要求8所述的方法, 还 包括: 获取所述目标歧义词的无词义文本集的消歧向量; 将所述待处 理的短文本的压缩平均向量, 与所述无词义文本集的消歧向量进行匹配; 所述基于匹配结果, 为所述目标歧义词确定链指结果包括: 判断所述无词义文本集的匹配度是否优于全部所述消歧文本集的匹配度; 若否, 将匹配度最高的消歧文本集对应的词义项, 确定为所述目标歧义词的链指结果; 若是, 按照预设规则从所述多个词义项中选出一个词义项, 作为所述目标歧义词的链 指结果。 10.一种文本处 理装置, 所述装置包括: 构建模块, 被配置为歧义词的每个词义项构建文本数据集, 其中, 所述歧义词对应多个 词义项; 解析模块, 被 配置为对 包含所述歧义词的短文本进行语义 解析, 得到多个候选消歧词; 匹配模块, 被 配置为将每 个候选消歧词分别与每 个词义项的文本数据集进行匹配; 确定模块, 被配置为响应于一个候选消歧词仅与一个词义项的文本数据集匹配成功, 将该候选消歧作为相匹配的词义项的目标消歧词; 保存模块, 被配置为将包含目标消歧词的短文本, 保存至所述相匹配的词义项的消歧 文本集。 11.根据权利要求10所述的装置, 还 包括: 第一压缩模块, 被配置为对于每个词义项的消歧文本集分别执行向量压缩操作, 得到 消歧文本集的压缩平均向量, 作为对应词义项的消歧向量; 其中, 所述向量压缩操作包括: 将文本集中的每 个短文本进行向量 转换, 得到多个文本向量; 对所述多个文本向量进行加权拟合, 得到一个压缩平均向量。 12.根据权利要求1 1所述的装置, 还 包括: 配置模块, 被配置为所述歧义词配置无词义文本集, 其中, 所述无词义文本集中包括多 个无词义短文本, 所述无词义短文本中包 含所述歧义词且不包 含所述目标消歧词; 第二压缩模块, 被配置为对无词义文本集执行所述向量压缩操作, 并将得到的压缩平 均向量作为无词义文本集的消歧向量。 13.根据权利要求10所述的装置, 还 包括: 信息获取模块, 从一个词义项的文本数据集中, 获取关键文本信息; 拼接模块, 被配置为从所述关键文本信息中提取扩展消歧词, 并将所述扩展消歧词与 所述歧义词进行拼接, 得到拼接短文本; 文本保存 模块, 被配置为将所述 拼接短文本保存至该词义项的消歧文本集。 14.根据权利要求10 ‑13任一项所述的装置, 其中, 所述构建模块包括: 生成单元, 被配置为生成初始文本资源集; 获取单元, 被配置为从所述初始文本资源集中, 分别获取与所述歧义词的各个词义项权 利 要 求 书 2/3 页 3 CN 114818736 A 3

.PDF文档 专利 文本处理方法、用于短文本的链指方法、装置及存储介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本处理方法、用于短文本的链指方法、装置及存储介质 第 1 页 专利 文本处理方法、用于短文本的链指方法、装置及存储介质 第 2 页 专利 文本处理方法、用于短文本的链指方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。