说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210575003.2 (22)申请日 2022.05.25 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518000 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 石志林  (74)专利代理 机构 北京志霖恒远知识产权代理 有限公司 1 1435 专利代理师 郭栋梁 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 40/216(2020.01) G06F 40/284(2020.01) (54)发明名称 短语识别方法、 装置、 设备和介质 (57)摘要 本申请公开了短语识别方法、 装置、 设备和 介质, 涉及计算机技术领域, 具体涉及自然语言 处理技术领域。 该方法包括: 确定获取的待识别 语句中的候选短语; 候选短语为待识别语句的短 语中短语构成率大于预设阈值的短语; 确定候选 短语的字 特征向量、 词特征向量以及短语特征向 量; 字特征向量用于表征候选短语中字的语义, 词特征向量用于表征候选短语中词的语义, 短语 特征向量用于表征候选短语的语义; 对每一候选 字的字特征向量、 候选字对应的词特征向量以及 候选字对应的短语特征向量进行融合处理, 获得 候选字的融合特征向量; 根据每一候选字的融合 特征向量将候选字填充至目标短语, 生成待识别 语句的短语识别结果。 能够提高对语句的短语识 别精度。 权利要求书3页 说明书20页 附图4页 CN 115114915 A 2022.09.27 CN 115114915 A 1.一种短语识别方法, 其特 征在于, 包括: 获取待识别语句, 确定所述待识别语句中的候选短语; 所述候选短语为所述待识别语 句的短语中短语构成率大于预设阈值的短语; 确定所述候选短语的字特征向量、 词特征向量以及短语特征向量; 所述字特征向量用 于表征所述候选短语中的字的语义, 所述词特征向量用于表征所述候选短语中的词的语 义, 所述短语特 征向量用于表征 所述候选短语的语义; 针对所述候选短语中的每一所述候选字, 对所述候选字的字特征向量、 所述候选字对 应的词特征向量以及所述候选字对应的短语特征向量进行融合处理, 获得所述候选字的融 合特征向量; 针对每一所述候选字, 根据所述候选字的融合特征向量将所述候选字填充至目标短 语, 生成所述待识别语句的短语识别结果。 2.根据权利要求1所述的短语识别方法, 其特征在于, 所述确定所述候选短语的所述字 特征向量, 包括: 获取所述候选短语中的字的上 下文, 并确定与所述上 下文匹配的目标字; 基于所述目标字, 得到所述字的所述字特 征向量。 3.根据权利要求2所述的短语识别方法, 其特征在于, 所述确定所述候选短语的所述词 向量特征, 包括: 针对所述候选短语中的词, 对所述词包含的字对应的字特征向量进行特征融合, 获得 所述词的所述词特征向量; 所述特征融合包括但 不限于以下的任一项: 向量拼接、 向量叠加 以及向量积。 4.根据权利要求1 ‑3任一项所述的短语识别方法, 其特征在于, 所述确定所述待识别语 句中的候选短语, 包括: 获取所述待识别语句的分词结果; 所述分词结果中包 含至少一个分词; 基于所述分词结果中的分词, 确定所述待识别语句的至少一个子串; 所述每一子串至 少包含所述待识别语句一个字; 根据所述子串, 确定所述 候选短语。 5.根据权利要求4所述的短语识别方法, 其特征在于, 所述获取所述待识别语句的分词 结果, 包括: 获取所述待识别语句的多个初始分词结果; 所述每一初始分词结果包含至少一个分词 以及所述分词对应的权重; 每一初始分词 结果中所包含的分词可组成所述待识别语句; 所 述分词对应的权 重用于表征 所述分词的词频; 基于所述每组初始分词结果中每一分词的权重, 在所述多组初始分词结果中确定目标 分词结果; 将所述目标分词结果中的词确定为所述待识别语句的分词结果中的词。 6.根据权利要求5所述的短语识别方法, 其特征在于, 所述获取所述待识别语句的多个 初始分词结果, 包括: 利用条件随机场CRF以及基于领域字典对所述待识别语句进行分词, 得到多组分词; 基于每组分词中各分词的词频, 确定各 所述分词的权 重; 根据每组分词以及所述分词对应的权 重, 确定所述每 个初始分词结果。权 利 要 求 书 1/3 页 2 CN 115114915 A 27.根据权利要求4 ‑6任一项所述的短语识别方法, 其特征在于, 所述根据所述子串, 确 定所述候选短语; 确定所述子串对应的短语构成率; 将所述短语构成率满足预设阈值的所述子串, 确定为 候选短语。 8.根据权利要求7所述的短语识别方法, 其特征在于, 所述确定所述子串对应的短语构 成率, 包括: 获取所述子串的文档权重、 字段权重、 子串权重以及所述子串在参考文档 中的预设位 置的取值; 所述文档权重用于表征所述子串对应所述参考文档的文档权重, 所述字段权重 用于表征所述子串对应的字段与所述子串的文本意图的匹配程度, 所述子串权重用于所述 子串的长度; 根据所述子串的所述文档权重、 所述字段权重、 所述子串权重以及所述子串在参考文 档中的预设位置的值, 确定所述子串对应的短语构成率。 9.根据权利要求1 ‑8任一项所述的短语识别方法, 其特征在于, 所述确定所述候选短语 的所述短语特 征向量, 包括: 将所述候选短语中的每一个字作为短语首字, 并利用所述短语首字之后的字组成预设 短语; 确定每一所述预设 短语对应的特 征向量; 将置信度满足置信度阈值的所述预设短语对应的特征向量, 确定为所述短语特征向 量。 10.根据权利要求1 ‑9任一项所述的短语识别方法, 其特征在于, 所述对所述候选字的 字特征向量、 所述候选字对应的词特征向量以及所述候选字对应的短语特征向量进行融合 处理, 获得所述候选字的融合特 征向量, 包括: 获取所述字特征向量的权重系数、 所述词特征向量的权重系数以及所述短语特征向量 的权重系数; 所述字特征向量的权重系数用于表征所述候选字的语义倾向于所述目标短语 的概率; 所述词特征向量的权重系数用于表征包含所述候选字对应的词的语义倾向于所述 目标短语的概率; 所述短语特征向量的权重系数用于表征包含所述候选字对应的短语的语 义倾向于所述目标短语的概 率; 根据所述字特征向量的权重系数、 所述词特征向量的权重系数以及所述短语特征向量 的权重系 数, 对所述候选字的所述字特征向量、 所述候选字对应的所述词 特征向量以及所 述候选字对应的所述短语特 征向量进行加权求和, 获得 所述融合特 征向量。 11.根据权利要求1 ‑10任一项所述的短语识别方法, 其特征在于, 所述针对每一所述候 选字, 根据所述 候选字的融合特 征向量将所述 候选字填充至目标短语, 包括: 针对每一所述候选字, 根据所述候选字的融合特征向量, 确定所述候选字的相对于所 述目标短语的相对位置; 针对所有所述候选字, 在所述候选字相对于所述目标短语的相对位置中, 确定位于所 述目标短语首字的第一 候选字以及位于所述目标短语末尾字的第二 候选字; 将所述待识别语句中所述第一候选字、 所述第二候选字、 所述第一候选字与所述第二 候选字之间的字填充至所述目标短语。 12.一种短语识别装置, 其特 征在于, 包括:权 利 要 求 书 2/3 页 3 CN 115114915 A 3

.PDF文档 专利 短语识别方法、装置、设备和介质

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 短语识别方法、装置、设备和介质 第 1 页 专利 短语识别方法、装置、设备和介质 第 2 页 专利 短语识别方法、装置、设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。