说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210859069.4 (22)申请日 2022.07.20 (71)申请人 广州欢聚时代信息科技有限公司 地址 511400 广东省广州市番禺区南村镇 万博二路79 号万博商务区万达商业广 场北区B-1栋23层 (72)发明人 徐进添  (74)专利代理 机构 深圳市智圈知识产权代理事 务所(普通 合伙) 44351 专利代理师 林炮勤 (51)Int.Cl. G06F 3/023(2006.01) G06F 16/332(2019.01) G06F 16/335(2019.01) G06F 40/247(2020.01)G06F 40/30(2020.01) (54)发明名称 词条获取方法、 装置及电子设备 (57)摘要 本申请公开了一种词条获取方法、 装置及电 子设备。 方法包括: 获取目标用户的待搜索前缀 字符; 从预设词条库中确定对应待搜索前缀字 符 的多个初选词条; 从预设评分库中获取多个初选 词条各自的词条评分, 预设评分库包括每个词条 的词条评分, 词条的词条评分基于词条对应的关 注度评分、 相关性评分以及偏好评分获得; 根据 多个初选词条各自的词条评分, 在多个初选词条 中确定目标词条。 本申请中, 由于词条的词条评 分基于词条对应的关注度评分、 相关性评分以及 偏好评分获得, 词条评分可以准确的反应词条与 目标用户的需求的匹配程度, 使得根据词条评分 确定的目标词条的准确率较高, 目标词条与目标 用户的需求更加匹配 。 权利要求书3页 说明书14页 附图6页 CN 115525161 A 2022.12.27 CN 115525161 A 1.一种词条获取 方法, 其特 征在于, 所述方法包括: 获取目标用户输入的字符, 作为待搜索前缀字符; 从预设词条库中确定对应所述待搜索前缀字符的多个初选词条, 所述预设词条库包括 多个前缀字符以及所述多个前缀字符各自对应的词条; 从预设评分库中获取所述多个初选词条各自的词条评分, 所述预设评分库包括每个所 述词条的词条评分, 所述词条 的词条评分基于所述词条对应的关注度评分、 相关性评分以 及偏好评分获得, 所述关注度评分表征所述 目标用户对所述词条 的关注程度, 所述相关性 评分表征所述词条与所述预设词条库中其他词条之 间的相关性, 所述偏好评分表征所述目 标用户对所述词条的偏好 程度; 根据所述多个初选词条 各自的词条评分, 在所述多个初选词条中确定目标词条。 2.根据权利要求1所述的方法, 其特 征在于, 所述预设词条库的获取 方法包括: 获取多个历史词条以及多个更新词条, 所述多个历史词条是所述目标用户搜索过的词 条, 每个所述更新词条包括所述多个历史词条中未出现过 的新词和/或呈趋势性变化的趋 势词; 根据所述多个历史词条各自的转化率和点击率, 从所述多个历史词条中筛选出第 一词 条; 根据所述多个更新词条各自的点击率和召回率, 从所述多个更新词条中确定出第 二词 条; 根据所述第一词条和所述第二词条, 得到所述预设词条库。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述第一词条和所述第二词条, 得到所述预设词条库, 包括: 将所述第一词条和所述第二词条汇总, 得到词条集; 获取所述词条集中的每 个词条的前缀; 将所述词条集合中的每个词条以及所述词条集合中的每个词条对应的前缀作为一个 字符对; 根据所述词条集 合中各个词条对应的字符对, 得到所述预设词条库。 4.根据权利要求1所述的方法, 其特 征在于, 所述预设评分库的获取 方法包括: 获取对应每个所述词条的字符对, 每个所述字符对基于所述预设词条库中每个词条以 及所述预设词条库中每 个词条的前缀获得; 对每个所述字符对进行特征提取, 得到对应每个字符对的统计特征、 文本特征以及编 辑距离; 基于每个所述字符对的统计特征、 文本特征以及编辑距离获取, 得到对应每个所述字 符对的关注度评分以及相关性评分; 根据所述目标用户对每 个所述字符对的偏好 程度, 确定每 个所述字符对的偏好评分; 根据每个所述字符对的关注度评分的权重、 相关性评分的权重以及偏好评分的权重, 对每个所述字符对的关注度评分、 相关性评分以及偏好评分进行加权求和, 得到每个所述 字符对对应的词条的词条评分; 根据所述预设词条库中每 个词条对应的词条评分, 得到所述预设评分库。 5.根据权利要求4所述的方法, 其特征在于, 所述基于每个所述字符对的统计特征、 文权 利 要 求 书 1/3 页 2 CN 115525161 A 2本特征以及编辑距离获取, 得到对应 每个所述字符对的关注度评分以及相关性评分, 包括: 将每个所述字符对的统计特征、 文本特征以及编辑距离输入关注度评分模型, 得到对 应每个所述字符对的关注度评分; 将每个所述数字符对的统计特征、 文本特征以及编辑距离输入相关性评分模型, 得到 对应每个字符对的相关性评分。 6.根据权利要求4所述的方法, 其特征在于, 所述根根据每个所述字符对的关注度评分 的权重、 相关性评分的权重以及偏好评 分的权重, 对每个所述字符对的关注度评 分、 相关性 评分以及偏好评分进行加权求和, 得到每个所述字符对对应的词条 的词条评分之后, 所述 方法还包括: 记录所述目标用户的搜索词条以及偏好词条; 根据记录的搜索词条以及偏好词条对每个所述字符对的关注度评分的权重、 相关性评 分的权重以及偏好评分的权 重进行调整; 根据调整后的每个所述字符对的关注度评分的权重、 相关性评分的权重以及偏好评分 的权重, 对每个所述字符对的关注度评 分、 相关性评 分以及偏好评 分进行加权求和, 得到每 个字符对 对应的词条的更新词条评分; 根据所述预设词条库中每个所述词条对应的更新词条评分, 得到更新后的预设评分 库。 7.根据权利要求1所述的方法, 其特征在于, 所述根据所述多个初选词条各自的词条评 分, 在所述多个初选词条中确定目标词条, 包括: 在所述多个初选词条中确定词条评分较高的M个词条作为第三词条, M为大于1的整数; 在所述第三词条中确定出语义相匹配的关联词条; 根据关联词条的词条评分, 在所述关联词条中确定出第四词条; 将所述第三词条中除所述关联词条以外的词条以及所述第四词条作为目标词条。 8.根据权利要求1所述的方法, 其特征在于, 所述获取目标用户输入的待搜索前缀字 符, 包括: 通过搜索界面中的搜索控 件获取目标用户输入的待搜索前缀字符; 所述根据 所述多个初选词条各自的词条评分, 在所述多个初选词条中确定目标词条之 后, 所述方法还 包括: 在所述目标词条中确定出词条评分较高的N个词条作为第五词条, N 为大于1的整数; 获取对应所述第五词条的推荐对象; 在所述搜索界面的显示区输出 所述推荐对象。 9.一种口语评分装置, 其特 征在于, 所述装置包括: 字符获取模块, 用于获取目标用户输入的字符, 作为待搜索前缀字符; 词条确定模块, 用于从预设词条库中确定对应所述待搜索前缀字符的多个初选词条, 所述预设词条库包括多个前缀字符以及所述多个前缀字符各自对应的词条; 评分确定模块, 用于从预设评分库中获取所述多个初选词条各自的词条评分, 所述预 设评分库包括每个所述词条的词条评分, 所述词条的词条评分基于所述词条对应的关注度 评分、 相关性评分以及偏好评分获得, 所述关注度评分表征所述 目标用户对所述词条 的关 注程度, 所述相关性评分表征所述词 条与所述预设词条库中其他词 条之间的相关性, 所述权 利 要 求 书 2/3 页 3 CN 115525161 A 3

.PDF文档 专利 词条获取方法、装置及电子设备

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 词条获取方法、装置及电子设备 第 1 页 专利 词条获取方法、装置及电子设备 第 2 页 专利 词条获取方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。