说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210575092.0 (22)申请日 2022.05.25 (71)申请人 腾讯音乐娱乐科技 (深圳) 有限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (72)发明人 杨羽菲 周蓝珺 潘树燊  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 彭程 (51)Int.Cl. G06F 16/68(2019.01) G06F 16/33(2019.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 文本处理方法及装置 (57)摘要 本申请实施例公开了一种文本处理方法及 装置, 其中方法包括: 对原始搜索文本进行分词 处理, 得到M个分词, M为正整数; 根据同义词表对 M个分词依次进行同义词改写, 得到第M候选文本 集合; 同义词表用于指示语义词与语义词的同义 词的对应关系; 第M候选文本集合中每个候选文 本与原始搜索文本语义相同; 从第M候选文本集 合中选取改写概率超过预设改写阈值的候选文 本, 组成目标文本集合, 改写概率由候选文本关 联的歌单的播放量确定; 根据目标文本集合确定 搜索输入文本, 搜索输入文本用于搜索得到歌 单。 本申请可以提高对文本进行同义词改写的准 确率。 权利要求书2页 说明书18页 附图5页 CN 114817625 A 2022.07.29 CN 114817625 A 1.一种文本处 理方法, 其特 征在于, 所述方法包括: 对原始搜索文本进行分词处 理, 得到M个分词, M为 正整数; 根据同义词表对所述M个分词依次进行同义词改写, 得到第M候选文本集合; 所述同义 词表用于指示语义词与所述语义词的同义词的对应关系; 所述第M候选文本集合中每个候 选文本与所述原 始搜索文本语义相同; 从所述第M候选文本集合中选取改写概率超过预设改写阈值的候选文本, 组成目标文 本集合, 所述改写概 率由所述 候选文本关联的歌单的播 放量确定; 根据所述目标文本集 合确定搜索输入文本, 所述搜索输入文本用于 搜索得到 歌单。 2.根据权利要求1所述的方法, 其特征在于, 所述根据同义词表对所述M个分词依次进 行同义词改写, 得到第M候选文本集 合, 包括: 将N设置为1, 获取第N ‑1候选文本集合, 所述第N ‑1候选文本集合包括至少一个候选文 本, 所述至少一个候选文本中每个候选文本与所述原始搜索文本语义相同, 且所述每个候 选文本的前N ‑1个分词经 过同义词改写处 理; 在同义词表中查找所述每 个候选文本的第N个分词对应的同义词集 合; 基于所述同义词集合对所述每个候选文本中的第N个分词进行同义词改写, 得到待处 理候选文本集 合; 确定所述待处 理候选文本集 合中每个待处理候选文本的改写概 率; 基于所述每个待处理候选文本的改写概率从所述待处理候选文本集合中选取预设数 量的待处 理候选文本, 组成第N 候选文本集 合; 若所述N不等于M, 对N执行加1操作, 返回执 行所述获取第N ‑1候选文本集 合的步骤。 3.根据权利要求2所述的方法, 其特征在于, 所述确定所述待处理候选文本集合中每个 待处理候选文本的改写概 率, 包括: 将所述每个待处理候选文本中各个分词对应的条件概率的乘积作为所述每个待处理 候选文本的第一概率; 任一分词对应的条件概率由所述任一分词所在的第一处理片段相关 的歌单的播放量确定, 所述第一处理片段包括至少两个相 邻分词且所述任一分词为所述至 少两个相邻分词中的最后一个分词; 根据所述每个待处理候选文本中第N个分词对应的替换概率, 确定所述每个待处理候 选文本的第二概率; 所述第N个分词对应的替换概率由与所述第N个分词所在的第二处理片 段相关的歌单的播 放量确定, 所述第二处 理片段与所述第N个分词的上 下文相关; 将所述第一 概率和所述第二 概率的乘积作为所述改写概 率。 4.根据权利要求3所述的方法, 其特征在于, 所述第 一处理片段相关的歌单的播放量是 歌单库中歌单标题与所述第一处理片段相同的歌单的播放量; 所述第二处理片段相关的歌 单的播放量是所述歌单库中歌单 标题与所述第二处 理片段相同的歌单的播 放量; 或者, 所述第一处理片段相关的歌单的播放量是所述歌单库中歌单标题包含所述第一处理 片段的歌单的播放量; 所述第二处理片段相关的歌单的播放量是所述歌单库中歌单标题包 含所述第二处 理片段的歌单的播 放量。 5.根据权利要求2所述的方法, 其特征在于, 所述确定所述待处理候选文本集合中每个 待处理候选文本的改写概 率, 包括: 将所述每个待处理候选文本中各个分词对应的条件概率的乘积作为所述每个待处理权 利 要 求 书 1/2 页 2 CN 114817625 A 2候选文本的第一概率; 任一分词对应的条件概率由所述任一分词所在的第一处理片段相关 的歌单的播放量确定, 所述第一处理片段包括至少两个相 邻分词且所述任一分词为所述至 少两个相邻分词中的最后一个分词; 获取所述每个待处理候选文本相关的歌单的历史点击率; 将所述第一 概率和所述历史点击率的乘积作为所述改写概 率。 6.根据权利要求2所述的方法, 其特征在于, 所述基于所述每个待处理候选文本的改写 概率从所述待处理候选文本集合中选取预设数量的待处理候选文本, 组成第N候选文本集 合, 包括: 从所述待处理候选文本集合中删除第 一待处理候选文本及第 二待处理候选文本, 得到 预选集合; 所述第一待处理候选文本的前N ‑1个分词中存在与所述第N个分词或所述第N个 分词的同义词相同的分词, 所述第二待处理候选文本为分词相同且组合顺序不同的多个待 处理候选文本中改写概 率不为最大的待处 理候选文本; 基于所述改写概率从所述预选集合中选取预设数量的待处理候选文本, 组成所述第N 候选文本集 合。 7.根据权利要求1 ‑6任一项所述的方法, 其特征在于, 所述根据 所述目标文本集合确定 搜索输入文本, 包括: 将所述目标文本集合中改写概率最大的目标文本或者所述目标文本集合中的各个目 标文本确定为所述搜索输入文本 。 8.根据权利要求1 ‑6任一项所述的方法, 其特 征在于, 所述方法还 包括: 获取所述歌单 标题集合和所述历史搜索集 合; 对所述歌单标题集合内的歌单标题进行分词处理得到第一分词集合以及对所述历史 搜索集合内的历史搜索进行分词处 理得到第二分词集 合; 调用意图识别模型, 分别对所述第一分词集合和所述第二分词集合进行语义识别, 得 到第一语义词集 合以及第二语义词集 合; 调用向量嵌入 模型, 查找所述第一语义词集 合对应的第一同义词集 合; 在预设同义挖掘词表中查找所述第二语义词集 合对应的第二同义词集 合; 从包含所述第一同义词集合和所述第二同义词集合的集合中选取两个语义词进行语 义判定, 若所述两个 语义词为同义词, 则所述两个 语义词的对应关系记录 至所述同义词表。 9.一种终端设备, 其特 征在于, 所述终端设备包括存 储器, 处理器; 所述存储器, 用于存 储计算机程序; 所述处理器, 用于从所述存储器调用所述计算机程序, 使得所述终端设备执行如权利 要求1‑8中任意一项所述的方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机存储介质中存储有计算机可读 指令, 当所述计算机可读指 令在终端设备上运行时, 使 得所述终端设备执行如权利要求 1‑8 中任意一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114817625 A 3

.PDF文档 专利 文本处理方法及装置

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本处理方法及装置 第 1 页 专利 文本处理方法及装置 第 2 页 专利 文本处理方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。