说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210557334.3 (22)申请日 2022.05.20 (71)申请人 讯飞智元信息科技有限公司 地址 230088 安徽省合肥市高新区望江西 路666号讯飞大厦8层-10层 申请人 科大讯飞股份有限公司 (72)发明人 谭昶 洪源 陈士星 张友国  吕军 胡少云 刘江 刘芳 范磊  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 王治东 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/35(2019.01) (54)发明名称 标签提取方法、 装置、 电子设备和存 储介质 (57)摘要 本发明提供一种标签提取方法、 装置、 电子 设备和存储介质, 所述方法包括: 基于样本文本 之间的语义相似度, 确定多个候选话题簇; 基于 各候选话题簇的关键词语义, 对 各候选话题簇进 行话题聚类, 得到多个话题簇; 对各话题簇中的 样本文本分别进行标签提取, 得到各话题簇的标 签。 本发明提供的标签提取方法、 装置、 电子设备 和存储介质, 基于能够从语义层面表征样本文本 之间相似程度的语义相似度以及能够刻画各候 选话题簇主题特征信息的关键词语义进行标签 提取, 提高了标签提取的准确度, 同时本发明自 动进行标签提取, 提高了标签提取效率。 权利要求书2页 说明书13页 附图5页 CN 115062621 A 2022.09.16 CN 115062621 A 1.一种标签提取 方法, 其特 征在于, 包括: 基于样本文本之间的语义相似度, 确定多个候选话题簇; 基于各候选话题簇的关键词语义, 对各候选话题簇进行话题聚类, 得到多个话题簇; 对各话题簇中的样本文本分别进行 标签提取, 得到各话题簇的标签。 2.根据权利要求1所述的标签提取方法, 其特征在于, 所述样本文本包括携带话题类别 标签的第一样本文本和未携带话题类别标签的第二样本文本; 所述基于样本文本之间的语义相似度, 确定多个候选话题簇, 包括: 基于所述第一样本文本携带的话题类别标签, 确定多个初始话题簇, 所述初始话题簇 的数量基于所述 话题类别标签的种类数量确定; 基于所述第 二样本文本与 各初始话题簇 中的第一样本文本之间的语义相似度, 更新所 述多个初始话题簇, 得到所述多个候选话题簇 。 3.根据权利要求2所述的标签提取方法, 其特征在于, 所述基于所述第 二样本文本与 各 初始话题簇中的第一样本文本之间的语义相似度, 更新所述多个初始话题簇, 得到所述多 个候选话题簇, 包括: 基于所述第 二样本文本与 各初始话题簇 中的第一样本文本之间的语义相似度, 确定所 述第二样本文本与各初始话题簇之间的平均语义相似度; 在所述平均语义相似度 大于阈值的情况下, 将所述第 二样本文本添加至对应的初始话 题簇, 以更新对应的初始话题簇; 在所述平均语义相似度小于等于所述阈值的情况, 基于所述第 二样本文本构建新增的 初始话题簇; 将更新完成的初始话题簇确定为 候选话题簇 。 4.根据权利要求1所述的标签提取方法, 其特征在于, 所述基于各候选话题簇的关键词 语义, 对各候选话题簇进行话题聚类, 得到多个话题簇, 包括: 基于各候选话题簇的关键词语义, 确定各候选话题簇的语义表示; 基于各候选话题簇的语义表示, 确定各候选话题簇之间的语义相似度, 并基于各候选 话题簇之间的语义相似度对各候选话题簇进行话题聚类, 得到各话题簇 。 5.根据权利要求4所述的标签提取方法, 其特征在于, 所述基于各候选话题簇的关键词 语义, 确定各候选话题簇的语义表示, 包括: 基于各候选话题簇中各分词的出现频次, 确定各候选话题簇的关键词; 基于分词权重, 对各候选话题簇的关键词语义特征向量进行加权求和, 确定各候选话 题簇的语义表示; 所述分词权 重基于各关键词的出现频次确定 。 6.根据权利要求1至5任一项所述的标签提取方法, 其特征在于, 所述对各话题簇中的 样本文本进行 标签提取, 得到各话题簇的标签, 包括: 对各话题簇中的样本文本进行语义理解, 基于语义理解得到的语义信息生成文本片 段, 并以所述文本片段作为各话题簇的语义文本标签; 基于所述语义文本标签, 或基于要素文本标签和所述语义文本标签, 确定各话题簇的 标签; 所述要素文本标签是对各话题簇中的样本文本进行要素抽取后得到的关键词。 7.根据权利要求1至5任一项所述的标签提取方法, 其特征在于, 所述得到各话题簇的 标签, 之后还 包括:权 利 要 求 书 1/2 页 2 CN 115062621 A 2基于所述标签与各话题簇 中的样本文本之间的语义相似度, 确定所述标签与 各话题簇 的相关度; 在所述相关度小于预设相关度的情况 下, 删除所述标签。 8.根据权利要求1至5任一项所述的标签提取方法, 其特征在于, 所述得到各话题簇的 标签, 之后还 包括: 基于新增文本与各话题簇 中的样本文本之间的语义相似度, 确定所述新增文本与 各话 题簇的话题相似度; 在所述话题相似度大于预设相似度的情况下, 将对应话题簇的标签作为所述新增文本 的标签; 在所述话题相似度小于等于所述预设相似度的情况下, 基于所述新增文本构建新增的 话题簇。 9.一种标签提取装置, 其特 征在于, 包括: 确定单元, 用于基于样本文本之间的语义相似度, 确定多个候选话题簇; 聚类单元, 用于基于各候选话题簇的关键词语义, 对各候选话题簇进行话题聚类, 得到 多个话题簇; 提取单元, 用于对各话题簇中的样本文本分别进行 标签提取, 得到各话题簇的标签。 10.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至8任一项所 述标签提取 方法。 11.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处 理器执行时实现如权利要求1至8任一项所述标签提取 方法。权 利 要 求 书 2/2 页 3 CN 115062621 A 3

.PDF文档 专利 标签提取方法、装置、电子设备和存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 标签提取方法、装置、电子设备和存储介质 第 1 页 专利 标签提取方法、装置、电子设备和存储介质 第 2 页 专利 标签提取方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。