说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221070913 5.X (22)申请日 2022.06.21 (71)申请人 中国科学院自动化研究所 地址 100190 北京市海淀区中关村东路95 号 (72)发明人 曾杰林 李林静 梁嘉琦 曾大军  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 李文清 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G10L 15/26(2006.01) G06N 20/00(2019.01) (54)发明名称 语音转录文本聚类方法、 装置、 电子设备和 存储介质 (57)摘要 本发明提供一种语音转录文本聚类方法、 装 置、 电子设备和存储介质, 所述方法包括: 提取各 语音转录文本的向量表示; 将各语音转录文本的 向量表示输入至文本聚类模型, 得到文本聚类模 型输出的各语音转录文本的聚类结果; 本发明以 最小化相同样本语音转录文本的向量表示之间 的距离, 最大化不同样本语音转录文本的向量表 示之间的距离, 最小化样本语音转录文本的向量 表示与其所属类别的语义向量之间的距离以及 最大化样本语音转录文本的向量表示与其它类 别的语义向量之间的距离为目标迭代更新训练 得到文本聚类模 型, 最终使 得文本聚类模型能够 从文本层面和类别层面对各语音转录文本进行 聚类, 进而准确得到聚类结果。 权利要求书3页 说明书11页 附图2页 CN 115238068 A 2022.10.25 CN 115238068 A 1.一种语音转录文本聚类方法, 其特 征在于, 包括: 提取各语音转录文本的向量表示; 将各语音转录文本的向量表示输入至文本聚类模型, 得到所述文本聚类模型输出的各 语音转录文本的聚类结果; 所述文本聚类模型基于多个样本语音转录文本的向量表示以及各样本语音转录文本 的聚类结果训练得到, 所述文本聚类模型的训练以最小化相同样本语音转录文本的向量表 示之间的距离, 最大化不同样本语音转录文本的向量表示之间的距离, 最小化样本语音转 录文本的向量表示与其所属类别的语义向量之间的距离以及最大化样本语音转录文本的 向量表示与其它类别的语义向量之间的距离为目标。 2.根据权利要求1所述的语音转录文本聚类方法, 其特征在于, 所述文本聚类模型基于 如下步骤训练得到: 聚类步骤: 基于所述文本聚类模型的当前迭代模型, 提取各样本语音转录文本的样本 向量表示, 并基于各样本 向量表示进行文本聚类, 得到各样本语音转录文本的当前聚类结 果; 向量确定步骤: 基于所述当前聚类结果中相同类别各样本语音转录文本的样本向量表 示, 确定各类别的语义向量; 训练步骤: 基于相同样本语音转录文本的向量表示之间的距离, 不同样本语音转录文 本的向量表示之间的距离, 样本语音转录文本的向量表示与其所属类别的语义向量之 间的 距离以及样本语音转录文本的向量表示与其它类别的语义向量之 间的距离, 确定所述当前 迭代模型的损失值, 并基于所述损失值对所述当前迭代模型进行参数 更新; 迭代步骤: 以参数更新后的当前迭代模型作为所述聚类步骤中的当前迭代模型, 依次 重复执行所述聚类步骤, 所述向量确定步骤以及所述训练步骤, 直至达到收敛条件, 得到所 述文本聚类模型。 3.根据权利要求2所述的语音转录文本聚类方法, 其特征在于, 所述基于相同样本语音 转录文本的向量表示之间的距离, 不同样本语音转录文本的向量表示之间的距离, 样本语 音转录文本的向量表示与其所属类别的语义向量之间的距离以及样本语音转录文本的向 量表示与其它类别的语义向量之间的距离, 确定所述当前迭代模型的损失值, 包括: 基于相同样本语音转录文本的向量表示之间的余弦相似度, 以及不同样本语音转录文 本的向量表示之间的余弦相似度, 确定文本层面的对比损失值; 基于样本语音转录文本的向量表示与其所属类别的语义向量之间的余弦相似度以及 样本语音转录文本的向量表示与其它类别的语义向量之 间的余弦相似度, 确定类别 层面的 对比损失值; 基于所述文本层面的对比损 失值, 以及所述类别层面的对比损 失值, 确定所述当前迭 代模型的损失值。 4.根据权利要求3所述的语音转录文本聚类方法, 其特征在于, 所述文本层面的对比损 失值基于如下公式确定: 权 利 要 求 书 1/3 页 2 CN 115238068 A 2其中, 表示所述文本层面的对比损失值, 表示所述相同样本语音转录文 本的向量表示之间的余弦相似度, 表示所述不同样本语音转录文本的向量表 示之间的余弦相似度, τ表示 余弦值的缩放 程度, N表示 一个训练批次的样本数量; 所述类别层面的对比损失值基于如下公式确定: 其中, 表示所述类别 层面的对比损失值, sim(si,ec)表示所述样本语音转录文本的向 量表示si与其所属类别的语义向量ec之间的余弦相似度, sim(si,ej)表示所述样本语音转 录文本的向量表示si与其它类别的语义向量ej之间的余弦相似度, nc表示语义向量ec对应 类别中样本语音转录文 本的数量, nj表示语义向量ej对应类别中样本语音转录文 本的数量, α 为平滑系数。 5.根据权利要求1至4任一项所述的语音转录文本聚类方法, 其特征在于, 所述提取各 语音转录文本的向量表示, 包括: 对各语音转录文本进行编码, 得到各语音转录文本的字符编码向量 集合; 对所述字符编码向量集合中的各向量进行均值处理, 得到各语音转录文本的向量表 示。 6.根据权利要求5所述的语音转录文本聚类方法, 其特征在于, 各语音转录文本的向量 表示基于如下公式确定: 其中, Si表示各语音转录文本的向量表示, n表示各语音转录文本的字符数, ecls表示各 语音转录文本起始字符的编码向量, esep表示各语音转录文本结束字符的编码向量, ej表示 各语音转录文本的字符编码向量。 7.根据权利要求1至4任一项所述的语音转录文本聚类方法, 其特征在于, 所述相同样权 利 要 求 书 2/3 页 3 CN 115238068 A 3

.PDF文档 专利 语音转录文本聚类方法、装置、电子设备和存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语音转录文本聚类方法、装置、电子设备和存储介质 第 1 页 专利 语音转录文本聚类方法、装置、电子设备和存储介质 第 2 页 专利 语音转录文本聚类方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:15:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。