说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210208434.5 (22)申请日 2022.03.03 (71)申请人 贵州大学 地址 550025 贵州省贵阳市花溪区花溪大 道南段2708号 (72)发明人 黄瑞章 李静楠 秦永彬 陈艳平  (74)专利代理 机构 哈尔滨市阳光惠远知识产权 代理有限公司 2321 1 专利代理师 刘景祥 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种结合用户意图的深度半监督文本聚类 方法、 设备及 介质 (57)摘要 本发明提出一种结合用户意图的深度半监 督文本聚类方法、 设备及介质, 所述方法包括如 下步骤: 步骤一: 构造意图信息矩阵; 步骤二: 对 文本进行向量映射, 通过神经网络对文本向量进 行提取特征; 步骤三: 利用意图信息矩阵优化编 码器, 进一步得到更好的特征表示; 步骤四: 利用 KL散度辅助优化得到初始聚类结果; 步骤五: 构 建优化函数, 利用意图信息引导类簇聚集方向。 在给定了约束对监督信息的基础上, 充分利用深 度神经网络挖掘意图信息, 将意图信息融合到特 征表示中, 同时利用意图信息监督聚类过程, 有 效解决了半监督文本聚类文本表 示差异性、 监督 力度不够和忽略用户意图的问题, 从而提高聚类 结果的准确性, 得到更适合下游任务的聚类结 果。 权利要求书1页 说明书6页 附图2页 CN 114661903 A 2022.06.24 CN 114661903 A 1.一种结合用户意图的深度半监 督文本聚类方法, 其特 征在于, 所述方法具体包括: 步骤一: 将用户给定的约束信息处 理成意图矩阵; 步骤二: 通过 预训深度自编码器对文本学习到一个初始特 征表示; 步骤三: 将初始特征表示进行相似度归一化处理, 利用意图矩阵进行拟合计算损失, 不 断反调优化编码器参数, 得到最终的特 征表示; 步骤四: 利用KL散度对得到的特 征向量进行聚类, 得到文本聚类伪标签; 步骤五: 用意图矩阵对得到的伪标签计算损失函数即优化函数, 迭代优化步骤三, 得到 最终符合用户意图的文本聚类结果。 2.根据权利要求1所述的方法, 其特征在于, 所述步骤一中, 根据用户给定的成对的约 束信息, 挖掘数据点之 间的关联关系, 以此构 造大小为n*n的意图信息矩阵, 其中n为数据集 大小。 3.根据权利要求2所述的方法, 其特征在于, 所述步骤二中, 将文本向量化表示, 在向量 化表示过程中选用: 词频TF、 词频 ‑逆文本频率指数TF ‑IDF或是W ord2Vec方法做映射。 4.根据权利要求3所述的方法, 其特征在于, 所述步骤三中, 将步骤二中获得的初始特 征表示经过矩阵相乘得到一个汇聚所有文本数据的相似度 矩阵, 用此相似度 矩阵与意图信 息矩阵进行Similarity  Loss计算, 可以得到相应的相似度损失; 通过最小化所述相似度损 失来对步骤二中的编码器进行微调, 最终 获得融合用户意图语义信息的 的文本特 征表示。 5.根据权利要求4所述的方法, 其特征在于, 所述步骤四中, 经过步骤三, 得到了文本向 量的分布 Q, 为了使分布具有 更高的置信度根据Q进一步计算分布P, 利用KL散度公 式计算两 分布之间差异损失, 最小化所述损失辅助模型学习高置信度分配, 以细化模型参数和聚类 质心, 从而得到聚类的伪标签结果。 6.根据权利要求5所述的方法, 其特征在于, 所述步骤五中, 根据步骤四获得的伪标签, 构造一个大小为n*n的标签信息矩阵, 构造一个新的优化函数用于计算标签信息矩阵与意 图信息矩阵之 间的损失, 最小化所述损失来优化和指导聚类过程, 通过迭代, 最终得到最优 的聚类结果, 从而达到了使用约束信息指导聚类过程的目的, 得到了结合用户意图的文本 聚类结果。 7.根据权利要求6所述的方法, 其特 征在于, 所述优化 函数形式为: 其中, 代表样本xi的所属类别, 代表样本xj的所属类别; Must ‑link代表两个样本 点一定属于同一类别, Can not‑link代表两个样本点 一定不属于同一类别。 8.一种电子设备, 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1 ‑7任一项所述方法的步骤。 9.一种计算机可读存储介质, 用于存储计算机指令, 其特征在于, 所述计算机指令被处 理器执行时实现权利要求1 ‑7任一项所述方法的步骤。权 利 要 求 书 1/1 页 2 CN 114661903 A 2一种结合用户意 图的深度半监督文本聚类方 法、 设备及介质 技术领域 [0001]本发明属于信息抽 取、 文本处理技术领域, 特别是涉及一种结合用户意图的深度 半监督文本聚类方法、 设备及 介质。 背景技术 [0002]随着信息时代的到来, 大规模的数据以文本 的形式出现在人类面前。 文本聚类是 将相似的文本文档划分成一类, 是数据挖掘领域最重要的算法之一。 传统的无监督文本聚 类依据文档 之间的相似度大小划分类簇, 在划分时并不需要任何数据属 性。 随着应用场景 的多元化和下游任务的差异 化发展, 对于同一批数据, 不同用户有不同的聚类划分意图, 用 户需要依据意图指导聚类结果。 例如针对同一批新闻文本数据, 用户A的意图是按照新闻归 属的“地区”进行划分, 用户B的意图是按照新闻的 “主题”进行划分。 不同的意图会产生不同 的聚类结果。 但是传统的无监督聚类算法只能根据数据特点划分结构, 无法考虑用户提供 的意图信息。 因而, 在实际的应用中, 用户根据不同的下游任务需求提供不同的监督信息, 利用监督信息指导聚类, 从而有了半监督文本聚类。 半监督聚类是结合半监督学习与聚类 分析而提出 的新的学习 方法,其在机器学习中得到了广泛的重视和应用。 半监督文本聚类 算法是一种利用少量监督信息对文档进行分组的方法。 它有效地利用了监督信息,提高了 算法的性能, 降低了计算复杂度。 从理论层面看, 半监督文本聚类的技术研究能为其它自然 语言处理技术提供理论支持, 是一项值得进行 下去的自然语言处 理项目。 [0003]半监督文本聚类在机器学习中已经从不同的方面得到了广泛的研究针对各种问 题已经提出了大量半监督文本聚类算法, 半监督聚类方法分为如下3类: 基于约束的半监督 聚类, 这类算法的思想特点是在传统聚类的基础上加入约束限制 信息来使聚类效果达到最 佳; 基于距离的半监督聚类, 这类算法的特点是在 对数据进 行预处理的过程中,对样本之间 的相似性度量进行变换,从而得到一个新的测 量函数,使得相关联的正约束样本之间更加 相近而负样本则更加相反; 基于约束和距离相结合的半监督聚类, 这类算法是将前两种方 法相结合而 得到的一种新的算法,可以获得更好的聚类效果。 但这些方法都有以下不 足: 首 先, 文本表示差异性问题, 在实际的应用中, 文本表达具有差异性, 应针对不同用户聚类意 图有不同的表达侧重; 其次, 意图监督力度弱, 监督信息只能指导少量文本样本的结构划 分, 无法准确的表达用户的整体聚类意图; 最后, 忽略了用户意图, 无法根据特定的应用场 景和下游任务需求, 针对同一批数据样本得到符合用户意图的不同的聚类结果。 发明内容 [0004]本发明为了解决现有技术中的问题, 提出了一种结合用户意图的深度半监督文本 聚类方法、 设备及 介质。 [0005]本发明是通过以下技术方案实现的, 本发明提出一种结合用户意图的深度半监督 文本聚类方法, 所述方法具体包括: [0006]步骤一: 将用户给定的约束信息处 理成意图矩阵;说 明 书 1/6 页 3 CN 114661903 A 3

.PDF文档 专利 一种结合用户意图的深度半监督文本聚类方法、设备及介质

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种结合用户意图的深度半监督文本聚类方法、设备及介质 第 1 页 专利 一种结合用户意图的深度半监督文本聚类方法、设备及介质 第 2 页 专利 一种结合用户意图的深度半监督文本聚类方法、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:10上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。