说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211199101.7 (22)申请日 2022.09.29 (71)申请人 中国银行股份有限公司 地址 100818 北京市西城区复兴门内大街1 号 (72)发明人 屈蒙蒙  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 崔清杨 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/216(2020.01) G06F 16/28(2019.01) G06F 16/25(2019.01) G06F 16/215(2019.01) (54)发明名称 一种主题识别方法及 装置、 存储介质及电子 设备 (57)摘要 本申请提供了一种主题识别方法及装置、 存 储介质及电子设备, 可应用于 人工智能领域或金 融领域, 通过利用词频 ‑逆文档频率TF ‑IDF算法, 对元表中的数据进行关键词抽取, 得到元表对应 的多个第一关键词, 并进一步利用预先构建的 LDA主题模型, 对各个第一 关键词进行筛选, 得到 多个第二关键词, 实现关键词的准确抽取, 然后 将将各个第二关键词输入至预先构建的主题分 类模型中, 得到元表的主题, 实现自动对元表进 行主题识别, 而无需人工干预, 提高了主题识别 的效率。 权利要求书1页 说明书7页 附图4页 CN 115481697 A 2022.12.16 CN 115481697 A 1.一种主题 识别方法, 其特 征在于, 包括: 获取待进行主题 识别的元表; 利用词频 ‑逆文档频率TF ‑IDF算法, 对所述元表中的数据进行关键词抽取, 得到所述元 表对应的多个第一关键词; 利用预先构建的LDA主题模型, 对各个第一关键词进行筛 选, 得到多个第二关键词; 将各个第二关键词输入至预 先构建的主题分类模型中, 得到所述元表的主题。 2.根据权利要求1所述的方法, 其特征在于, 所述将各个第 二关键词输入至预先构建的 主题分类模型中之前, 还 包括: 利用预设的停用词, 对各个第二关键词进行 数据清洗 。 3.根据权利要求1所述的方法, 其特征在于, 所述将各个第 二关键词输入至预先构建的 主题分类模型中, 得到所述元表的主题之后, 还 包括: 利用所述元表的主题, 设置所述元表的主题标识。 4.根据权利要求1所述的方法, 其特征在于, 所述利用所述元表的主题, 设置所述元表 的主题标识之后, 还 包括: 基于所述元表的主题标识, 将所述元表存储至数字仓库的包括的各个主题模型中所述 主题标识对应的主题模型。 5.一种主题 识别装置, 其特 征在于, 包括: 获取单元, 用于获取待 进行主题 识别的元表; 抽取单元, 用于利用词频 ‑逆文档频率TF ‑IDF算法, 对所述元表中的数据进行关键词抽 取, 得到所述元表对应的多个第一关键词; 筛选单元, 用于利用预先构建的LDA主题模型, 对各个第一关键词进行筛选, 得到多个 第二关键词; 识别单元, 用于将各个第二关键词输入至预先构建的主题分类模型中, 得到所述元表 的主题。 6.根据权利要求5所述的装置, 其特 征在于, 还 包括: 清洗单元, 用于利用预设的停用词, 对各个第二关键词进行 数据清洗 。 7.根据权利要求5所述的装置, 其特 征在于, 还 包括: 设置单元, 用于利用所述元表的主题, 设置所述元表的主题标识。 8.根据权利要求7 所述的装置, 其特 征在于, 还 包括: 存储单元, 用于基于所述元表的主题标识, 将所述元表存储至数字仓库的包括的各个 主题模型中所述主题标识对应的主题模型。 9.一种存储介质, 其特征在于, 所述存储介质存储有指令集, 其中, 所述指令集被处理 器执行时实现如权利要求1 ‑4任意一项所述的主题 识别方法。 10.一种电子设备, 其特 征在于, 包括: 存储器, 用于存 储至少一组指令集; 处理器, 用于执行所述存储器中存储的指令集, 通过执行所述指令集实现如权利要求 1‑4任意一项所述的主题 识别方法。权 利 要 求 书 1/1 页 2 CN 115481697 A 2一种主题识别方 法及装置、 存储介质及电子 设备 技术领域 [0001]本申请涉及人工智能技术领域, 尤其涉及一种主题识别方法及装置、 存储介质及 电子设备。 背景技术 [0002]现有技术中, 数字仓库的构建过程中, 需要模型设计人员花费大量的时间对元表 进行主题识别, 并基于所是识别的主题, 将元表存储至对应的主题模 型中。 由于主题识别依 赖于人工实现, 导 致主题识别效率低。 发明内容 [0003]本申请提供了一种主题 识别方法, 目的在于实现对SQ L语句进行主题 识别。 [0004]为了实现上述目的, 本申请提供了以下技 术方案: [0005]一种主题 识别方法, 包括: [0006]获取待进行主题 识别的元表; [0007]利用词频 ‑逆文档频率TF ‑IDF算法, 对所述元表中的数据进行关键词抽取, 得到所 述元表对应的多个第一关键词; [0008]利用预先构建的LDA主题模型, 对各个第一关键词进行筛选, 得到多个第二关键 词; [0009]将各个第二关键词输入至预 先构建的主题分类模型中, 得到所述元表的主题。 [0010]上述的方法, 可选 的, 所述将各个第二关键词输入至预先构建的主题分类模型中 之前, 还包括: [0011]利用预设的停用词, 对各个第二关键词进行 数据清洗 。 [0012]上述的方法, 可选的, 所述将各个第二关键词输入至预先构建的主题分类模型中, 得到所述元表的主题之后, 还 包括: [0013]利用所述元表的主题, 设置所述元表的主题标识。 [0014]上述的方法, 可选 的, 所述利用所述元表的主题, 设置所述元表的主题标识之后, 还包括: [0015]基于所述元表的主题标识, 将 所述元表存储至数字仓库的包括的各个主题模型 中 所述主题标识对应的主题模型。 [0016]一种主题 识别装置, 包括: [0017]获取单元, 用于获取待 进行主题 识别的元表; [0018]抽取单元, 用于利用词频 ‑逆文档频率TF ‑IDF算法, 对所述元表中的数据进行关键 词抽取, 得到所述元表对应的多个第一关键词; [0019]筛选单元, 用于利用预先构建的LDA主题模型, 对各个第一关键词进行筛选, 得到 多个第二关键词; [0020]识别单元, 用于将各个第二关键词输入至预先构建的主题分类模型中, 得到所述说 明 书 1/7 页 3 CN 115481697 A 3

.PDF文档 专利 一种主题识别方法及装置、存储介质及电子设备

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种主题识别方法及装置、存储介质及电子设备 第 1 页 专利 一种主题识别方法及装置、存储介质及电子设备 第 2 页 专利 一种主题识别方法及装置、存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:58:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。