说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210736450.1 (22)申请日 2022.06.27 (71)申请人 平安银行股份有限公司 地址 518000 广东省深圳市罗湖区深南 东 路5047号 (72)发明人 瞿学新 翟文博 陈涛 (74)专利代理 机构 深圳市倡创专利代理事务所 (普通合伙) 44660 专利代理师 罗明玉 (51)Int.Cl. G06F 16/332(2019.01) G06F 40/216(2020.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 一种基于Word2Vec和TFIDF的WIKI知 识库搜 索词分析方法和装置 (57)摘要 本申请提供一种基于Word2Vec和TFIDF的 WIKI知识库搜索词分析方法和装置, 属于人工智 能技术领域, 本申请的方法, 采用Word2Vec对知 识库中的文本构建语义模型, 并结合改进的TF ‑ IDF提取搜索关键词, 首先, 对每个用户的搜索文 本过滤无用记录, 并进行分词和过滤停用词, 其 次, 通过Word2Vec对知 识库中的文本构建语义模 型, 得到搜索词之间的相似性, 最后, 根据改进的 TF‑IDF方法计算得到关键词, 能够有效的从用户 的搜索词 中得到关键词, 从而了解搜索动向, 以 及从中发现知识的缺失, 便 于知识库的管理。 权利要求书2页 说明书7页 附图3页 CN 115080719 A 2022.09.20 CN 115080719 A 1.一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析方法, 其特征在于, 所述WIKI知 识库搜索词分析 方法包括: 对每个用户的搜索文本进行过滤处理, 并通过分词和停用词过滤得到预处理搜索文本 集; 采用Word2Vec构建知识库语义模型, 并采用余弦相似度算法计算搜索词之间的相似 度, 得到相似度矩阵; 采用改进的TF ‑IDF方法, 从搜索词中提取关键词, 得到关键词权 重; 根据所述关键词权 重, 采用词云的方式在前端 展示对应的搜索关键词。 2.根据权利要求1所述的WIKI知识库搜索词分析方法, 其特征在于, 其特征在于, 所述 对每个用户的搜索文本进 行过滤处理, 并通过分词和停用词过滤得到预处理搜索 文本集包 括: 在搜索数据中, 将中文搜索文本转 化为对应的拼音 文本, 得到第一搜索数据集; 在所述第一搜索数据集中, 按照搜索时间升序排序, 针对每个用户的搜索数据满足预 设规则的视为同一次输入并进行合并, 得到第二搜索数据集; 针对所述第 二搜索数据集中同次输入的内容进行过滤, 保留时间上最靠近当前时间节 点的最后一条 数据, 得到过 滤后的第三数据集; 对所述第三数据集中原先为中文的数据进行还原, 并通过分词和 停用词过滤得到预处 理搜索文本集。 3.根据权利要求1所述的WIKI知识库搜索词分析方法, 其特征在于, 其特征在于, 所述 采用Word2Vec构建知识库语义模型, 并采用余弦相似度算法计算搜索词之间的相似度, 得 到相似度矩阵, 具体包括: 对知识库中内容, 通过Word2Vec构 建知识库语义模型, 得到各词的词向量, 并结合余弦 相似度方法, 计算各搜索词之间的相似度, 得到相似度矩阵M 。 4.根据权利要求1所述的WIKI知识库搜索词分析方法, 其特征在于, 其特征在于, 所述 采用改进的TF ‑IDF方法, 从搜索词中提取关键词, 得到关键词权 重包括: 对预处理搜索文本集中各搜索词进行去重处理后得到搜索词集, 并根据改进的TF ‑IDF 方法, 计算各搜索词的词权 重, 搜索词i的词权 重Wi计算公式为: 其中, γ∈(0,1]为惩罚系数, ε∈(0,1]为相似度阈值, count(T)为统计预处理搜索文 本集中总词数, N为预处理搜索 文本集中用户总数, dfi为搜索包含词i的用户数, Mi,j为词j 与i的相似度。 5.一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析装置, 其特征在于, 所述WIKI知 识库搜索词分析装置包括: 预处理模块, 用于对每个用户的搜索文本进行过滤处理, 并通过分词和停用词过滤得 到预处理搜索文本集;权 利 要 求 书 1/2 页 2 CN 115080719 A 2计算模块, 用于采用Word2Vec构建知识库语义模型, 并采用余弦相似度算法计算搜索 词之间的相似度, 得到相似度矩阵; 提取模块, 用于采用改进的TF ‑IDF方法, 从搜索词中提取关键词, 得到关键词权 重; 展示模块, 用于根据所述关键词权 重, 采用词云的方式在前端 展示对应的搜索关键词。 6.根据权利要求5所述的WIKI知识库搜索词分析装置, 其特征在于, 所述预处理模块具 体用于: 在搜索数据中, 将中文搜索文本转 化为对应的拼音 文本, 得到第一搜索数据集; 在所述第一搜索数据集中, 按照搜索时间升序排序, 针对每个用户的搜索数据满足预 设规则的视为同一次输入并进行合并, 得到第二搜索数据集; 针对所述第 二搜索数据集中同次输入的内容进行过滤, 保留时间上最靠近当前时间节 点的最后一条 数据, 得到过 滤后的第三数据集; 对所述第三数据集中原先为中文的数据进行还原, 并通过分词和 停用词过滤得到预处 理搜索文本集。 7.根据权利要求5所述的WIKI知识库搜索词分析装置, 其特征在于, 所述提取模块具体 用于: 对预处理搜索文本集中各搜索词进行去重处理后得到搜索词集, 并根据改进的TF ‑IDF 方法, 计算各搜索词的词权 重, 搜索词i的词权 重Wi计算公式为: 其中, γ∈(0,1]为惩罚系数, ε∈(0,1]为相似度阈值, count(T)为统计预处理搜索文 本集中总词数, N为预处理搜索 文本集中用户总数, dfi为搜索包含词i的用户数, Mi,j为词j 与i的相似度。 8.一种电子设备, 其特 征在于, 包括: 处 理器, 以及与所述处 理器通信连接的存 储器; 所述存储器存储计算机执 行指令; 所述处理器执行所述存储器存储的计算机执行指令, 以实现如权利要求1 ‑5中任一项 所述的方法。 9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中存储有计算机 执行指令, 所述计算机执行指令被处理器执行时用于实现如权利要求1 ‑5中任一项所述的 方法。 10.一种计算机程序产品, 其特征在于, 包括计算机程序, 该计算机程序被处理器执行 时实现权利要求1 ‑5中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115080719 A 3
专利 一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析方法和装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-18 14:07:16
上传分享
举报
下载
原文档
(636.1 KB)
分享
友情链接
ISO 9465 2012 Alpine ski-bindings — Lateral release under impact loading — Test method.pdf
ISO 19626-2 2021 Processes data elements and documents in commerce industry and administration Trusted communication platform for electronic documents Part 2 Applications.pdf
ISO 14807 2001 Photography — Transmission and reflection densitometers — Method for determining performance.pdf
ISO 1151-3 1989 Flight dynamics — Concepts, quantities and symbols — Part 3 Derivativ.pdf
ISO IEC 27039 2015 Information technology — Security techniques — Selection, deployment and operations of intrusion detection and prevention systems (IDPS).pdf
ISO TS 21560 2020 General requirements of tissue-engineered medical products.pdf
ISO 10896-4 2015 Rough-terrain trucks — Safety requirements and verification — Part 4 Additional requirements for variable-reach trucks handling freely suspended loads.pdf
ISO IEC 11586-4 1996 Information technology — Open Systems Interconnection — Generic upper layers security Protecting transfer syntax specification.pdf
ISO 15676 2016 Cardiovascular implants and artificial organs Requirements for single-use tubing packs for cardiopulmonary bypass and extracorporeal membrane oxygenation (ECMO).pdf
ISO_IEC 9636-4-1991Information technology -- Computer graphics -- Interfacing techniques for dialogu.pdf
GB-T 34400-2017 消费品召回 生产者指南.pdf
GB-T 18716-2002 汇款通知报文.pdf
GB 25434-2010 橡胶塑料压延机安全要求.pdf
GB-T 35115-2017 工业自动化能效.pdf
GB-T 5563-2013 橡胶和塑料软管及软管组合件 静液压试验方法.pdf
GB-T 15223-2008 塑料 液体树脂 用比重瓶法测定密度.pdf
GB-T 41480-2022 门和卷帘的防烟性能试验方法.pdf
GB-T 2670.3-2017 内六角花形半沉头自攻螺钉.pdf
GB-T 16450-2004 常规分析用吸烟机 定义和标准条件.pdf
GB-T 16895.25-2005 建筑物电气装置 第7-711部分 特殊装置或场所的要求-展览馆、陈列室和展位.pdf
1
/
3
13
评价文档
赞助1.5元 点击下载(636.1 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。