说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221084589 2.X (22)申请日 2022.07.19 (71)申请人 解放号网络科技有限公司 地址 210000 江苏省南京市雨 花台区宁双 路19号云密城1号楼6 04室 (72)发明人 毕辉  (74)专利代理 机构 北京中睿智恒知识产权代理 事务所(普通 合伙) 16025 专利代理师 侯文峰 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/36(2019.01) (54)发明名称 一种结合知识图谱的用户画像构建方法 (57)摘要 本发明公开了一种结合知识图谱的用户画 像构建方法, 具体涉及大数据领域, 包括包含知 识图谱构建模块、 标签抽取模块、 人才画像模块 和反馈模块组成的构建架构: 其中, 知识图谱构 建模块包含: 命名实体识别和关系抽取; 标签抽 取模块包含标签选择、 数据清洗和标签存储; 用 户反馈模块: 用户会对用户画像的标签进行反 馈。 本发明将知识图谱作为标签系统构建时的一 种补充; 使用端到端的方法构建知识图谱, 提高 了知识图谱的构建效率, 降低复杂度; 样本库和 数据库的独立, 能提高标签系统的可信度; 构建 的标签系统增加了外部信息的补 充和校验, 更准 确可靠; 端到端的知识图谱构建方法极大的提高 了知识图谱的构建效率, 并降低了复杂度。 权利要求书2页 说明书4页 附图1页 CN 115309982 A 2022.11.08 CN 115309982 A 1.一种结合知识图谱的用户画像构建方法, 包括包含知识图谱构建模块、 标签抽取模 块、 人才画像模块和反馈模块组成的构建架构, 其特 征在于: 其中, 知识图谱构建模块包 含: 命名实体识别和关系抽取; 从模型库中导入预训练的end ‑to‑end(端到端)神经网络模型, 通过样本接口从样本库 中提取相关文本 输入模型, 输出文本中所有实体及相关 关系的三元组; 深度学习通过反馈模块得到的数据加入原有数据库中一起训练, 可进一步提高模型的 准确率; 从模型库中导入预训练的端对端神经网络进行实体关系的直接预测; 由此得到的 实体关系外 部知识补充到词向量的训练中; 标签抽取模块包 含标签选择、 数据清洗和标签存 储; 标签选择: 针对不同场景的用户, 需要根据用户的需求, 以及用户画像的应用方向进行 不同策略的标签选择; 数据清洗: 目标标签可能直接就是数据库中某个字段所对应的内容, 也可能是内容中 的内容, 此时就需要对字段对应的内容进行清洗; 标签存储: 将得到的标签按用户ID存储到hbase数据库中, 每个用户ID会对应多个标 签; rowkey为ID下对应的内容 为一个key为标签名, value为标签值的dict; 人才画像模块用于整理用户画像的具体存 储字段; 用户反馈模块: 用户会对用户画像的标签进行反馈; 若标签错误, 则根据 标签的产生方 向分别反馈 至样本库或数据库中, 作为对数据和算法的修 正; 具体的各模块间具体的构建步骤如下: S1: 调取:人才简 历库, 并对数据进行清洗、 合并的操作; S2: 从结构化字段中抽取出人才 的标签, 诸如行业, 领域, 专业技能, 工作经验, 教育经 验, 作为该 人才的标签; S3: 构建端到端的行业知识图谱, 从各个领域的专业技能知识入手, 构建领域 ‑行业‑技 能的图谱网络, 作为标签 体系构建时的内容补充; S4: 调取:人才简历库, 对非结构化字段, 一方面通过NLP算法, 另一方面通过知识图谱 的关系抽取算法, 抽取 出技能、 行业经验、 从业 年限的标签; S5: 综合结构化和非结构化标签, 并进行语义对齐做二次验证, 作为人才的标签; S6: 抽取新项目案例的关键词, 根据人才标签进行 人才推荐。 2.根据权利要求1所述的一种结合知识图谱的用户画像构建方法, 其特征在于: 所述知 识图谱构建模块包含了一个端到端的模型, 利用远程监督和预训练模型可以直接从输入文 本中得到实体和关系, 以此来构建知识图谱; 这里的文本包括公司的相关文本信息、 数值型 信息、 公告、 组织架构和新闻数据; 但不包括公司数据库中的标准数据。 3.根据权利要求2所述的一种结合知识图谱的用户画像构建方法, 其特征在于: 在深度 学习预测部 分中导入训练好的模 型, 当文本输入进来时, 可直接进入 该模块, 输出实体间的 关系; 输出的结果需要通过LSTM解码和Softmax(归一化指数函数)层, 得到最终的实体关 系; 预训练end ‑to‑end模型伪代码如下: gettexts\\在样本库中获取公司相关文章 wordembed ding\\对输入的文本通过共用的w ord embedding(词嵌入向量)权 利 要 求 书 1/2 页 2 CN 115309982 A 2encodinginputbyBi LSTM\\接双向的LSTM层来对输入进行分编码 NERbyLSTM\ \用LSTM进行命名实体识别 relationsclassifierbyCN N\\用CNN(卷积神经网络)进行关系分类。 4.根据权利要求3所述的一种结合知识图谱的用户画像构建方法, 其特征在于: 所述知 识图谱构建模块是通过底层的模型参数共享, 在训练 时两个任务 都会通过后向传播算法来 更新共享 参数来实现两个子任务之间的依赖 。 5.根据权利要求1所述的一种结合知识图谱的用户画像构建方法, 其特征在于: 所述标 签选择时, 选择完标签, 需要去数据库中确定需要选取的字段, 从字段中抽取所需要的标 签。 6.根据权利要求1所述的一种结合知识图谱的用户画像构建方法, 其特征在于: 所述数 据清洗时, 选取算法对相关内容进行操作。 7.根据权利要求6所述的一种结合知识图谱的用户画像构建方法, 其特征在于: 用户选 择的标签为 “工作汇报 ”的“情感分析 ”, 则首先需要从数据库的相关应用中抽取出 “工作汇 报”这个字段, 再对其对应的内容进行情感分析算法的判断, 确认其情感倾向, 最后得到该 标签。 8.根据权利要求1所述的一种结合知识图谱的用户画像构建方法, 其特征在于: 人才画 像模块接受两 部分的信息; ①以数据库为基础获取的基本标签字段及标签值; ②以知识图谱为基础的以用户为实体拓展出的各种属性; 将①和②中分别得到的标签合并, 一起存入hbase的数据库中; 知识图谱获得的标签 需 要对数据库中存 储的标签进行 校对, 补充和修改。权 利 要 求 书 2/2 页 3 CN 115309982 A 3

.PDF文档 专利 一种结合知识图谱的用户画像构建方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种结合知识图谱的用户画像构建方法 第 1 页 专利 一种结合知识图谱的用户画像构建方法 第 2 页 专利 一种结合知识图谱的用户画像构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。