说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111640990.1 (22)申请日 2021.12.3 0 (71)申请人 北京企名片科技有限公司 地址 100080 北京市海淀区成府路28号10 层4-1012 (72)发明人 高献辰  (74)专利代理 机构 北京巨弘知识产权代理事务 所(普通合伙) 11673 代理人 张婧 (51)Int.Cl. G06F 16/906(2019.01) G06F 16/951(2019.01) G06F 16/9537(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种数据处 理方法 (57)摘要 本发明公开了一种数据处理方法, 基于卷积 神经网络, 提取多尺度卷积神经网络特征, 并通 过基于三元组损失函数对多尺度卷积神经网络 特征进行优化训练, 进一步建模了企业信息的语 义信息, 并发布。 本发明考虑了多种维度特征之 间包含着大量互补信息, 基于多尺度卷积神经网 络特征、 多方向聚类, 充分利用并挖掘不同维度 特征间的关联互补性, 因此能取得更好的数据处 理准确率。 权利要求书2页 说明书4页 附图1页 CN 114003790 A 2022.02.01 CN 114003790 A 1.一种数据处 理方法, 其特 征在于: 包括以下步骤: S1、 从各信 息发布端收集信息, 将收集到的数据统一格式, 对统一文件格 式后的数据进 行分析、 清洗预处 理, 并按收集 来源形成第一数据库; S2、 导入待处 理数据至数据处 理系统; S3、 根据待处理数据, 神经网络特征模块通过所述第一数据库提取所述待处理数据内 企业样本之 间的神经网络特征并传输至数据发布模块; 时间序列特征模块将所述第一数据 库的合作事件信息进 行时间聚类, 并提取所述待处理数据内的时间序列特征并传输至数据 发布模块; 属 性网络特征模块根据所述第一数据库中企业基本信息进行聚类, 提取属 性网 络特征并传输 至数据发布模块; S4、 基于所述神经网络特征、 所述 时间序列特征和所述属性网络特征, 将待处理数据与 所述第一数据库中信息进行相似度匹配, 得到三个维度特征 的融合结果, 所述数据发布模 块发布所述融合结果。 2.根据权利要求1所述的一种数据处 理方法, 其特 征在于: 所述 步骤S1具体包括: S11、 选取待评价的行业, 确定信息来源, 从信息来源网页中爬取企业信息; S12、 对爬取到的原始数据进行汇总, 清洗数据, 包括重复值处理、 缺失值处理、 异常值 处理; S13、 以数据来源为主键ID建立第一数据库。 3.根据权利要求2所述的一种数据处理方法, 其特征在于: 所述企业信 息包括企业基本 信息和企业合作信息, 所述企业基本信息包括企业的名称、 成立的时间、 所属行业; 所述企 业合作信息包括投融资事 件、 项目合作事 件、 买卖关系。 4.根据权利要求1所述的一种数据处 理方法, 其特 征在于: 步骤S4中 融合检索结果的具体 计算公式为: 其中 为待处理数据 和所述第一数据库中第 个企业合作信息 的总相似 度, 为神经网络特征的相似度、 为时间序列特征的相似度、 为属性网络特 征的相似度, 和 为权重参数。 5.根据权利要求1所述的一种数据处理方法, 其特征在于: 所述数据处理系统包括第 一 数据库、 数据发布模块、 特征提取模块, 所述第一数据库连接所述特征提取模块, 所述特征 提取模块连接所述数据发布模块; 所述特征提取模块包括神经网络特征模块、 时间序列特征模块和属性网络特征模块, 所述神经网络特征模块连接所述第一数据库、 所述数据发布模块, 所述时间序列特征模块 连接所述第一数据库和所述数据发布模块, 所述属 性网络特征模块连接所述第一数据库, 所述神经网络特征模块用于通过所述第一数据库提取神经网络特征并基于三元组度量损 失函数对神经网络进 行优化训练并输出神经网络特征至所述数据发布模块, 所述时间序列 特征模块用于通过所述第一数据库根据提取的时间序列特征, 构建时间序列并输出基于时 间序列聚类的所述时间序列特征至所述数据发布模块, 所述属性网络特征模块用于通过基权 利 要 求 书 1/2 页 2 CN 114003790 A 2于密度的聚类算法对企业基本信息进行聚类并属性网络特 征至所述数据发布模块。 6.根据权利要求5所述的一种数据处理方法, 其特征在于: 所述神经网络特征模块包括 残差网络、 第一全连接层、 第二全连接层、 第一卷积层、 第二卷积层、 第一池化层和第二池化 层, 所述残差网络、 所述第一卷积层和所述第二卷积层均连接所述第一数据库, 所述残差网 络数据连接所述第一全连接层, 所述第一卷积层数据连接所述第一池化层, 所述第二卷积 层数据连接所述第二池化层, 所述第一全连接层、 所述第一池化层和所述第二池化层均连 接所述第二全连接层, 所述第二全连接层将神经网络特 征传递至所述数据发布模块。 7.根据权利要求6所述的一种数据处理方法, 其特征在于: 步骤S3中神经网络特征模块 通过所述第一数据库提取所述待处理数据内企业样本之间的神经网络特征并传输至数据 发布模块具体方式为: S311、 企业样本分别输入所述残差网络、 所述第一卷积层和所述第二卷积层, 所述第一 数据库预训练参数初始 化的所述残差网络, 并提取所述残差网络中的第一特征输入到所述 第一全连接层中; S312、 所述第一卷积层和所述第二卷积层采用不同的Paddin g值和Stride值, 分别通过 第一池化层和所述第二池化层得到第二特 征和第三特 征; S313、 所述第一特 征、 所述第二特 征和所述第三特 征均经过 2正则化; S314、 正则化后的所述第一特征、 所述第二特征和所述第三特征拼接输入所述第二全 连接层; S315、 所述第二全连接层通过线性映射得到所述神经网络特 征。权 利 要 求 书 2/2 页 3 CN 114003790 A 3

.PDF文档 专利 一种数据处理方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据处理方法 第 1 页 专利 一种数据处理方法 第 2 页 专利 一种数据处理方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:55:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。