说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211165935.6 (22)申请日 2022.09.23 (71)申请人 上海市疾病预防控制中心 地址 200050 上海市长 宁区中山西路1380 号 (72)发明人 夏天 夏寒 付晨 张诚 毛丹  道理 刘星航 林维晓  (74)专利代理 机构 上海璀汇知识产权代理事务 所(普通合伙) 31367 专利代理师 程琼胤 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) G06Q 50/26(2012.01) (54)发明名称 一种基于公共卫生数据数据获取的特征转 化提取系统 (57)摘要 本发明公开了一种基于公共卫生数据数据 获取的特征转化提取系统, 包括以下阶段: 数据 准备阶段、 特征工程阶段以及模 型评估与评价阶 段, 所述特征工程阶段包括以下步骤: S1, 将糖尿 病随访场景数据分类好的数据进行预处理; S2, 首先明确部分数据中存在大量缺失值的特征, 明 确该特征不会对 可靠性判断结果影 响的前提下, 将其剔除; S3, 根据输入数据的缺失值对部分机 器学习算法的敏感, 将根据不同的机器学习算法 对缺失值进行处理; 具有让数据降维化, 简化数 据模型, 提升模型的可解释性, 缩短模型训练所 需时间, 降低了模型过拟合风险, 避免了维度灾 难的好处。 权利要求书1页 说明书4页 CN 115510970 A 2022.12.23 CN 115510970 A 1.一种基于公共卫生数据 数据获取的特征转化提取系统, 其特征在于, 包括以下阶段: 数据准备阶段、 特 征工程阶段以及模型评估与评价阶段, 所述特 征工程阶段包括以下步骤: S1, 将糖尿病随访场景 数据分类好的数据进行 预处理; S2, 首先明确部分数据中存在大量缺失值的特征, 明确该特征不会对可靠性判断结果 影响的前提下, 将其剔除; S3, 根据输入数据的缺失值对部分机器学习算法的敏感, 将根据不同的机器学习算法 对缺失值进行处 理; S4, 对数据的格式进行规范化处理, 对数字类型(整型、 浮点型、 保留的小数位数)进行 转换, 对特 征的单位进行调整、 对日期、 时间格式进行统一; S5, 根据标签数据在各类别上的数据量, 判断其是否需要对各类别的数据量进行平衡, 若数据标签在各类别上的数据量极不平衡, 则会对后续模型的训练造成影响, 需采用S MOTE 数据合成方法, 人工合成部分分类数据, 增加该分类下的数据量, 平衡各分类的数据量, 避 免对数据量较多的分类数据使用欠采样的方法, 减少丢弃 标签的情况; S6, 将标签数据划分为训练集、 验证集以及测试集, 训练集用于模型的训练, 验证集用 于模型的验证和超参数的调优, 测试集用于最终模型的测试、 定型和性能评价; S7, 对于连续型的特征, 需要将其无量纲化, 消除特征单位的影响, 并将特征转换到 同 一规格, 避免部分模型中某些特征相比其他特征获得大小非常悬殊的权重值, 同时提高机 器学习的效率, 根据特征是否符合正态分布, 可以通过归一化(通过特征的最大值与最小值 参与计算, 将特征值的范围压缩至[ 0,1]区间)或标准化(将特征转换为均值为0, 标准差为1 的标准正态分布)的方法对特 征进行压缩和平 移, 同时保留特 征的分布状态; S8, 减少信息冗余, 对于仅关心定性结果的定量数据(例如考试是否及格), 需要将其离 散化(根据判断标准将连续型的特征分成多个离散特征)或二值化(根据判断标准将连续型 的特征分成具有两种状态的单个离散特征), 此外, 根据拟采用的机器学习模型, 对部分特 征进行函数转换也可以提高模型训练的效果; S9, 对于离散型的特征, 需要将其进行数值化处理, 将具体的分类名称转换为编码。 如 果特征涉及 超过两种类型的分类, 则需要为不同的分类生 成哑特征, 利用one ‑hot编码对 特 征进行标记, 以避免机器学习的过程中将编码(例如1、 2等)本身的大小作为特征进行学习 的情况发生, 也便于机器学习 过程中计算特征之间的距离。 此外, 对于时间戳类别的特征, 可根据情况抛弃一些信息(例如 对于数据可靠性结果没有影响的年份或毫秒数据), 简化模 型的构建; S9, 经过特征转换后的数据, 已经较为适合机器学习, 但是数据特征的数量(维度)可能 较多, 因此为了简化最终模型, 提升模型的可解释性, 同时为缩短模型训练所需时间, 降低 模型过拟合风险, 避免 “维度灾难 ”, 需要对特征进 行选择与提取, 必 要时构建新特征来取代 原有特征, 实现对特 征的降维; S10, 最大限度地降低数据的维度的前提下能够同时保证保留重要的信息, 特征提取时 采用的算法为线性方法(主成分分析法PCA、 线性判别法LDA)和非线性方法(局 部线性嵌入 LLE、 拉普拉斯特征映射LE、 随机邻域 嵌入SNE、 t ‑分布邻域 嵌入T‑SNE), 实现降维的目标, 需 要结合实际的数据情况进行选用。权 利 要 求 书 1/1 页 2 CN 115510970 A 2一种基于公共卫生数据数据获取的特征转化提取系统 技术领域 [0001]本发明涉及有数据分析处理技术领域, 尤其涉及 一种基于公共卫生数据数据获取 的特征转化提取系统。 背景技术 [0002]随着信息技术的发展和大数据时代的到来, 越来越多的科学研究开始青睐使用已 有的数据开展研究, 同时, 横跨多学科、 多领域的融合研究逐渐增多, 需要在研究中使用多 个学科领域和来源的数据, 在研究开展 前, 应对拟纳入研究的数据可靠性进行评估, 并根据 评估结果采取相应措施, 以提高研究结果的真实性与准确性, 数据可靠性是指数据完整、 一 致、 准确、 值得信赖和可靠的程度, 以及这些特性在数据全生命周期内被维护的程度, 数据 的可靠性会因为数据中存在偏差而降低, 常见 的数据偏差主要包括选择偏差、 信息偏差和 混杂偏差等, 甚至还包括对数据的编造和篡改等情况, 如果在科学研究中使用了可靠性较 低的数据, 则研究结果将偏离真实情况, 使得研究成果的价值大大降低, 在大数据时代, 数 据可靠性评估是非常重要的, 其关乎研究 的成败和成果的价值, 在开展 科学研究前, 采用科 学的方法对拟纳入研究的数据可靠性进行准确的评估, 是大数据时代科学研究的必要步 骤。 [0003]现有技术中的公共卫生领域内, 数据可靠性评估方法主要分为基于规则的评估方 法、 基于内容的评估方法和基于统计的评估方法三类: [0004]基于规则的评估方法主要通过设置规则库, 并利用规则库中的规则对数据进行校 验, 通过校验结果评估数据的可靠性, 基于规则的评估方法虽然 可以对全量数据进 行评估, 可以发现一些信息偏差造成的数据可靠性问题, 但是评估的深度较浅, 对符合检验规则的 数据编造、 篡改也无能为力, 此外, 规则库的制定需要对数据所在的业务领域相当熟悉, 使 这种方法在评估跨行业数据的可靠性时存在较高的实施门槛。 [0005]基于内容的评估方法主要通过其它来源数据, 对待评估的数据内容进行交叉验 证, 从而对数据的可靠性进行评估, 常用的其它来源数据包括电话/上门回访收集的数据、 查阅原始病史获得的数据等。 基于内容的评估方法可以提供深层次的评估, 对于信息偏差 具有更好的评估效果, 也可一定程度上提供选择偏差和混杂偏差的线索, 但是获取其它来 源的数据通常需要耗费大量的时间、 精力和经济成本, 有时还可能存在其他来源数据不可 及的情况, 使得这种方法很难对全量数据进行可靠性评估, 一般需要与抽样的方法结合使 用, 评估得 出的数据可靠性可能存在偏差 。 [0006]基于统计的评估方法主要通过对待评估数据整体统计结果和 分布情况的计算与 分析来整体评估数据的可靠性。 例如血压值的末位数字是否符合 随机分布、 数据中男女人 数比例是否与全人群的男女人数比例存在显著偏差等。 基于统计的评估方法对选择偏差与 信息偏差有着良好的评估效果, 也可对全量数据进行评估, 但这种 方法对于待评估数据的 数据量有着一定的要求, 同时也只能得出整体数据的可靠性评估结果, 无法针对每条数据 形成独立的评估结果。说 明 书 1/4 页 3 CN 115510970 A 3

.PDF文档 专利 一种基于公共卫生数据数据获取的特征转化提取系统

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于公共卫生数据数据获取的特征转化提取系统 第 1 页 专利 一种基于公共卫生数据数据获取的特征转化提取系统 第 2 页 专利 一种基于公共卫生数据数据获取的特征转化提取系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 03:57:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。