专利一种基于公共卫生数据数据获取的特征转化提取系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211165935.6 (22)申请日 2022.09.23 (71)申请人上海市疾病预防控制中心地址 200050 上海市长宁区中山西路1380 号 (72)发明人夏天　夏寒　付晨　张诚　毛丹　道理　刘星航　林维晓　 (74)专利代理机构上海璀汇知识产权代理事务所(普通合伙) 31367 专利代理师程琼胤 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) G06Q 50/26(2012.01) (54)发明名称一种基于公共卫生数据数据获取的特征转化提取系统 (57)摘要本发明公开了一种基于公共卫生数据数据获取的特征转化提取系统，包括以下阶段：数据准备阶段、特征工程阶段以及模型评估与评价阶段，所述特征工程阶段包括以下步骤： S1，将糖尿病随访场景数据分类好的数据进行预处理； S2，首先明确部分数据中存在大量缺失值的特征，明确该特征不会对可靠性判断结果影响的前提下，将其剔除； S3，根据输入数据的缺失值对部分机器学习算法的敏感，将根据不同的机器学习算法对缺失值进行处理；具有让数据降维化，简化数据模型，提升模型的可解释性，缩短模型训练所需时间，降低了模型过拟合风险，避免了维度灾难的好处。权利要求书1页说明书4页 CN 115510970 A 2022.12.23 CN 115510970 A 1.一种基于公共卫生数据数据获取的特征转化提取系统，其特征在于，包括以下阶段：数据准备阶段、特征工程阶段以及模型评估与评价阶段，所述特征工程阶段包括以下步骤： S1，将糖尿病随访场景数据分类好的数据进行预处理； S2，首先明确部分数据中存在大量缺失值的特征，明确该特征不会对可靠性判断结果影响的前提下，将其剔除； S3，根据输入数据的缺失值对部分机器学习算法的敏感，将根据不同的机器学习算法对缺失值进行处理； S4，对数据的格式进行规范化处理，对数字类型(整型、浮点型、保留的小数位数)进行转换，对特征的单位进行调整、对日期、时间格式进行统一； S5，根据标签数据在各类别上的数据量，判断其是否需要对各类别的数据量进行平衡，若数据标签在各类别上的数据量极不平衡，则会对后续模型的训练造成影响，需采用S MOTE 数据合成方法，人工合成部分分类数据，增加该分类下的数据量，平衡各分类的数据量，避免对数据量较多的分类数据使用欠采样的方法，减少丢弃标签的情况； S6，将标签数据划分为训练集、验证集以及测试集，训练集用于模型的训练，验证集用于模型的验证和超参数的调优，测试集用于最终模型的测试、定型和性能评价； S7，对于连续型的特征，需要将其无量纲化，消除特征单位的影响，并将特征转换到同一规格，避免部分模型中某些特征相比其他特征获得大小非常悬殊的权重值，同时提高机器学习的效率，根据特征是否符合正态分布，可以通过归一化(通过特征的最大值与最小值参与计算，将特征值的范围压缩至[ 0,1]区间)或标准化(将特征转换为均值为0，标准差为1 的标准正态分布)的方法对特征进行压缩和平移，同时保留特征的分布状态； S8，减少信息冗余，对于仅关心定性结果的定量数据(例如考试是否及格)，需要将其离散化(根据判断标准将连续型的特征分成多个离散特征)或二值化(根据判断标准将连续型的特征分成具有两种状态的单个离散特征)，此外，根据拟采用的机器学习模型，对部分特征进行函数转换也可以提高模型训练的效果； S9，对于离散型的特征，需要将其进行数值化处理，将具体的分类名称转换为编码。如果特征涉及超过两种类型的分类，则需要为不同的分类生成哑特征，利用one ‑hot编码对特征进行标记，以避免机器学习的过程中将编码(例如1、 2等)本身的大小作为特征进行学习的情况发生，也便于机器学习过程中计算特征之间的距离。此外，对于时间戳类别的特征，可根据情况抛弃一些信息(例如对于数据可靠性结果没有影响的年份或毫秒数据)，简化模型的构建； S9，经过特征转换后的数据，已经较为适合机器学习，但是数据特征的数量(维度)可能较多，因此为了简化最终模型，提升模型的可解释性，同时为缩短模型训练所需时间，降低模型过拟合风险，避免 “维度灾难 ”，需要对特征进行选择与提取，必要时构建新特征来取代原有特征，实现对特征的降维； S10，最大限度地降低数据的维度的前提下能够同时保证保留重要的信息，特征提取时采用的算法为线性方法(主成分分析法PCA、线性判别法LDA)和非线性方法(局部线性嵌入 LLE、拉普拉斯特征映射LE、随机邻域嵌入SNE、 t ‑分布邻域嵌入T‑SNE)，实现降维的目标，需要结合实际的数据情况进行选用。权　利　要　求　书 1/1 页 2 CN 115510970 A 2一种基于公共卫生数据数据获取的特征转化提取系统技术领域 [0001]本发明涉及有数据分析处理技术领域，尤其涉及一种基于公共卫生数据数据获取的特征转化提取系统。背景技术 [0002]随着信息技术的发展和大数据时代的到来，越来越多的科学研究开始青睐使用已有的数据开展研究，同时，横跨多学科、多领域的融合研究逐渐增多，需要在研究中使用多个学科领域和来源的数据，在研究开展前，应对拟纳入研究的数据可靠性进行评估，并根据评估结果采取相应措施，以提高研究结果的真实性与准确性，数据可靠性是指数据完整、一致、准确、值得信赖和可靠的程度，以及这些特性在数据全生命周期内被维护的程度，数据的可靠性会因为数据中存在偏差而降低，常见的数据偏差主要包括选择偏差、信息偏差和混杂偏差等，甚至还包括对数据的编造和篡改等情况，如果在科学研究中使用了可靠性较低的数据，则研究结果将偏离真实情况，使得研究成果的价值大大降低，在大数据时代，数据可靠性评估是非常重要的，其关乎研究的成败和成果的价值，在开展科学研究前，采用科学的方法对拟纳入研究的数据可靠性进行准确的评估，是大数据时代科学研究的必要步骤。 [0003]现有技术中的公共卫生领域内，数据可靠性评估方法主要分为基于规则的评估方法、基于内容的评估方法和基于统计的评估方法三类： [0004]基于规则的评估方法主要通过设置规则库，并利用规则库中的规则对数据进行校验，通过校验结果评估数据的可靠性，基于规则的评估方法虽然可以对全量数据进行评估，可以发现一些信息偏差造成的数据可靠性问题，但是评估的深度较浅，对符合检验规则的数据编造、篡改也无能为力，此外，规则库的制定需要对数据所在的业务领域相当熟悉，使这种方法在评估跨行业数据的可靠性时存在较高的实施门槛。 [0005]基于内容的评估方法主要通过其它来源数据，对待评估的数据内容进行交叉验证，从而对数据的可靠性进行评估，常用的其它来源数据包括电话/上门回访收集的数据、查阅原始病史获得的数据等。基于内容的评估方法可以提供深层次的评估，对于信息偏差具有更好的评估效果，也可一定程度上提供选择偏差和混杂偏差的线索，但是获取其它来源的数据通常需要耗费大量的时间、精力和经济成本，有时还可能存在其他来源数据不可及的情况，使得这种方法很难对全量数据进行可靠性评估，一般需要与抽样的方法结合使用，评估得出的数据可靠性可能存在偏差。 [0006]基于统计的评估方法主要通过对待评估数据整体统计结果和分布情况的计算与分析来整体评估数据的可靠性。例如血压值的末位数字是否符合随机分布、数据中男女人数比例是否与全人群的男女人数比例存在显著偏差等。基于统计的评估方法对选择偏差与信息偏差有着良好的评估效果，也可对全量数据进行评估，但这种方法对于待评估数据的数据量有着一定的要求，同时也只能得出整体数据的可靠性评估结果，无法针对每条数据形成独立的评估结果。说　明　书 1/4 页 3 CN 115510970 A 3

专利 一种基于公共卫生数据数据获取的特征转化提取系统

专利一种基于公共卫生数据数据获取的特征转化提取系统