专利一种基于语音对帕金森病患者吞咽困难症状重要性度量指标的获取方法和系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111677393.6 (22)申请日 2021.12.31 (71)申请人江苏省省级机关医院地址 210024 江苏省南京市鼓楼区珞珈路 30号 (72)发明人郑慧芬　钱隼南　 (74)专利代理机构南京天华专利代理有限责任公司 32218 代理人刘畅　徐冬涛 (51)Int.Cl. G10L 15/02(2006.01) G10L 15/06(2013.01) G10L 15/08(2006.01) G10L 25/66(2013.01) G06K 9/62(2022.01)G06N 20/00(2019.01) (54)发明名称一种基于语音对帕金森病患者吞咽困难症状重要性度量指标的获取方法和系统 (57)摘要本发明提出了一种一种基于语音对帕金森病患者吞咽困难症状重要性度量指标的获取方法。应用多语音任务，实现对受试者更加全面的构音障碍程度的辅助分析，原始特征导入GBDT模型，完成对来自不同语音任务提取的原始特征进行特征组合，得到高阶特征，再将这些经过决策树生成的高阶特征，作为机器学习中的逻辑斯蒂分类算法的输入进行吞咽困难症状的评估，输出重要性度量指标，实现帕金森病患者吞咽困难症状的早期辅助分析，以期及时采取特定的治疗策略。权利要求书4页说明书8页附图1页 CN 114299925 A 2022.04.08 CN 114299925 A 1.一种基于语音的帕金森病患者吞咽困难症状重要性度量指标获取方法，其特征在于按以下步骤进行的：步骤一、采集帕金森病患者参与多语音任务的语音数据，并对上述语音数据进行标签标注；步骤二、对采集的帕金森病患者语音数据进行去噪增强预处理，然后进行特征提取，得到能够表征数据的语音特征向量，并构造数据集；步骤三、从数据集中选取N个训练样本，训练以分类回归树模型CA RT作为基分类器的梯度提升树模型GBDT，获得M个基分类器；步骤四、从GBDT模型中导出训练好的M个基分类器，从其根节点出发到任一子节点的路径作为一个决策特征变量rk；步骤五、从M个基分类器中获得的K个决策特征变量与原数据特征变量一同送入逻辑斯谛回归模型进行线性拟合；步骤六、从训练好的逻辑斯谛回归模型中导出规则变量和原始数据特征变量的重要性度量；步骤七、输出特征变量的重要性度量结果报告，辅助医生作出吞咽困难症状评估。 2.根据权利要求1所述的方法，其特征在于，所述步骤二中：对采集的帕金森病患者的语音数据进行特征提取，并构造数据集，具体过程为： 1)利用语音信号处理算法提取语音特征，提取的特征包括三大类： ①基于持续元音发音任务：各元音的基频F0、平均基频F0_ave、最小基频F0_min、最大基频F0_max、抖动Jitter、振幅扰动熵APQ、音调扰动商PPQ、发音段占比、衡量振幅随时间变化的特征、噪声谐波比NHR、谐波噪声比HNR、循环周期密度熵RPDE、趋势波动分析DFA、基因周期熵PPE；衡量振幅随时间变化的特征包括：颤动Shimmer及其变体、 Shimmer的分贝值、三点振幅扰动熵Shim merAPQ3、五点振幅扰动熵Shim merAPQ5、 11点振幅扰动熵Shim merAPQ11； ②基于快速清浊音转换的发音任务：与基频相关的特征及其相关的统计值：平均基频能量Avg.Energy、能量的标准偏差Std.Energy，以及浊音段占比Voice Rate、静默段占比 Silence Rate、静默段的平均持续时间、静默段持续时间的标准差； ③基于场景对话的发音任务：与基频相关的特征：计算基频轮廓、平均值、标准偏差和最大值，与能量有关的特征：计算平均能量、能量的标准偏差和最大值，与持续时间相关的特征：元音段占比、元音音节段平均持续时间、元音段持续时间的标准偏差、静音段平均持续时间、静音段持续时间标准偏差； 2)数据集的构造：对于选取的N个样本语音，根据采集的标签信息，组成样本对(xn,yn)，其中xn代表第n个样本(n＝1,2, ···N)，表示第n个样本的第h维特征(h＝1,2, ·· H)， yn为第n个样本的标签：标签为0时代表受试者没有吞咽困难症状，反之为1。 3.根据权利要求1所述的方法，其特征在于，所述步骤三中：训练以CART模型作为基分类器的集成模型GBDT，具体过程为： 1)初始化第一个弱学习器：其中P(y＝1|x)是整个训练样本对 (xn,yn)中标签值y＝1的比例，即利用训练样本中原始概率分布的先验信息来初始化学习权　利　要　求　书 1/4 页 2 CN 114299925 A 2器； 2)当前迭代获得的标签预测值其中F(xn)＝F0(xn)为本次迭代中的学习器输出，由当前模型的输出构建损失函数：其中， yn为真实标签值，为预测的标签值； 3)当前迭代下获得的损失函数负梯度rm,n为: 其中rm,n将作为下一次迭代中学习器的拟合目标， m代表第几次迭代， n为第n个样本，本次迭代结束； 4)新的一次迭代开始，首先建立第m个基学习器，将通过建立新的CART树去拟合新的训练数据对(xn,yn＝rm,n)，获得当前的迭代输出 Fm(x)： 4‑1)新的一次迭代中CART基学习器的生成，选取最优切分变量h，及切分点s，计算：遍历数据的所有特征变量h，选择一个作为切分变量后根据其取值范围遍历切分点s，选择使得(1.3)式达到最小的对(h， s)； 4‑2)在选定切分变量A和切分点S将数据集分为D1(h,s)＝{x|x(h)≤s}和D2(h,s)＝{x|x (h)>s}两个子区域，并决定该区域的输出值cj： 4‑3)继续对两个子区域重复调用4 ‑1)和4‑2)两个步骤直到满足预先设定的树的深度停止继续切分，新的CART基学习器生成，它将输入数据的特征空间划分为J个区域， J+1为 CART模型的叶子节点个数，由(1.4)计算出其每个区域的最佳拟合值cm,j，生成当前基分类器的输出 Fm(x)： 5)重复2)至4)步骤，直到迭代M次获得M个CART树，最终模型对数据的预测标签的输出其中为M个基分类器输出的集成； 6)至此， GBDT模型训练完成，此部分的模型输出将仅作为衡量模型对数据集的拟合程度，模型所生成的M棵树作为后续构建规则变量的基础。 4.根据权利要求1所述的方法，其特征在于，所述步骤四中：在完成GBDT模型训练之后，导出每一个基分类器CART，从构建好的树模型的根节点出发到任一子节点的路径将作为一个决策特征变量即决策规则，具体过程为：权　利　要　求　书 2/4 页 3 CN 114299925 A 3

专利 一种基于语音对帕金森病患者吞咽困难症状重要性度量指标的获取方法和系统

专利一种基于语音对帕金森病患者吞咽困难症状重要性度量指标的获取方法和系统