(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111677393.6
(22)申请日 2021.12.31
(71)申请人 江苏省省级机关医院
地址 210024 江苏省南京市 鼓楼区珞珈路
30号
(72)发明人 郑慧芬 钱隼南
(74)专利代理 机构 南京天华专利代理有限责任
公司 32218
代理人 刘畅 徐冬涛
(51)Int.Cl.
G10L 15/02(2006.01)
G10L 15/06(2013.01)
G10L 15/08(2006.01)
G10L 25/66(2013.01)
G06K 9/62(2022.01)G06N 20/00(2019.01)
(54)发明名称
一种基于语音对帕金森病患者吞咽困难症
状重要性度量指标的获取方法和系统
(57)摘要
本发明提出了一种一种基于语音对帕金森
病患者吞咽困难症状重要性度量指标的获取方
法。 应用多语音任务, 实现对受试者更加全面的
构音障碍程度的辅助分析, 原始特征导入GBDT模
型, 完成对来自不同语音任务提取的原始特征进
行特征组合, 得到高阶特征, 再将这些经过决策
树生成的高阶特征, 作为机器学习中的逻辑斯蒂
分类算法的输入进行吞咽困难症状的评估, 输出
重要性度量指标, 实现帕金森病患者吞咽困难症
状的早期辅助分析, 以期及时采 取特定的治疗策
略。
权利要求书4页 说明书8页 附图1页
CN 114299925 A
2022.04.08
CN 114299925 A
1.一种基于语音的帕金森病患者吞咽困难症状重要性度量指标获取方法, 其特征在于
按以下步骤进行的:
步骤一、 采集帕金森病患者参与多语音任务的语音数据, 并对上述语音数据进行标签
标注;
步骤二、 对采集的帕金森病患 者语音数据进行去噪增强预处理, 然后进行特征提取, 得
到能够表征 数据的语音特 征向量, 并构造数据集;
步骤三、 从数据集中选取N个训练样本, 训练以分类回归树模型CA RT作为基分类器的梯
度提升树模型GBDT, 获得M个 基分类器;
步骤四、 从GBDT模型中导出训练好的M个基分类器, 从其根节点出发到任一子节点的路
径作为一个决策 特征变量rk;
步骤五、 从M个基分类器 中获得的K个决策特征变量与原数据 特征变量一同送入逻辑斯
谛回归模型进行线性拟合;
步骤六、 从训练好的逻辑斯谛回归模型中导出规则变量和 原始数据特征变量的重要性
度量;
步骤七、 输出特征变量的重要性度量结果报告, 辅助医生作出 吞咽困难症状评估。
2.根据权利要求1所述的方法, 其特征在于, 所述步骤二中: 对采集的帕金森病患者的
语音数据进行 特征提取, 并构造数据集, 具体过程 为:
1)利用语音信号处 理算法提取语音特 征, 提取的特 征包括三大类:
①基于持续元音发音任务: 各元音的基频F0、 平均基频F0_ave、 最小基频F0_min、 最大
基频F0_max、 抖动Jitter、 振幅扰动熵APQ、 音调扰动商PPQ、 发音段占比、 衡量振幅随时间变
化的特征、 噪声谐波比NHR、 谐波噪声比HNR、 循环周期密度熵RPDE、 趋势波动分析DFA、 基因
周期熵PPE; 衡量振幅随时间变化的特征包括: 颤动Shimmer及其变体、 Shimmer的分贝值、 三
点振幅扰动熵Shim merAPQ3、 五点振幅扰动熵Shim merAPQ5、 11点振幅扰动熵Shim merAPQ11;
②基于快速清浊音转换的发音任务: 与基频相关的特征及其相关的统计值: 平均基频
能量Avg.Energy、 能量的标准偏差Std.Energy, 以及浊音段占比Voice Rate、 静默段占比
Silence Rate、 静默段的平均持续时间、 静默段持续时间的标准差;
③基于场景对话的发音任务: 与基频相关的特征: 计算基频轮廓、 平均值、 标准偏差和
最大值, 与能量有关的特征: 计算平均能量、 能量的标准偏差和最大值, 与持续时间相关的
特征: 元音段占比、 元音音节段平均持续时间、 元音段持续时间的标准偏差、 静音段平均持
续时间、 静音段持续时间标准偏差;
2)数据集的构造: 对于选取的N个样本语音, 根据采集的标签信息, 组成样本对(xn,yn),
其中xn代表第n个样本(n=1,2, ···N),
表示第n个样本的第h维特征(h=1,2, ··
H), yn为第n个样本的标签: 标签为0时代 表受试者没有吞咽困难症状, 反 之为1。
3.根据权利要求1所述的方法, 其特征在于, 所述步骤三中: 训练以CART模型作为基分
类器的集成模型GBDT, 具体过程 为:
1)初始化第一个弱学习器:
其中P(y=1|x)是整个训练样本对
(xn,yn)中标签值y=1的比例, 即利用训练样本中原始概率分布的先验信息来初始化学习权 利 要 求 书 1/4 页
2
CN 114299925 A
2器;
2)当前迭代获得的标签预测值
其中F(xn)=F0(xn)为本次迭代中的
学习器输出, 由当前模型的输出构建损失函数:
其中, yn为真实标签值,
为预测的标签值;
3)当前迭代下获得的损失函数负梯度rm,n为:
其中rm,n将作为下一次迭代中学习器的拟合目标, m代表第几次迭代, n为第n个样本, 本
次迭代结束;
4)新的一次迭代开始, 首先建立第m个基学习器, 将通过建立新的CART树去拟合新的训
练数据对(xn,yn=rm,n), 获得当前的迭代输出 Fm(x):
4‑1)新的一次迭代中CART基学习器的生成, 选取最优切分变量h, 及切分点s, 计算:
遍历数据的所有特征变量h, 选择一个作为切分变量后根据其取值范围遍历切分点s,
选择使得(1.3)式达 到最小的对(h, s);
4‑2)在选定切分变量A和切分点S将数据集分为D1(h,s)={x|x(h)≤s}和D2(h,s)={x|x
(h)>s}两个子区域, 并决定该区域的输出值cj:
4‑3)继续对两个子区域重复调用4 ‑1)和4‑2)两个步骤直到满足预先设定的树的深度
停止继续切分, 新的CART基学习器生成, 它将输入数据的特征空间划分为J个区域, J+1为
CART模型的叶子节点个数, 由(1.4)计算出其每个区域的最佳拟合值cm,j, 生成当前基分类
器的输出 Fm(x):
5)重复2)至4)步骤, 直到迭代M次获得M个CART树, 最终模型对数据的预测标签的输出
其中
为M个基分类器输出的集成;
6)至此, GBDT模型训练完成, 此部分的模型输出将仅作为衡量模型对数据集的拟合程
度, 模型所生成的M棵树作为后续构建规则变量的基础。
4.根据权利要求1所述的方法, 其特 征在于, 所述 步骤四中:
在完成GBDT模型训练之后, 导出每一个基分类器CART, 从构建好的树模型的根节点出
发到任一子节点的路径将作为 一个决策 特征变量即决策规则, 具体过程 为:权 利 要 求 书 2/4 页
3
CN 114299925 A
3
专利 一种基于语音对帕金森病患者吞咽困难症状重要性度量指标的获取方法和系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:28:19上传分享