说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210581712.1 (22)申请日 2022.05.26 (71)申请人 支付宝 (杭州) 信息技 术有限公司 地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人 顾艳梅 王涛 王志铭  (74)专利代理 机构 济南信达专利事务所有限公 司 37100 专利代理师 李世喆 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) (54)发明名称 属性识别方法和装置 (57)摘要 本说明书实施例描述了属性识别方法和装 置。 根据实施例的方法, 首先获取来自至少两个 模态的用于对属性进行识别的原始数据, 然后分 别针对每种模态的原始数据进行属性特征的挖 掘。 进一步, 将得到的各个模态的属性特征进行 融合后, 即可根据融合后的融合特征得到属性的 识别结果。 本方案是通过将不同模态的数据进行 融合来实现对属性的识别, 如此能够充分吸取各 个模态的数据对属性进行识别的优势, 不会遗漏 某些对属性识别有利的信息, 从而能够提高属性 识别的准确性。 权利要求书3页 说明书13页 附图4页 CN 115062691 A 2022.09.16 CN 115062691 A 1.属性识别方法, 包括: 获取来自至少两个模态的用于对所述属性进行识别的原始数据; 其中, 所述至少两个 模态的原 始数据的语义的相似度大于预定值; 分别对所述至少两个模态的原始数据进行特征挖掘, 得到各个模态对应的属性特征; 其中, 所述属性特 征为能够对所述属性产生影响的特 征; 将得到的各个模态对应的属性特 征进行融合, 得到融合特 征; 利用所述融合特 征, 得到所述属性的识别结果。 2.根据权利要求1所述的方法, 其中, 当所述至少两个模态中包括语音模态时, 所述属 性特征包括语音特 征向量和语音对齐矩阵; 所述获取来自至少两个模态的用于对所述属性进行识别的原始数据, 包括: 获取来自 语音模态的用于对所述属性进行识别的语音信号; 所述对所述至少两个模态的原始数据进行特征挖掘得到各个模态对应的属性特征, 包 括: 将所述语音信号按照预设的第一时间长度切分成至少两帧, 得到时域切分信号; 将所述时域切分信号进行傅里叶变换, 得到频域切分特 征; 利用至少一个特征提取卷积核对所述频域切分特征进行属性特征提取, 得到提取特 征; 根据所述提取特征, 分别得到对应该语音模态的语音特征向量和语音对齐矩阵; 其中, 所述语音对齐矩阵中表征帧的维度大小与所述语音特 征向量中表征帧的维度大小相等。 3.根据权利要求2所述的方法, 其中, 所述 时域切分信号中相邻 两帧的信号具有预设的 第二时间长度的时间重 叠, 且所述第二时间长度小于所述第一时间长度。 4.根据权利要求2所述的方法, 其中, 所述至少一个特征提取卷积核包括第一卷积核、 第二卷积核和第三卷积核; 且第一卷积核与所述第二卷积核的大小不同, 所述第二卷积核 与所述第三卷积核的大小相同; 所述利用至少一个特征提取卷积核对所述频域切分特征进行属性特征提取得到提取 特征, 包括: 利用所述第一卷积核对所述频域切分特 征进行特征提取, 得到第一 提取特征; 利用所述第二卷积核对所述第一 提取特征进行特征提取, 得到第二 提取特征; 利用所述第三卷积核对所述第二 提取特征进行特征提取, 得到所述 提取特征。 5.根据权利要求2所述的方法, 其中, 所述根据提取特征得到对应该语音模态的语音特 征向量, 包括: 利用自注意力 机制对所述提取特征进行局部属性特征挖掘, 得到对应该语音模态的语 音特征向量; 其中, 所述局部属性特 征为能够表征 所述属性的细节的特 征。 6.根据权利要求2所述的方法, 其中, 所述根据提取特征得到对应该语音模态的语音对 齐矩阵, 包括: 利用预设的第四卷积核对所述提取特征对应的矩阵进行扫描; 其中, 所述第 四卷积核 的大小满足: 能够使 所述语音对齐矩阵中用于表征帧的维度大小与所述语音 特征向量中用 于表征帧的维度大小相等; 以及, 将各次扫描结果中的最大值所构成的矩阵确定为所述语音模态的语音对齐矩阵。权 利 要 求 书 1/3 页 2 CN 115062691 A 27.根据权利要求1所述的方法, 其中, 当所述至少两个模态中包括文本模态时, 所述属 性特征包括文本特 征向量和文本对齐矩阵; 所述获取来自至少两个模态的用于对所述属性进行识别的原始数据, 包括: 获取来自 文本模态的用于对所述属性进行识别的文本数据; 所述对所述至少两个模态的原始数据进行特征挖掘得到各个模态对应的属性特征, 包 括: 将所述文本数据输入到预先训练的文本提取模型中进行特征提取, 得到所述文本特征 向量; 其中, 所述文本提取模型的训练方法包括: 利用至少一组样本集训练得到; 每一组样 本集中包括 一个字符信息和一个编码信息; 利用预先设定的线性变换参数对所述文本特征向量进行线性变化, 得到所述文本对齐 矩阵; 其中, 所述文本对齐矩阵的列维度大小与通过所述语音信号得到的语音特征向量的 列维度大小相等。 8.根据权利要求1所述的方法, 其中, 当所述至少两个模态中包括语音模态以及文本模 态时; 所述将得到的各个模态对应的属性特 征进行融合得到融合特 征, 包括: 计算所述文本模态的属性特征对所述语音模态的属性特征的影响力, 得到所述语音模 态的影响力矩阵; 其中, 所述文本模态的属性特 征为能够表征 所述属性的细节的特 征; 计算所述语音模态的属性特征对所述文本模态的属性特征的影响力, 得到所述文本模 态的影响力矩阵; 其中, 所述语音模态的属性特 征为能够表征 所述属性的细节的特 征; 将所述语音模态 的影响力矩阵、 所述文本模态的影响力矩阵、 以及各模态的属性特征 所对应的矩阵进行拼接, 得到所述融合特 征。 9.根据权利要求8所述的方法, 其中, 所述语音模态的属性特征包括语音特征向量和语 音对齐矩阵, 所述文本模态的属性特 征包括文本特 征向量和文本对齐矩阵; 所述计算所述文本模态的属性特征对所述语音模态的属性特征的影响力得到所述语 音模态的影响力矩阵, 包括: 利用如下计算式, 计算所述语音模态的影响力矩阵: Ea= δ(Wa·Xs) 其中, Ea用于表征所述语音模态的影响力矩阵, Wa用于表征所述语音对齐矩阵, Xs用于 表征所述文本特 征向量, δ( ·)用于表征Sigmo id激活函数; 和/或, 所述计算所述语音模态的属性特征对所述文本模态的属性特征的影响力得到所述文 本模态的影响力矩阵, 包括: 利用如下计算式, 计算所述文本模态的影响力矩阵: Es= δ(Ws·Xa) 其中, Es用于表征所述文本模态的影响力矩阵, Ws用于表征所述文本对齐矩阵, Xa用于 表征所述语音特 征向量, δ( ·)用于表征Sigmo id激活函数。 10.根据权利要求8所述的方法, 其中, 所述语音模态的属性特征包括语音特征向量, 所 述文本模态的属性特 征包括文本特 征向量; 所述将所述语音模态的影响力矩阵、 所述文本模态的影响力矩阵、 以及各模态的属性权 利 要 求 书 2/3 页 3 CN 115062691 A 3

.PDF文档 专利 属性识别方法和装置

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 属性识别方法和装置 第 1 页 专利 属性识别方法和装置 第 2 页 专利 属性识别方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:42上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。