专利一种语音信息的生成方法、装置、电子设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111633258.1 (22)申请日 2021.12.2 9 (71)申请人广州繁星互娱信息科技有限公司地址 510500 广东省广州市黄埔区广新路 680、 682、 684 号701房（仅限办公用途） (72)发明人何思远　 (74)专利代理机构北京柏杉松知识产权代理事务所(普通合伙) 11413 代理人项京　孙翠贤 (51)Int.Cl. H04N 21/435(2011.01) H04N 21/439(2011.01) H04N 21/4788(2011.01) H04N 21/2187(2011.01) G10L 13/047(2013.01)G10L 25/51(2013.01) G06F 16/33(2019.01) G06K 9/62(2022.01) (54)发明名称一种语音信息的生成方法、装置、电子设备及存储介质 (57)摘要本发明实施例提供了一种语音信息的生成方法、装置、电子设备及存储介质，上述方法包括：在接收到第一目标用户触发预设事件的触发指令后，获取与该预设事件对应的预设文本信息，将预设文本信息输入预先训练得到的声音模拟模型，生成对应的第一语音信息，将第一语音信息发送至第一目标用户所在的终端，以使终端播放第一语音信息。采用该方法可以根据进入第一目标用户之间的用户的不同定义不同的预设文本信息，实现了在不影响第二目标用户进行直播的前提下，为进入第二目标用户直播间的用户提供比较个性的语音信息，丰富了用户之间的信息交流方式。权利要求书2页说明书12页附图2页 CN 114302217 A 2022.04.08 CN 114302217 A 1.一种语音信息的生成方法，其特征在于，包括：在接收到第一目标用户触发预设事件的触发指令后，获取与该预设事件对应的预设文本信息，其中，所述预设事件为：第二目标用户的直播间的观看直播选项、关注选项、评论选项、弹幕选项或点赞选项被触发的事件；将所述预设文本信息输入预先训练得到的声音模拟模型，生成对应的第一语音信息，其中，所述声音模拟模型为基于样本文本信息和所述第二目标用户的声音特征进行训练得到的；将所述第一语音信息发送至第一目标用户所在的终端，以使所述终端播放所述第一语音信息。 2.根据权利要求1所述的方法，其特征在于，所述声音模拟模型的训练方法包括：将样本文本信息输入待训练声音模拟模型，并输出对应的语音信息；提取所述语音信息的声音特征；确定所述声音特征和所述第二目标用户的声音特征之间的特征差异值；如果所述特征差异值小于预设差异阈值，将当前的待训练声音模拟模型确定为训练得到的所述声音模拟模型；如果所述特征差异值不小于预设差异阈值，调整待训练声音模拟模型的参数，并返回所述将样本文本信息输入待训练声音模拟模型的步骤。 3.根据权利要求1所述的方法，其特征在于，在所述将所述预设文本信息输入预先训练得到的声音模拟模型之前，还包括：获取所述第一目标用户的用户名；根据所述用户名和所述预设文本信息生成目标文本信息；所述将所述预设文本信息输入预先训练得到的声音模拟模型，生成对应的第一语音信息，包括：将所述目标文本信息输入预先训练得到的声音模拟模型，生成对应的第一语音信息。 4.根据权利要求1所述的方法，其特征在于，在所述获取与该预设事件对应的预设文本信息之前，还包括：获取所述第一目标用户与所述第二目标用户之间的亲密度；所述获取与该预设事件对应的预设文本信息，包括：判断所述亲密度是否高于预设亲密度阈值；如果所述亲密度高于所述预设亲密度阈值，查找与所述第一目标用户对应的预设语音信息，并将所述预设语音信息发送至第一目标用户所在的终端，以使所述终端播放所述预设语音信息，其中，所述预设语音信息为所述第二目标用户预先针对所述第一目标用户录制的；如果所述亲密度不高于所述预设亲密度阈值，获取与该预设事件对应的预设文本信息。 5.根据权利要求1所述的方法，其特征在于，在所述将所述第一语音信息发送至第一目标用户所在的终端之前，还包括：确定是否接收到所述第二目标用户发送的不认可所述第一语音信息的指令；如果是，获取所述第二目标用户录制的第二语音信息；权　利　要　求　书 1/2 页 2 CN 114302217 A 2计算所述第二语音信息与所述第一语音信息之间的相似度；所述将所述第一语音信息发送至第一目标用户所在的终端，包括：判断所述相似度是否大于预设相似度阈值；如果所述相似度大于预设相似度阈值，将所述第二语音信息发送至第一目标用户所在的终端。 6.根据权利要求1所述的方法，其特征在于，所述预设事件为所述第一目标用户触发所述第二目标用户的直播间的观看直播选项；在所述终端播放所述第一语音信息之前，还包括：确定所述第二目标用户是否处于在直播间进行讲话的状态中；如果是，将所述第一目标用户所在终端所播放的所述第二目标用户的讲话音量调整至预设音量，其中，所述预设音量小于所述终端播放的所述第一语音信息的音量。 7.一种语音信息的生成装置，其特征在于，包括：第一文本信息获取模块，用于在接收到第一目标用户触发预设事件的触发指令后，获取与该预设事件对应的预设文本信息，其中，所述预设事件为：第二目标用户的直播间的观看直播选项、关注选项、评论选项、弹幕选项或点赞选项被触发的事件；语音信息生成模块，用于将所述预设文本信息输入预先训练得到的声音模拟模型，生成对应的第一语音信息，其中，所述声音模拟模型为基于样本文本信息和所述第二目标用户的声音特征进行训练得到的；语音信息发送模块，用于将所述第一语音信息发送至第一目标用户所在的终端，以使所述终端播放所述第一语音信息。 8.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现权利要求1 ‑6任一所述的方法步骤。 9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1 ‑6任一所述的方法步骤。权　利　要　求　书 2/2 页 3 CN 114302217 A 3

专利 一种语音信息的生成方法、装置、电子设备及存储介质

专利一种语音信息的生成方法、装置、电子设备及存储介质