专利一种基于隐私保护的模型训练方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111683309.1 (22)申请日 2021.12.3 0 (71)申请人支付宝（杭州）信息技术有限公司地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人王宁涛　周璟　吕乐　杨阳　范东云　傅幸　王维强　 (74)专利代理机构北京亿腾知识产权代理事务所(普通合伙) 11309 代理人陈霁　周良玉 (51)Int.Cl. G06F 21/62(2013.01) G06N 20/00(2019.01) (54)发明名称一种基于隐私保护的模型训练方法及装置 (57)摘要本说明书实施例提供一种基于隐私保护的模型训练方法及装置，获得用于训练目标业务模型的初始事件序列集合；针对所述初始事件序列集合中的各初始事件序列，根据第一增强策略的策略信息，基于预设的用于进行数据扰动修改的多个数据增强单元，对该初始事件序列进行第一数目的数据增强操作，得到对应的增强事件序列，其中，一次数据增强操作利用一个数据增强单元执行；策略信息至少指示所述第一数目；利用各增强事件序列形成的第一增强序列集合进行模型训练，得到隐私保护的第一业务模型。权利要求书2页说明书15页附图2页 CN 114357517 A 2022.04.15 CN 114357517 A 1.一种基于隐私保护的模型训练方法，包括：获得用于训练目标业务模型的初始事件序列集合；针对所述初始事件序列集合中的各初始事件序列，根据第一增强策略的策略信息，基于预设的用于进行数据扰动修改的多个数据增强单元，对该初始事件序列进行第一数目的数据增强操作，得到对应的增强事件序列，其中，一次数据增强操作利用一个数据增强单元执行；所述策略信息至少指示所述第一数目；利用各增强事件序列形成的第一增强序列集合进行模型训练，得到隐私保护的第一业务模型。 2.根据权利要求1所述的方法，其中，所述数据增强单元，用于扰动修改以下中的一项或多项：事件序列中事件的顺序、数量、属性。 3.根据权利要求1所述的方法，还包括：获得所述第一业务模型对应的第一效能结果；根据所述第一效能结果和所述第一增强策略，确定用于下一轮次的第二增强策略。 4.根据权利要求1所述的方法，还包括：获得所述第一业务模型对应的第一效能结果；至少根据所述第一效能结果和所述第一业务模型，确定所述目标业务模型对应的目标隐私保护模型，或其备选模型。 5.根据权利要求4所述的方法，其中，所述确定所述目标业务模型对应的目标隐私保护模型，或其备选模型，包括：获得所述初始事件序列集合对应的若干第二增强序列集合，其中，各第二增强序列集合，根据对应增强策略的策略信息，基于所述多个数据增强单元，对所述初始事件序列集合进行数据增强操作而得到；分别利用各第二增强序列集合进行模型训练，得到对应的若干第二业务模型；获得若干第二业务模型对应的若干第二效能结果；基于所述第一效能结果和所述第二效能结果，从所述第一业务模型和若干第二业务模型中，确定出所述目标隐私保护模型，或所述备选模型。 6.根据权利要求5所述的方法，还包括：获得所述目标业务模型对应的目标效能结果，所述目标业务模型利用所述初始事件序列集合训练得到；所述从所述第一业务模型和若干第二业务模型中，确定出所述目标隐私保护模型，或所述备选模型，包括：分别确定所述第一效能结果和若干第二效能结果，相对于所述目标效能结果的效能变化情况；基于各效能变化情况，从所述第一业务模型和所述若干第二业务模型中，确定出效能变化情况表征效能较优的业务模型，作为所述目标隐私保护模型。 7.根据权利要求3所述的方法，其中，所述第一效能结果包括如下结果的至少一个：业务预测准确性，被黑盒攻击成功的概率。 8.根据权利要求1 ‑7任一项所述的方法，其中，所述策略信息还包括：扰动强度值，所述第一数目的数据增强操作包括第一增强操作，所述第一增强操作利用第一增强操作单元进权　利　要　求　书 1/2 页 2 CN 114357517 A 2行符合所述扰动强度值的数据扰动。 9.根据权利要求1 ‑7任一项所述的方法，其中，所述数据扰动修改包括对事件序列中事件顺序和/或数量的扰动修改；所述多个数据增强单元包括用于执行以下操作中的至少一项的数据增强单元：删除事件序列中的部分事件；从事件序列中抽取出若干第一事件，对所述若干第一事件无放回抽样重排后放回事件序列；从事件序列中抽取出若干第二事件，对所述若干第二事件有放回抽样重排后放回事件序列；将事件序列中包含的第三事件修改为第四事件；保持事件序列。 10.根据权利要求1 ‑7任一项所述的方法，其中，所述数据扰动修改包括对事件序列中事件的属性的扰动修改；所述多个数据增强单元包括用于执行以下操作中的至少一项的数据增强单元：针对事件序列中第五事件的数值型的第一属性，利用该第一属性的各属性值对应的高斯分布，对该第一属性的属性值进行扰动修改；针对事件序列中第六事件的类别型的第二属性，利用该第二属性的各属性值对应的先验分布，对该第二属性的属性值进行扰动修改。 11.根据权利要求10所述的方法，其中，所述策略信息还包括扰动强度值；所述利用该第一属性的各属性值对应的高斯分布，对该第一属性的属性值进行扰动修改，包括：基于该第一属性的各属性值对应的高斯分布，生成该第五事件的第一属性对应的扰动值；基于所述扰动值以及所述扰动强度值，对该第一属性的属性值进行扰动修改。 12.根据权利要求1 ‑7任一项所述的方法，其中，一次数据增强操作所利用的数据增强单元，是以等概率方式从所述多个数据增强单元中随机选择的。 13.一种基于隐私保护的模型训练装置，包括：第一获得模块，配置为获得用于训练目标业务模型的初始事件序列集合；数据增强模块，配置为针对所述初始事件序列集合中的各初始事件序列，根据第一增强策略的策略信息，基于预设的用于进行数据扰动修改的多个数据增强单元，对该初始事件序列进行第一数目的数据增强操作，得到对应的增强事件序列，其中，一次数据增强操作利用一个数据增强单元执行；所述策略信息至少指示所述第一数目；模型训练模块，配置为利用各增强事件序列形成的第一增强序列集合进行模型训练，得到隐私保护的第一业务模型。 14.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1 ‑12中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114357517 A 3

专利 一种基于隐私保护的模型训练方法及装置

专利一种基于隐私保护的模型训练方法及装置