专利 文本数据的保密处理方法和装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111617403.7 (22)申请日 2021.12.28 (71)申请人支付宝（杭州）信息技术有限公司地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人崔世文　孟昌华　李志峰　王维强　 (74)专利代理机构济南信达专利事务所有限公司 37100 代理人李世喆 (51)Int.Cl. G06F 21/62(2013.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称文本数据的保密处理方法和装置 (57)摘要本说明书实施例提供了一种文本数据的保密处理方法和装置。该方法包括：得到原始文本数据；将所述原始文本数据输入预先训练的文本生成模型，得到该文本生成模型输出的相似文本数据；该相似文本数据与原始文本数据的文本内容不同，但，该相似文本数据与原始文本数据的语义相似度大于预定值；提供所述相似文本数据。本说明书实施例能够更为有效地阻止文本数据内容的泄露。权利要求书2页说明书8页附图4页 CN 113987592 A 2022.01.28 CN 113987592 A 1.文本数据的保密处理方法，其中，包括：得到原始文本数据；将所述原始文本数据输入预先训练的文本生成模型，得到该文本生成模型输出的相似文本数据；该相似文本数据与原始文本数据的文本内容不同，但，该相似文本数据与原始文本数据的语义相似度大于预定值；提供所述相似文本数据。 2.根据权利要求1所述的方法，其中，所述文本生成模型的训练方法包括如下中的至少一项：针对第一文本数据，将该第一文本数据中的至少一个字符替换为该字符的同义字符，得到第一变换数据，利用该第一文本数据及该第一变换数据作为训练样本训练所述文本生成模型；针对第二文本数据，在该第二文本数据中增加或者减少非语义字符，得到第二变换数据，利用该第二文本数据及该第二变换数据作为训练样本训练所述文本生成模型；其中，非语义字符为不改变语义的字符；针对第三文本数据，改变该第三文本数据中至少一处文本内容的语序，得到第三变换数据，利用该第三文本数据及该第三变换数据作为训练样本训练所述文本生成模型。 3.根据权利要求1所述的方法，其中，所述得到该文本生成模型输出的相似文本数据，包括：得到该文本生成模型输出的至少两个版本的相似文本数据；不同版本的相似文本数据的文本内容不同；所述提供所述相似文本数据，包括：将各个阅读者划分在至少两个分组中；将至少两个版本的相似文本数据分别分发给至少两个分组。 4.根据权利要求3所述的方法，该方法进一步包括：获取被泄露的相似文本数据；根据被泄露的相似文本数据的版本，确定该被泄露的相似文本数据被分发到的分组；将该分组中的阅读者确定为泄露方。 5.根据权利要求1所述的方法，在所述得到该文本生成模型输出的相似文本数据之后，并在所述提供所述相似文本数据之前，进一步包括：根据原始文本数据的语义，对文本生成模型输出的相似文本数据进行修正，以增加该相似文本数据与原始文本数据的语义相似度；所述提供所述相似文本数据，包括：提供修正后的相似文本数据。 6.文本数据的保密处理装置，其中，包括：原始文本获取模块，配置为得到原始文本数据；文本生成模型，配置为对输入的所述原始文本数据进行模型处理，输出相似文本数据；该相似文本数据与原始文本数据的文本内容不同，但，该相似文本数据与原始文本数据的语义相似度大于预定值；分发模块，配置为提供所述相似文本数据。 7.根据权利要求6所述的装置，其中，所述文本生成模型在训练阶段被配置为执行如下中的至少一项：权　利　要　求　书 1/2 页 2 CN 113987592 A 2接收第一训练样本，该第一训练样本包括第一文本数据及第一变换数据，其中第一变换数据是将该第一文本数据中的至少一个字符替换为该字符的同义字符后得到的，对该第一训练样本进行学习；接收第二训练样本，该第二训练样本包括第二文本数据及第二变换数据，其中第二变换数据是在该第二文本数据中增加或者减少非语义字符后得到的，对该第二训练样本进行学习；接收第三训练样本，该第三训练样本包括第三文本数据及第三变换数据，其中第三变换数据是改变该第三文本数据中至少一处文本内容的语序之后得到的，对该第三训练样本进行学习；其中，第三文本数据及该第三变换数据的语义相似度大于预定值。 8.根据权利要求6所述的装置，其中，所述文本生成模型被配置为执行：得到该文本生成模型输出的至少两个版本的相似文本数据；不同版本的相似文本数据的文本内容不同；所述分发模块，被配置为执行将各个阅读者划分在至少两个分组中；将至少两个版本的相似文本数据分别分发给至少两个分组。 9.根据权利要求6所述的装置，其中，该装置进一步包括：追溯模块，配置为获取被泄露的相似文本数据；根据被泄露的相似文本数据的版本，确定该被泄露的相似文本数据被分发到的分组；将该分组中的阅读者确定为泄露方。 10.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1 ‑5中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 113987592 A 3

专利 文本数据的保密处理方法和装置

专利文本数据的保密处理方法和装置