专利训练数据的增广方法、装置、设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210517326.6 (22)申请日 2022.05.13 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人李志韬　王健宗　程宁　 (74)专利代理机构深圳国新南方知识产权代理有限公司 4 4374 专利代理师艾青 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/186(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称训练数据的增广方法、装置、设备和存储介质 (57)摘要本申请涉及人工智能技术，提出一种训练数据的增广方法、装置、设备和存储介质，该方法包括：获取已有训练数据作为待扩充文本；对待扩充文本进行关键实体识别；将待扩充文本中识别到的第一关键实体替换为对应的第一替换标签，得到待扩充文本对应的待扩充模板；利用已训练的模板扩充模型对待扩充模板进行扩充，得到对应的扩充模板；对扩充模板中的第一替换标签进行替换填充，将得到的扩充文本作为增广训练数据。本申请实现了保持关键实体不变的同时扩充语义模板以丰富语义地进行训练数据扩充。权利要求书2页说明书10页附图2页 CN 114881035 A 2022.08.09 CN 114881035 A 1.一种训练数据的增广方法，其特征在于，所述方法包括：获取已有训练数据作为待扩充文本；对所述待扩充文本进行关键实体识别；将所述待扩充文本中识别到的第一关键实体替换为对应的第一替换标签，得到所述待扩充文本对应的待扩充模板；利用已训练的模板扩充模型对所述待扩充模板进行扩充，得到对应的扩充模板；对所述扩充模板中的第一替换标签进行替换填充，将得到的扩充文本作为增广训练数据。 2.根据权利要求1所述的方法，其特征在于，在所述利用已训练的模板扩充模型对所述待扩充模板进行扩充，得到对应的扩充模板之前，所述方法还包括：获取第一训练样本集合，其中，所述第一训练样本集合包括多条原文本样本；对每条所述原文本样本进行关键实体识别；将所述原文本样本中识别到的第二关键实体替换为对应的第二替换标签，得到所述原文本样本对应的文本模板；对所有所述文本模板进行文本聚类，得到至少一个不同的聚类簇，其中，每个所述聚类簇包括至少一个语义相似的文本模板；从同一个聚类簇对应的文本模板中随机抽取任意两个文本模板组成相似模板对输入至预训练的模板扩充模型中，以利用不同的相似模板对对所述预训练的模板扩充模型进行训练直至达到收敛条件，得到已训练的模板扩充模型。 3.根据权利要求2所述的方法，其特征在于，所述对所有所述文本模板进行文本聚类，得到至少一个不同的聚类簇，包括：对每条所述文本模板进行文本特征提取，得到每条文本模板对应的第一特征向量；将所有文本模板对应的第一特征向量输入至已训练的聚类模型以对所述文本模板进行聚类，得到至少一个不同的聚类簇。 4.根据权利要求3所述的方法，其特征在于，所述对每条所述文本模板进行文本特征提取，得到每条文本模板对应的第一特征向量，包括：提取每条所述文本模板对应的tf ‑idf特征；根据所述文本模板对应的tf ‑idf特征进行tf ‑idf编码，得到对应文本模板的第一特征向量。 5.根据权利要求3所述的方法，其特征在于，在所述将所有文本模板对应的第一特征向量输入至已训练的聚类模型以对所述文本模板进行聚类，得到至少一个不同的聚类簇之前，所述方法还包括：利用第二训练样本集合对基于k_Means算法构建的预训练聚类模型进行训练，得到所述已训练的聚类模型。 6.根据权利要求1所述的方法，其特征在于，所述对所述扩充模板中的第一替换标签进行替换填充，包括：利用所述第一关键实体对对应的扩充模板中的第一替换标签进行替换填充。 7.根据权利要求1所述的方法，其特征在于，在所述对所述扩充模板中的第一替换标签进行替换填充之前，所述方法还包括：权　利　要　求　书 1/2 页 2 CN 114881035 A 2对所述第一关键实体进行扩充，得到扩充实体；所述对所述扩充模板中的第一替换标签进行替换填充，包括：利用所述第一关键实体和/或扩充实体对对应的扩充模板中的第一替换标签进行替换填充。 8.一种训练数据的增广装置，其特征在于，所述装置包括：第一数据获取模块，用于获取已有训练数据作为待扩充文本；识别模块，用于对所述待扩充文本进行关键实体识别；替换模块，用于将所述待扩充文本中识别到的第一关键实体替换为对应的第一替换标签，得到所述待扩充文本对应的待扩充模板；扩充模块，用于利用已训练的模板扩充模型对所述待扩充模板进行扩充，得到对应的扩充模板；填充模块，用于对所述扩充模板中的第一替换标签进行替换填充，将得到的扩充文本作为增广训练数据。 9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时执行如权利要求 1‑7任一项所述的训练数据的增广方法的步骤。 10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时，使得所述处理器执行如权利要求 1‑7任一项所述的训练数据的增广方法的步骤。权　利　要　求　书 2/2 页 3 CN 114881035 A 3

专利 训练数据的增广方法、装置、设备和存储介质

专利训练数据的增广方法、装置、设备和存储介质