专利大规模候选集中的语义代码搜索模型构建方法及相关装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210564651.8 (22)申请日 2022.05.23 (71)申请人郑州大学产业技术研究院有限公司地址 450000 河南省郑州市高新区长椿路 11号1号孵化楼810号申请人北京航空航天大学杭州创新研究院 (72)发明人牛建伟　陈俊任　孙钢灿　 (74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 专利代理师张欣欣 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 5/04(2006.01) (54)发明名称大规模候选集中的语义代码搜索模型构建方法及相关装置 (57)摘要本实施例提供的大规模候选集中的语义代码搜索模型构建方法及相关装置中，模型训练设备通过将样本查询语句以及样本代码片段一同输入到目标模型中，用于训练该目标模型学习样本插叙语句与样本代码片段之间的语义信息，待目标模型满足预设收敛条件时，获得能够同时对目标查询语句以及候选代码片段同时进行编码处理的语义代码搜索模型。如此，使得训练出的语义代码搜索模型能够在对目标查询语句以及候选代码片段进行处理时，能够发掘出两者之间可能存在的关联性。权利要求书3页说明书12页附图2页 CN 114896368 A 2022.08.12 CN 114896368 A 1.一种大规模候选集中的语义代码搜索模型构建方法，其特征在于，应用于模型训练设备，所述方法包括：获取样本查询语句以及样本代码片段；训练目标模型学习所述样本查询语句与所述样本代码片段之间的语义信息，直到所述目标模型满足预设收敛条件时，获得语义代码搜索模型。 2.根据权利要求1所述的大规模候选集中的语义代码搜索模型构建方法，其特征在于，预设收敛条件包括第一条件以及第二条件，所述训练目标模型学习所述样本查询语句与所述样本代码片段之间的语义信息，直到所述目标模型满足预设收敛条件时，获得语义代码搜索模型，包括：训练所述目标模型对所述样本查询语句与所述样本代码片段中的关键信息进行预测，直到所述目标模型满足第一条件时，获得预训练模型；其中，所述关键信息包括被随机遮蔽的文本片段以及预设的关键词；训练所述预训练模型学习所述样本查询语句与所述样本代码片段语义之间的相似信息，直到所述预训练模型满足所述第二条件时，获得所述语义代码搜索模型。 3.根据权利要求2所述的大规模候选集中的语义代码搜索模型构建方法，其特征在于，所述训练所述目标模型对所述样本查询语句与所述样本代码片段中的关键信息进行预测，直到所述目标模型满足第一条件时，获得预训练模型，包括：执行至少一次所述目标模型的迭代步骤，直到所述目标模型满足所述第一条件时，获得所述预训练模型；其中，所述目标模型的迭代步骤包括：按照预设概率从所述样本查询语句与所述样本代码片段中确定出所述文本片段；将遮蔽了所述文本片段的所述样本查询语句与所述样本代码片段，输入到所述目标模型；根据所述目标模型对所述文本片段的预测结果，获得所述目标模型的第一模型损失；根据所述目标模型对所述关键词的识别结果，获得所述目标模型的第二模型损失；将遮蔽了关键词的所述样本查询语句与所述样本代码片段，输入到所述目标模型；根据所述目标模型对所述关键词的预测结果，获得所述目标模型的第三模型损失；根据所述第一模型损失、所述第二模型损失以及所述第三模型损失，更新所述目标模型。 4.根据权利要求3所述的大规模候选集中的语义代码搜索模型构建方法，其特征在于，所述第一模型损失的表达式为：式中， θ表示所述目标模型的模型参数，第t个被遮蔽的文本片段， y\mask表示遮蔽了所述文本片段的所述样本查询语句与所述样本代码片段，表示前t‑1个文本片段的预测结果， k表示所述文本片段的数量；所述第二模型损失的表达式为：权　利　要　求　书 1/3 页 2 CN 114896368 A 2式中， m表示所述样本代码片段中文本词汇的数量； yi表示第i个词汇的实际类型， pi表示第i个词汇的预测结果；所述第三模型损失的表达式为：式中， θ表示所述目标模型的模型参数， Sj第j个被遮蔽的关键词， x\s表示遮蔽了关键词的所述样本查询语句与所述样本代码片段， S＜j表示前j‑1个关键词的预测结果， |S|表示所述关键词的数量。 5.根据权利要求2所述的大规模候选集中的语义代码搜索模型构建方法，其特征在于，所述训练所述预训练模型学习所述样本查询语句与所述样本代码片段语义之间的相似信息，直到所述预训练模型满足所述第二条件时，获得所述语义代码搜索模型，包括：执行至少一次所述预训练模型的迭代步骤，直到所述预训练模型满足所述第二条件时，获得所述语义代码搜索模型；其中，所述预训练模型的迭代步骤，包括：将所述样本查询语句与所述样本代码片段输入到所述预训练模型；根据所述预训练模型的输出结果，通过噪声对比损失函数获得所述预训练模型的第四模型损失；根据所述预训练模型输出的所述样本查询语句与所述样本代码片段之间的匹配概率，获得所述预训练模型的第五模型损失；根据所述第四模型损失与所述第五模型损失，更新所述预训练模型。 6.根据权利要求5所述的大规模候选集中的语义代码搜索模型构建方法，其特征在于，所述第四模型损失的表达式为：式中， fθ(ui)表示第i个查询语句ui的低维嵌入表示， fθ(vi)表示第i个样本代码片段vi 的低维嵌入表示， N表示所述样本代码片段的数量， σ 表示预设超参数， B表示预设批次大小；所述第五模型损失的表达式为：式中， pθ(ui,vi)表示第i个查询语句ui与第i个样本代码片段vi之间的相匹配的概率， N 表示所述样本代码片段的数量。 7.根据权利要求1 ‑6任意一项所述的大规模候选集中的语义代码搜索模型构建方法，其特征在于，所述方法还包括：将目标查询语句输入所述语义代码搜索模型；权　利　要　求　书 2/3 页 3 CN 114896368 A 3

专利 大规模候选集中的语义代码搜索模型构建方法及相关装置

专利大规模候选集中的语义代码搜索模型构建方法及相关装置