说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111654306.5 (22)申请日 2021.12.31 (71)申请人 江苏派陶 网络科技有限公司 地址 226000 江苏省南 通市崇川区观音山 街道人民中路25 5号财智天地园8幢 (72)发明人 曲豫宾 李芳  (74)专利代理 机构 南通国鑫智汇知识产权代理 事务所(普通 合伙) 32606 专利代理师 顾新民 (51)Int.Cl. G06Q 40/02(2012.01) G06F 16/953(2019.01) G06F 16/906(2019.01) G06N 20/00(2019.01) (54)发明名称 一种启发式自引入技术债务数据标注及训 练方法和系统 (57)摘要 本申请公开了一种启发式自引入技术债务 数据标注及训练方法和系统, 通过基于注释信 息, 选择一个开源软件项目的注释信息进行标注 得到代码注释关键词、 构建训练数据集, 并通过 训练数据集对 预训练模型进行训练及微调, 获得 分类模型; 利用分类模型对所述待标注软件项目 的代码注释进行分类预测, 当预测分类结果为有 引入技术债务时, 获得模糊分类结果, 判断两个 分类结果是否匹配, 当匹配成功时, 将待标注软 件项目的代码注释标注为有引入技术债务存入 训练数据集持续对分类模型训练, 不断迭代完成 所有数据集的标注。 解决现有代码标注为纯人工 进行, 存在费时费力且影 响模型训练效率的技术 问题。 达到自动标注, 大幅提高标注及模型训练 效率的技 术效果。 权利要求书2页 说明书11页 附图4页 CN 114612211 A 2022.06.10 CN 114612211 A 1.一种启发式自引入技术债务数据标注及训练方法, 其特征在于, 所述方法应用于区 块链软件系统中, 所述方法包括: 从开源代码仓库GitHub爬取基于区块链的软件系统源代码, 所述软件系统源代码为标 注star满足预设要求的系统源代码; 通过语法分析器从所述软件系统源代码中提取注释, 获得注释信息; 基于所述注释信息, 选择一个开源软件项目的注释信息进行标注, 基于标注为有引入 技术债务的注释信息得到代码注释关键词; 根据标注信息构建训练数据集, 并通过所述训练数据集对预训练模型进行训练及微 调, 获得分类模型; 获得待标注软件项目, 利用所述分类模型对所述待标注软件项目的代码注释进行分类 预测, 得到预测分类结果; 当所述预测分类结果为有引入技术债务时, 获得模糊分类结果, 并判断所述模糊分类 结果与所述预测分类结果是否匹配; 当匹配成功时, 将所述待标注软件项目的代码注释标注为有引入技术债务存入所述训 练数据集进 行更新, 利用更新的所述训练数据集进 行分类模型的训练, 持续迭代, 完成所有 待标注数据集的标注。 2.如权利要求1所述的方法, 其特征在于, 所述获得模糊分类结果, 并判断所述模糊分 类结果与所述预测分类结果是否匹配, 包括: 将所述待标注软件项目的代码注释与所述代码注释关键词进行启发式模糊匹配分类, 获得模糊分类结果; 将所述预测分类结果与所述模糊分类结果进行比较, 当两个分类结果一致时, 则匹配 成功。 3.如权利要求1所述的方法, 其特征在于, 当所述预测分类结果为无技术债务时, 所述 方法包括: 将所述待标注软件项目的代码注释与所述代码注释关键词进行启发式模糊匹配分类, 获得模糊匹配结果; 当所述模糊匹配结果为无匹配关键词时, 将所述待标注软件项目的代码注释标注为无 技术债务存 入所述训练数据集中。 4.如权利要求2或3所述的方法, 其特征在于, 所述将所述待标注软件项目的代码注释 与所述代码注释关键词进行启发式模糊匹配分类, 包括: 加载所述代码注释关键词的关键词列表; 对所述关键词列表进行 数据预处 理, 获取关键词 词根; 从所述关键词词根中选择词根, 并判断选择词根是否存在于所述待标注软件项目的代 码注释中; 当所述选择词根在所述待标注软件项目的代码注释中, 则模糊分类结果为自引入技术 债务。 5.如权利要求4所述的方法, 其特征在于, 所述判断选择词根是否存在于所述待标注软 件项目的代码注释中之后, 所述方法还 包括: 当所述选择词根不在所述待标注软件项目的代码注释中, 重新选择词根迭代进行判权 利 要 求 书 1/2 页 2 CN 114612211 A 2断, 直到完成所有词根的比较匹配; 当所有词根都不在所述待标注软件项目的代码注释中时, 所述模糊分类结果为非自引 入技术债务。 6.如权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获得所有标注信息; 将所有标注信息存 入所述训练数据集中; 利用更新后的所述训练数据集对所述分类模型进行训练, 获得 更新分类模型; 基于所述更新分类模型获得 软件代码, 确定测试信息 。 7.一种启发式自引入技 术债务数据标注及训练系统, 其特 征在于, 所述系统包括: 第一执行单元, 所述第一执行单元用于从开源代码仓库GitHub爬取基于区块链的软件 系统源代码, 所述软件系统源代码为标注star满足预设要求的系统源代码; 第一获得单元, 所述第 一获得单元用于通过语法分析器从所述软件系统源代码中提取 注释, 获得注释信息; 第一标注单元, 所述第一标注单元用于基于所述注释信息, 选择一个开源软件项目的 注释信息进行 标注, 基于标注为有引入技 术债务的注释信息得到代码注释关键词; 第一训练单元, 所述第一训练单元用于根据标注信息构建训练数据集, 并通过所述训 练数据集对预训练模型进行训练及微调, 获得分类模型; 第一预测单元, 所述第一预测单元用于获得待标注软件项目, 利用所述分类模型对所 述待标注软件项目的代码注释进行分类预测, 得到预测分类结果; 第二执行单元, 所述第二执行单元用于当所述预测分类结果为有引入技术债务时, 获 得模糊分类结果, 并判断所述模糊分类结果与所述预测分类结果是否匹配; 第三执行单元, 所述第三执行单元用于当匹配成功时, 将所述待标注软件项目的代码 注释标注为有引入技术债务存入所述训练数据集进行更新, 利用更新的所述训练数据集进 行分类模型的训练, 持续迭代, 完成所有 待标注数据集的标注。 8.一种启发式自引入技术债务数据标注及训练系统, 包括存储器、 处理器及存储在存 储器上并可在处理器上运行 的计算机程序, 其特征在于, 所述处理器执行所述程序时实现 权利要求1 ‑6任一项所述方法的步骤。 9.一种计算机可读存储介质, 所述存储介质上存储有计算机程序, 所述计算机程序被 处理器执行时实现如权利要求1 ‑6任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114612211 A 3

.PDF文档 专利 一种启发式自引入技术债务数据标注及训练方法和系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种启发式自引入技术债务数据标注及训练方法和系统 第 1 页 专利 一种启发式自引入技术债务数据标注及训练方法和系统 第 2 页 专利 一种启发式自引入技术债务数据标注及训练方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:27:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。