说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111650136.3 (22)申请日 2021.12.3 0 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 何中杰 施渊烈 王越胜  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 代理人 杨舟涛 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种基于数据预处理的地址文本信息相关 性学习方法 (57)摘要 本发明公开了一种地址文本信息相关性的 训练学习方法。 针对模型预训练知识缺少针对 性、 地址文本本身的不规范问题以及训练集存在 样本数量不平衡情况, 首先对预训练集中地址进 行遮掩预处理, 然后用预处理后的预训练集对初 始化后的模 型进行预训练, 接着对训练集中地址 关系对的两条地址进行修正和补齐, 并利用特殊 的训练集划分策略将整个训练集划分为多个子 训练集, 再利用预训练后的模型对 各个子训练集 进行集成训练和预测, 最后对集成模 型的泛化能 力进行测试。 权利要求书3页 说明书7页 附图2页 CN 114298228 A 2022.04.08 CN 114298228 A 1.一种基于数据预处理的地址文本信息相关性学习方法, 其特征在于: 该方法具体包 括以下步骤: 步骤一、 预训练数据处 理 收集多个包含完整地址信息的单个地址, 然后对这些单个地址进行随机遮掩处理, 得 到预训练集; 步骤二、 模型 预训练 s2.1、 对模型进行随机初始化, 将步骤一得到的预训练集输入模型的词嵌入层, 获取预 训练集中每 个地址的预训练语句矩阵向量; s2.2、 在编码器模块中对s2.1得到的预训练语句矩阵向量依次进行多头注意力运算、 归一化运算和线性运算, 输出预训练编 码器特征信息; 重复多次, 获得最优预训练编 码器特 征信息; s2.3、 在分类线性层根据最优预训练编码器特征信息, 获取词库中的每个词与预训练 集中被遮掩的内容相同的条件概率; 基于该条件概率计算交叉熵损失, 并不断地更新模型, 最终完成模型的预训练; 步骤三、 训练数据预处 理 收集用于地址文本信 息相关性任务的地址关系对数据, 利用ac自动机算法对这些地址 关系对数据中所有地址 关系对的两条地址 分别进行二次匹配, 首先获取地址中标识省、 市、 区的关键信息, 再对错 误或残缺的地址信息进行修 正和补齐, 得到预处 理后的训练集; 步骤四、 划分子训练集 对步骤三修正、 补齐后的训练集中的各个地址关系对的标签进行筛选, 按照标签划分 成多个子集, 提取其中低数据量的子集, 然后对剩余的子集组成的集合进 行多折交叉分组, 形成多个新子集, 再将提取 的低数据量的子集重新加入多折交叉分组后得到的新子集中, 得到多个子训练集; 步骤五、 模型集成训练 将步骤四得到的每一个子训练集都输入步骤二预处理后的模型中, 基于交叉熵损失优 化分类线性层的参数与规模, 得到经过不同子训练集训练后的模型; 将需要进行相关性任 务分析的地址 关系对输入经过不同子训练集训练后的模型中, 得到地址关系对的关系分类 概率。 2.如权利要求1所述一种基于数据预处理的地址文本信息相关性学习方法, 其特征在 于: 所述随机遮掩处理的方法为: 先利用随机算法判断是否对该地址进行遮掩, 若进行遮 掩, 则通过随机算法决定对随机的字进行遮掩或对表征位置信息的特殊词组进行遮掩; 再 通过随机算法决定被遮 掩的具体内容, 最后将被选择遮 掩的内容用特殊字符[mask]代替。 3.如权利要求1所述一种基于数据预处理的地址文本信息相关性学习方法, 其特征在 于: 所述多头注意力运 算为: MultiHead=Co ncat(Head1,…, Headl)WO Headi=Attention(HWiQ, HWiK, HWiV) 其中, MultiHead表示多头注意力运算的输出; Headi表示第i个注意力运算的输出; l表 示注意力运算头数; Concat表示对多个注意力运算 的输出进行堆叠操作; WO表示可学习的 参数矩阵; H表示上一个编 码器模块输出的预训练编码 器特征信息或预训练语句矩阵向量;权 利 要 求 书 1/3 页 2 CN 114298228 A 2WiQ, WiK, WiV表示第i个注意力运 算的可学习参数矩阵; 其中, 注意力运 算Attention()为: 其中, Q、 K、 V表示三个不同的输入; d表示输入的词向量特征表示数; S表示Softmax分数 运算的输入矩阵; sm表示输入矩阵的第m个词向量, n表示 最大文本 长度; 所述归一 化运算对输入的特 征信息运用期望 μ与标准差σ 进行整合: 其中, LN表示经过归 一化运算后的输 出; Z表示归 一化运算的输入矩阵; zj表示输入矩阵 的第j个词向量; h表示输入矩阵的词向量特 征表示数; G和B表示可 学习的参数矩阵; 所述线性 运算对特征信息进行 再整理、 再提取: Linner=wX+b 其中, Linner表示经过线性运算后的输出; X表示线性运算的输入矩阵; w和b表示可学 习的参数矩阵。 4.如权利要求1所述一种基于数据预处理的地址文本信息相关性学习方法, 其特征在 于: 所述ac自动机算法具体步骤为: s3.1、 根据收集的地址关系对数据中的每一条地址都拆分为独立的字, 然后构建字典 树, 从根节点 开始, 根据字典树上的字是否连续存在而决定是否插 入新的节点; s3.2、 使用深度优先算法构建节点间的fail指针, 所述fail指针所指向的字符为已匹 配的字符串后缀与指向字符串前缀 最长的相同字符末尾所在的节点处; s3.3、 然后根据构建的字典树对待匹配的地址不断进行匹配操作, 直至匹配所有字符 或停留在根节点无法继续匹配。 5.如权利要求1所述一种基于数据预处理的地址文本信息相关性学习方法, 其特征在 于: 所述子数据集的划分方法具体为: 针对预处理后的训练集E, 按照标签分为子集e0、 e1、 e2, e0为低数据量的子集, 因此提取e0, 对剩余的子集e1、 e2组成的集合E12进行多折交叉分组 形成多个新的子集, 再重新加入低数据量的子集e0, 得到多个子训练集On: 其中, k表示集合E12被拆分的折数; n表示集合E12被拆分的第n折; numk表示集合E12的总 数据量; numk表示拆分后每一 折占集合E12总数据量的平均数, numk=numtotal/k。 6.如权利要求1所述一种基于数据预处理的地址文本信息相关性学习方法, 其特征在 于: 评估步骤五中经过不同子训练集训练后的模型 的泛化能力, 对泛化能力低的模型重新 进行训练。 7.如权利要求6所述一种基于数据预处理的地址文本信息相关性学习方法, 其特征在 于: 评估方法为: 以指标函数 F1值进行评估, F1值越大模型的泛化能力越强;权 利 要 求 书 2/3 页 3 CN 114298228 A 3

.PDF文档 专利 一种基于数据预处理的地址文本信息相关性学习方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于数据预处理的地址文本信息相关性学习方法 第 1 页 专利 一种基于数据预处理的地址文本信息相关性学习方法 第 2 页 专利 一种基于数据预处理的地址文本信息相关性学习方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:28:10上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。