专利一种基于数据预处理的地址文本信息相关性学习方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111650136.3 (22)申请日 2021.12.3 0 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人何中杰　施渊烈　王越胜　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 代理人杨舟涛 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称一种基于数据预处理的地址文本信息相关性学习方法 (57)摘要本发明公开了一种地址文本信息相关性的训练学习方法。针对模型预训练知识缺少针对性、地址文本本身的不规范问题以及训练集存在样本数量不平衡情况，首先对预训练集中地址进行遮掩预处理，然后用预处理后的预训练集对初始化后的模型进行预训练，接着对训练集中地址关系对的两条地址进行修正和补齐，并利用特殊的训练集划分策略将整个训练集划分为多个子训练集，再利用预训练后的模型对各个子训练集进行集成训练和预测，最后对集成模型的泛化能力进行测试。权利要求书3页说明书7页附图2页 CN 114298228 A 2022.04.08 CN 114298228 A 1.一种基于数据预处理的地址文本信息相关性学习方法，其特征在于：该方法具体包括以下步骤：步骤一、预训练数据处理收集多个包含完整地址信息的单个地址，然后对这些单个地址进行随机遮掩处理，得到预训练集；步骤二、模型预训练 s2.1、对模型进行随机初始化，将步骤一得到的预训练集输入模型的词嵌入层，获取预训练集中每个地址的预训练语句矩阵向量； s2.2、在编码器模块中对s2.1得到的预训练语句矩阵向量依次进行多头注意力运算、归一化运算和线性运算，输出预训练编码器特征信息；重复多次，获得最优预训练编码器特征信息； s2.3、在分类线性层根据最优预训练编码器特征信息，获取词库中的每个词与预训练集中被遮掩的内容相同的条件概率；基于该条件概率计算交叉熵损失，并不断地更新模型，最终完成模型的预训练；步骤三、训练数据预处理收集用于地址文本信息相关性任务的地址关系对数据，利用ac自动机算法对这些地址关系对数据中所有地址关系对的两条地址分别进行二次匹配，首先获取地址中标识省、市、区的关键信息，再对错误或残缺的地址信息进行修正和补齐，得到预处理后的训练集；步骤四、划分子训练集对步骤三修正、补齐后的训练集中的各个地址关系对的标签进行筛选，按照标签划分成多个子集，提取其中低数据量的子集，然后对剩余的子集组成的集合进行多折交叉分组，形成多个新子集，再将提取的低数据量的子集重新加入多折交叉分组后得到的新子集中，得到多个子训练集；步骤五、模型集成训练将步骤四得到的每一个子训练集都输入步骤二预处理后的模型中，基于交叉熵损失优化分类线性层的参数与规模，得到经过不同子训练集训练后的模型；将需要进行相关性任务分析的地址关系对输入经过不同子训练集训练后的模型中，得到地址关系对的关系分类概率。 2.如权利要求1所述一种基于数据预处理的地址文本信息相关性学习方法，其特征在于：所述随机遮掩处理的方法为：先利用随机算法判断是否对该地址进行遮掩，若进行遮掩，则通过随机算法决定对随机的字进行遮掩或对表征位置信息的特殊词组进行遮掩；再通过随机算法决定被遮掩的具体内容，最后将被选择遮掩的内容用特殊字符[mask]代替。 3.如权利要求1所述一种基于数据预处理的地址文本信息相关性学习方法，其特征在于：所述多头注意力运算为： MultiHead＝Co ncat(Head1，…， Headl)WO Headi＝Attention(HWiQ， HWiK， HWiV) 其中， MultiHead表示多头注意力运算的输出； Headi表示第i个注意力运算的输出； l表示注意力运算头数； Concat表示对多个注意力运算的输出进行堆叠操作； WO表示可学习的参数矩阵； H表示上一个编码器模块输出的预训练编码器特征信息或预训练语句矩阵向量；权　利　要　求　书 1/3 页 2 CN 114298228 A 2WiQ， WiK， WiV表示第i个注意力运算的可学习参数矩阵；其中，注意力运算Attention()为：其中， Q、 K、 V表示三个不同的输入； d表示输入的词向量特征表示数； S表示Softmax分数运算的输入矩阵； sm表示输入矩阵的第m个词向量， n表示最大文本长度；所述归一化运算对输入的特征信息运用期望 μ与标准差σ 进行整合：其中， LN表示经过归一化运算后的输出； Z表示归一化运算的输入矩阵； zj表示输入矩阵的第j个词向量； h表示输入矩阵的词向量特征表示数； G和B表示可学习的参数矩阵；所述线性运算对特征信息进行再整理、再提取： Linner＝wX+b 其中， Linner表示经过线性运算后的输出； X表示线性运算的输入矩阵； w和b表示可学习的参数矩阵。 4.如权利要求1所述一种基于数据预处理的地址文本信息相关性学习方法，其特征在于：所述ac自动机算法具体步骤为： s3.1、根据收集的地址关系对数据中的每一条地址都拆分为独立的字，然后构建字典树，从根节点开始，根据字典树上的字是否连续存在而决定是否插入新的节点； s3.2、使用深度优先算法构建节点间的fail指针，所述fail指针所指向的字符为已匹配的字符串后缀与指向字符串前缀最长的相同字符末尾所在的节点处； s3.3、然后根据构建的字典树对待匹配的地址不断进行匹配操作，直至匹配所有字符或停留在根节点无法继续匹配。 5.如权利要求1所述一种基于数据预处理的地址文本信息相关性学习方法，其特征在于：所述子数据集的划分方法具体为：针对预处理后的训练集E，按照标签分为子集e0、 e1、 e2， e0为低数据量的子集，因此提取e0，对剩余的子集e1、 e2组成的集合E12进行多折交叉分组形成多个新的子集，再重新加入低数据量的子集e0，得到多个子训练集On：其中， k表示集合E12被拆分的折数； n表示集合E12被拆分的第n折； numk表示集合E12的总数据量； numk表示拆分后每一折占集合E12总数据量的平均数， numk＝numtotal/k。 6.如权利要求1所述一种基于数据预处理的地址文本信息相关性学习方法，其特征在于：评估步骤五中经过不同子训练集训练后的模型的泛化能力，对泛化能力低的模型重新进行训练。 7.如权利要求6所述一种基于数据预处理的地址文本信息相关性学习方法，其特征在于：评估方法为：以指标函数 F1值进行评估， F1值越大模型的泛化能力越强；权　利　要　求　书 2/3 页 3 CN 114298228 A 3

专利 一种基于数据预处理的地址文本信息相关性学习方法

专利一种基于数据预处理的地址文本信息相关性学习方法