专利基于领域适应的服装实体识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111634366.0 (22)申请日 2021.12.2 9 (71)申请人西安工程大学地址 710048 陕西省西安市碑林区金花南路19号 (72)发明人张晓滨　马瑛超　 (74)专利代理机构西安弘理专利事务所 61214 专利代理师王奇 (51)Int.Cl. G06F 40/295(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于领域适应的服装实体识别方法 (57)摘要本发明公开了一种基于领域适应的服装实体识别方法，步骤包括：步骤1，构建实体分类标准；步骤2，构建源域训练数据；步骤3，使用步骤2 构建的源域数据集S训练针对源域的命名实体识别模型Ms，并保存预训练的模型嵌入层参数 ParamE和注意力层参数Paramatt；步骤4，构建及训练基于领域适应的服装实体识别模型Mt；步骤 5，参照图5，对服装领域进行实体识别，即成。本发明的方法，有效解决服装领域实体识别缺乏大量训练集的问题，促进服装领域知识抽取相关工作，有效地促进了服装信息智能化发展和其下游任务的开展。权利要求书5页说明书7页附图2页 CN 114580412 A 2022.06.03 CN 114580412 A 1.一种基于领域适应的服装实体识别方法，其特征在于，按照以下步骤实施：步骤1，构建实体分类标准；步骤2，构建源域训练数据；步骤3，使用步骤2构建的源域数据集S训练针对源域的命名实体识别模型Ms，并保存预训练的模型嵌入层参数ParamE和注意力层参数Paramatt；步骤4，构建及训练基于领域适应的服装实体识别模型Mt；步骤5，参照图5，对服装领域进行实体识别，即成。 2.根据权利要求1所述的基于领域适应的服装实体识别方法，其特征在于：所述的步骤 1的具体过程是： 1.1)依据服装领域知识与专家知识构建实体统计实体分类标准，对服装领域的实体类型进行划分； 1.2)结合实体类型的划分标准，构建实体字典文件DICNER， DICNER＝[Concepts, Material s,Examples,Proc esses,Brands]，其中五个项目分别表示概念、材料、实例、工艺、品牌的实体类型； 1.3)构建标注字典，将识别出的实体以BIO标注，其中， B为实体开始位置、 I为实体开始出现位置以外的表示、 O为非实体表示，结合实体字典文件DICNER的标注形式为B ‑Concepts、 I‑Concepts，形成标注字典DIClable。 3.根据权利要求1所述的基于领域适应的服装实体识别方法，其特征在于：所述的步骤 2的具体过程是： 2.1)利用公开的训练数据，构成初始数据集； 2.2)对初始数据集进行初步筛选，去除初始数据集中实体标签不包含于实体字典文件 DICNER的数据； 2.3)对步骤2.2)处理后的数据集中不属于BIO标注的标注方式进行调整，按照数据标注规范对应BIO标注规范的规则转换为BIO标注； 2.4)对步骤2.3)处理后的数据集进行清洗，对于语料长度大于256字符的进行截断操作，得到源域数据集S； 2.5)对领域专家提供的少量服装领域文本依据BIO标准进行标注，得到目标域数据集 T，用作基于领域适应的服装实体识别模型Mt的训练和模型效果验证的数据。 4.根据权利要求1所述的基于领域适应的服装实体识别方法，其特征在于：所述的步骤 3的具体过程是： 3.1)对源域数据集S中的文本进行编码，依据Bert中文版本BERT_BASE_CHINAESE所提供的的Token字典实施编码，得到编码ES； 3.2)对源域数据集S中的标签进行编码转化，依据标注字典DIClable，对数据的标签进行转化，将对应标签的下标进行编码； 3.3)构建一个使用源域数据训练的命名实体识别模型Ms，包括编码层、学习层、输出层，由Bert预训练模型作为编码层，由注意力层、 Dropout层和一个全连接层组成学习层，由 CRF层构成输出层，预训练其中的编码层和注意力层，小步骤包括： 3.3.1)将预训练的B ert层加载到命名实体识别模型Ms的网络中，作为命名实体识别模型Ms的编码层；设置预训练的参数，其中设置Bert层参数为可训练的，即在网络训练过程权　利　要　求　书 1/5 页 2 CN 114580412 A 2中， Bert层参数随训练过程而优化， Bert层的输入为步骤3.1)生成的编码ES，输出为包含上下文特征的维度为512*768的隐藏层张量SourceBouti； 3.3.2)为命名实体识别模型Ms添加由注意力层、 Dropout层和全连接层组成的学习层，注意力层对SourceBouti进行计算，注意力权重Source_ai计算式如下： Source_ai＝softmax(s(SourceBouti,Sq)) (1) 其中，公式中的黑圆点为张量点积， SW为可训练的参数， Sq为输入的注意力对象， d为维度大小， SourceBouti为命名实体识别模型Ber t层输出的隐藏层张量，对计算得到的注意力权重Source_ai与隐藏层张量SourceBouti相乘，得到注意力层的输出SAttout； 3.3.3)构建模型的输出层，应用CRF对输出SAttout进行计算，得到的输出为每个字对应字典DIClabel的向量，其中每一个位置的数值为对应标签lable的概率； 3.4)对步骤3.3)中构建的编码层、学习层、输出层按顺序组合成命名实体识别模型Ms 并使用源域数据进行训练，优化器为ADAM，指定训练批次为200及批次大小为64；并在不断训练时进行验证，待数据在验证数据上准确率保持稳定时结束训练，保存命名实体识别模型Ms； 3.5)对步骤3.4)训练好的命名实体识别模型Ms中编码层的参数进行保存得到参数权重ParamE，对学习层中的注意力层进行保存得到Paramatt。 5.根据权利要求1所述的基于领域适应的服装实体识别方法，其特征在于：所述的步骤 4的具体过程是： 4.1)构造训练数据集Trai nData，小步骤包括： 4.1.1)对源域数据集S与目标域数据集T进行标注，标注其域分类标签，其中属于源域数据集S的标记为1，属于目标域数据集T的标注为0； 4.1.2)将源域数据集S与目标域数据集T 进行混合，得到训练数据集Trai nData； 4.1.3)将训练数据集TrainData参照步骤3.1)的方式进行编码得到Etrain，将编码Etrain 作为基于领域适应的服装实体识别模型Mt的总体输入； 4.2)搭建用于控制迁移的目标可迁移注意力机制层，小步骤包括： 4.2.1)对输入特征TargetLSTMouti进行目标注意力权重Target_ai的计算，计算公式如下： Target_ai＝softmax(s(TargetLSTMouti,Tq)) (3) 其中， TW为可训练的参数， Tq为输入的注意力对象， d为维度大小， TargetLSTMouti为领域适应的服装实体识别模型双向长短期记忆网络LSTM层输出的隐藏层张量，将得到的注意力权重Target_ai与输入特征TargetLSTMouti相乘，得到新的特征张量Target_fi； 4.2.2)将特征张量Target_fi划分为K个部分，并建立对应的K个特征判别器对样本特征所属领域进行判别，通过多个特征判别器对多个特征级别进行源域与目标域的匹配，权　利　要　求　书 2/5 页 3 CN 114580412 A 3

专利 基于领域适应的服装实体识别方法

专利基于领域适应的服装实体识别方法