专利基于迁移学习和注意力机制的警情短文本分类方法、系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221078789 2.9 (22)申请日 2022.07.06 (71)申请人新智道枢（上海）科技有限公司地址 201799 上海市青浦区徐民路3 08弄6 号楼6层 (72)发明人王明光　邱世界　钟浩　蒋维　高友光　刘红志　吴正茂　徐佳申　曹阳　武澄　高进　 (74)专利代理机构上海创开专利代理事务所 (普通合伙) 31374 专利代理师汪发成 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/284(2020.01)G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/08(2006.01) (54)发明名称基于迁移学习和注意力机制的警情短文本分类方法、系统 (57)摘要本发明公开了基于迁移学习和注意力机制的警情短文本分类方法、系统，涉及人工智能领域。本发明包括：根据停用词列表和过滤词列表去除停用词和过滤词；迁移学习，查找并表示该段警情文本中每个单字词向量；计算该段警情文本中每个单字的权重，根据Attention机制得到各个单字的权重；警情分类。本发明基于词向量和attention注意力机制的技术解决警情文本分类的技术难题，词向量能够充分捕获字词信息，对于词汇重要性打分，可解释性强；网络结构易于学习，过拟合风险小，且预测速度相对较快；基于迁移学习的方式，增加警务行业专业数据，可以做更充分的学习。权利要求书1页说明书5页附图3页 CN 115080700 A 2022.09.20 CN 115080700 A 1.基于迁移学习和注意力机制的警情短文本分类方法，其特征在于，包括如下步骤：步骤S1、清洗准备数据：输入一段警情文本，根据停用词列表和过滤词列表去除停用词和过滤词；步骤S2、迁移学习，采用已经训练好的词向量表进行文本编码，使用它获得融合语义特征和词频特征的窗口向量集合V＝[V1,V2,....Vn]，查找并表示该段警情文本中每个单字词向量；步骤S3、计算该段警情文本中每个单字的权重：根据Attention机制将得到的每个词向量Vi通过权重矩阵参数列表乘以各个单字词向量，得到各个单字的权重；步骤S4、警情分类：将该段警情文本对应对应各个单字的权重及对应的分类分值与神经元全连接，得到分类分布，并通过softmax函数选择其中最大的即为预测分类。 2.根据权利要求1所述的基于迁移学习和注意力机制的警情短文本分类方法，其特征在于，所述步骤S1中停用词列表和过滤词列表具体为对警情文本分类无意义的短文或符号。 3.根据权利要求1所述的基于迁移学习和注意力机制的警情短文本分类方法，其特征在于，所述步骤S2中词向量表根据Bi ‑LSTM+CRF+Attention网络结构使用海量文本数据和警情数据训练而来。 4.根据权利要求3所述的基于迁移学习和注意力机制的警情短文本分类方法，其特征在于，所述词向量表的参数为Embedding_size＝2 00维， token＝8234个，据此查找得到每个单字向量。 5.根据权利要求1所述的基于迁移学习和注意力机制的警情短文本分类方法，其特征在于，所述步骤S3中A ttention机制具体是： S＝∑ αi·Vi 其中， Vi表示每个词向量， αi表示对应单个词向量的权重， S表示警情文本中各个词向量权重构成的权重集合。 6.根据权利要求1所述的基于迁移学习和注意力机制的警情短文本分类方法，其特征在于，所述步骤S4具体是通过如下实现：其中， S(yi)代表每一个分类分值,x代表一段警情文本， i代表每个神经元， yi代表每个神经元的输出。 7.基于迁移学习和注意力机制的警情短文本分类系统，其特征在于，采用如权利要求 1‑6任一项所述基于迁移学习和注意力机制的警情短文本分类方法的计算机系统。 8.存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1 ‑6中任一项所述的方法的步骤。 9.基于迁移学习和注意力机制的警情短文本分类设备，其特征在于，包括控制器，所述控制器包括权利要求8所述的存储有计算机程序的计算机可读存储介质，或者，所述控制器包括权利要求7 所述的基于词向量的基于迁移学习和注意力机制的警情短文本分类系统。权　利　要　求　书 1/1 页 2 CN 115080700 A 2基于迁移学习和注意力机制的警情短文本分类方法、系统技术领域 [0001]本发明属于人工智能领域，特别是涉及应用于公安系统中基于迁移学习和注意力机制对警情短文本的分类方法、系统、介质及设备。背景技术 [0002]文本分类是自然语言处理nlp常见任务，应用于垃圾邮件识别，情感分析、警情分析、案由推荐以及风险级别预测等方面。对于常见的公安系统，为了提高接警效率，需要针对警情文本进行判断类别并进行案由推荐，风险警情预测，以实现警务行业的智能化。 [0003]近年来，有学者提出基于词袋法的方式进行警情分类，有基于LDA主体模型的方式，有基于深度学习有监督的方式，也有基于fastext和textcnn的方式，进行警情分类。其它技术还包括： [1]汤英杰,刘媛华.基于预训练模型融合深层特征词向量的中文文本分类 [J/OL].上海理工大学学报： 1 ‑10[2022 ‑06‑01].https://doi.org/10.13255/ j.cnki.jusst.20211108001； [2]宋丹,陆奎,戴旭凡.基于改进的卷积神经网络邮件分类算法研究[J].重庆工商大学学报(自然科学版),2 022,39(03):2 0‑25。基于词袋tfidf的方式，仅只实用词语统计的方式，没有考虑语句语义信息，基于LDA模式的，对警情短文本数据，稀疏性太高，不具有统计学特征；基于cnn和rnn等深度学习的方式，可解释信差。发明内容 [0004]本发明提供了基于迁移学习和注意力机制的警情短文本分类方法、系统，解决了以上问题。 [0005]为解决上述技术问题，本发明是通过以下技术方案实现的： [0006]本发明的基于迁移学习和注意力机制的警情短文本分类方法，包括如下步骤： [0007]步骤S1、清洗准备数据：输入一段警情文本，根据停用词列表和过滤词列表去除停用词和过滤词； [0008]步骤S2、迁移学习，采用已经训练好的词向量表进行文本编码，使用它获得融合语义特征和词频特征的窗口向量集合V＝[V1,V2,....Vn]，查找并表示该段警情文本中每个单字词向量； [0009]步骤S3、计算该段警情文本中每个单字的权重：根据Attention机制将得到的每个词向量Vi 通过权重矩阵参数列表乘以各个单字词向量，得到各个单字的权重； [0010]步骤S4、警情分类：将该段警情文本对应对应各个单字的权重及对应的分类分值与神经元全连接，得到分类分布，并通过softmax函数选择其中最大的即为预测分类。 [0011]优选地，所述步骤S1中停用词列表和过滤词列表具体为对警情文本分类无意义的短文或符号。 [0012]优选地，所述步骤S2中词向量表根据Bi ‑LSTM+CRF+Attention网络结构使用海量文本数据和警情数据训练而来。 [0013]优选地，所述词向量表的参数为E mbedding_size＝200维， t oken＝8234个，据此查说　明　书 1/5 页 3 CN 115080700 A 3

专利 基于迁移学习和注意力机制的警情短文本分类方法、系统

专利基于迁移学习和注意力机制的警情短文本分类方法、系统