说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221078789 2.9 (22)申请日 2022.07.06 (71)申请人 新智道枢 (上海) 科技有限公司 地址 201799 上海市青浦区徐民路3 08弄6 号楼6层 (72)发明人 王明光 邱世界 钟浩 蒋维  高友光 刘红志 吴正茂 徐佳申  曹阳 武澄 高进  (74)专利代理 机构 上海创开专利代理事务所 (普通合伙) 31374 专利代理师 汪发成 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/284(2020.01)G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/08(2006.01) (54)发明名称 基于迁移学习和注意力机制的警情短文本 分类方法、 系统 (57)摘要 本发明公开了基于迁移学习和注意力机制 的警情短文本分类方法、 系统, 涉及人工智 能领 域。 本发明包括: 根据停用词列表和过滤词列表 去除停用词和过滤词; 迁移学习, 查找并表示该 段警情文本中每个单字词向量; 计算该段警情文 本中每个单字的权重, 根据Attention机制得到 各个单字的权重; 警情分类。 本发明基于词向量 和attention注意力机制的技术解决警情文本分 类的技术难题, 词向量能够充分捕获字词信息, 对于词汇重要性打分, 可解释性强; 网络结构易 于学习, 过拟合风险小, 且预测速度相对较快; 基 于迁移学习的方式, 增加警务行业专业数据, 可 以做更充分的学习。 权利要求书1页 说明书5页 附图3页 CN 115080700 A 2022.09.20 CN 115080700 A 1.基于迁移学习和注意力机制的警情短文本分类方法, 其特 征在于, 包括如下步骤: 步骤S1、 清洗准备数据: 输入一段警情文本, 根据停用词列表和过滤词列表去除停用词 和过滤词; 步骤S2、 迁移学习, 采用已经训练好的词向量表进行文本编码, 使用它获得融合语义特 征和词频特征的窗口向量集合V=[V1,V2,....Vn], 查找并表示该段警情文本中每个单字 词向量; 步骤S3、 计算该段警情文本中每个单字的权重: 根据Attention机制将得到的每个词向 量Vi通过权重矩阵参数列表 乘以各个单字词向量, 得到各个单字的权 重; 步骤S4、 警情分类: 将该段警情文本对应对应各个单字的权重及对应的分类分值与神 经元全连接, 得到分类分布, 并通过softmax函数选择其中最大的即为预测分类。 2.根据权利要求1所述的基于迁移学习和注意力机制的警情短文本分类方法, 其特征 在于, 所述步骤S1中停用词列表和过滤词列表具体为对警情文本分类无意义的短文或符 号。 3.根据权利要求1所述的基于迁移学习和注意力机制的警情短文本分类方法, 其特征 在于, 所述步骤S2中词向量表根据Bi ‑LSTM+CRF+Attention网络结构使用海量文本数据和 警情数据训练而来。 4.根据权利要求3所述的基于迁移学习和注意力机制的警情短文本分类方法, 其特征 在于, 所述词向量表的参数为Embedding_size=2 00维, token=8234个, 据此查找得到每个 单字向量。 5.根据权利要求1所述的基于迁移学习和注意力机制的警情短文本分类方法, 其特征 在于, 所述 步骤S3中A ttention机制具体是: S=∑ αi·Vi 其中, Vi表示每个词向量, αi表示对应单个词向量的权重, S表示警情文本中各个词向量 权重构成的权 重集合。 6.根据权利要求1所述的基于迁移学习和注意力机制的警情短文本分类方法, 其特征 在于, 所述 步骤S4具体是通过如下实现: 其中, S(yi)代表每一个分类分值,x代表一段警情文本, i代表每个神经元, yi代表每个 神经元的输出。 7.基于迁移学习和注意力机制的警情短文本分类系统, 其特征在于, 采用如权利要求 1‑6任一项所述基于 迁移学习和注意力机制的警情短文本分类方法的计算机系统。 8.存储有计算机程序的计算机可读存储介质, 其特征在于, 所述计算机程序被处理器 执行时实现权利要求1 ‑6中任一项所述的方法的步骤。 9.基于迁移学习和注意力 机制的警情短文本分类设备, 其特征在于, 包括控制器, 所述 控制器包括权利要求8所述的存储有计算机程序的计算机可读存储介质, 或者, 所述控制器 包括权利要求7 所述的基于词向量的基于 迁移学习和注意力机制的警情短文本分类系统。权 利 要 求 书 1/1 页 2 CN 115080700 A 2基于迁移 学习和注意力机制的警情短文本分类方 法、 系统 技术领域 [0001]本发明属于人工智能领域, 特别是涉及应用于公安系统中基于迁移学习和注意力 机制对警情短文本的分类方法、 系统、 介质及设备。 背景技术 [0002]文本分类是自然语言处理nlp常见任务, 应用于垃圾邮件识别, 情感分析、 警情分 析、 案由推荐以及风险级别预测等方面。 对于常见的公安系统, 为了提高接警效率, 需要针 对警情文本进行判断类别并进行案由推荐, 风险警情预测, 以实现警务行业的智能化。 [0003]近年来, 有学者提出基于词袋法的方式进行警情分类, 有基于LDA主体模型的方 式, 有基于深度学习有监督的方式, 也有基于fastext和textcnn的方式, 进行警情分类。 其 它技术还包括: [1]汤英杰,刘媛华.基于预训练模型融合深层特征词向量的中文文本分类 [J/OL].上海理工大学学报: 1 ‑10[2022 ‑06‑01].https://doi.org/10.13255/ j.cnki.jusst.20211108001; [2]宋丹,陆奎,戴旭凡.基于改进的卷积神经网络邮件分类算 法研究[J].重庆工商大学学报(自然科学版),2 022,39(03):2 0‑25。 基于词袋tfidf的方式, 仅只实用词语统计的方式, 没有考虑语句语义信息, 基于LDA模式的, 对警情短文本数据, 稀 疏性太高, 不具有统计学 特征; 基于cnn和rnn等深度学习的方式, 可解释信差 。 发明内容 [0004]本发明提供了基于迁移学习和注意力机制的警情短文本分类方法、 系统, 解决了 以上问题。 [0005]为解决上述 技术问题, 本发明是通过以下技 术方案实现的: [0006]本发明的基于 迁移学习和注意力机制的警情短文本分类方法, 包括如下步骤: [0007]步骤S1、 清洗准备数据: 输入一段警情文本, 根据停用词列表和过滤词列表去除停 用词和过 滤词; [0008]步骤S2、 迁移 学习, 采用已经训练好的词向量表进行文本编码, 使用它获得融合语 义特征和词频特征的窗口向量集合V=[V1,V2,....Vn], 查找并表示该段警情文本中每个 单字词向量; [0009]步骤S3、 计算该段警情文本中每个单字的权重: 根据Attention机制将得到的每个 词向量Vi 通过权重矩阵参数列表 乘以各个单字词向量, 得到各个单字的权 重; [0010]步骤S4、 警情分类: 将该段警情文本对应对应各个单字的权重及对应 的分类分值 与神经元全连接, 得到分类分布, 并通过softmax函数选择其中最大的即为预测分类。 [0011]优选地, 所述步骤S1中停用词列表和过滤词列表具体为对警情文本分类无意义的 短文或符号。 [0012]优选地, 所述步骤S2中词向量表根据Bi ‑LSTM+CRF+Attention网络结构使用海量 文本数据和警情数据训练而来。 [0013]优选地, 所述词向量表的参数为E mbedding_size=200维, t oken=8234个, 据此查说 明 书 1/5 页 3 CN 115080700 A 3

.PDF文档 专利 基于迁移学习和注意力机制的警情短文本分类方法、系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于迁移学习和注意力机制的警情短文本分类方法、系统 第 1 页 专利 基于迁移学习和注意力机制的警情短文本分类方法、系统 第 2 页 专利 基于迁移学习和注意力机制的警情短文本分类方法、系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。